Contenido
Este artículo marca la tercera entrega de una serie titulada Revisión de Investigación en Aprendizaje Profundo, que tiene como objetivo resumir y clarificar artículos de investigación en varios subcampos del aprendizaje profundo. El enfoque actual está en el Procesamiento de Lenguaje Natural (PLN), un dominio que se ocupa de construir sistemas capaces de entender y procesar el lenguaje humano para realizar tareas como Respuesta a Preguntas (como Siri o Alexa), Análisis de Sentimientos, Mapeos de Imagen a Texto, Traducción Automática, Reconocimiento de Voz, Etiquetado de Partes del Discurso y Reconocimiento de Entidades Nombradas. Las entregas anteriores cubrieron Aprendizaje por Refuerzo y Redes Generativas Antagónicas, sentando una base para esta exploración de cómo las técnicas de aprendizaje profundo mejoran el PLN.\n\nTradicionalmente, el PLN dependía en gran medida del conocimiento lingüístico del dominio, que abarca conceptos como fonemas y morfemas. Por ejemplo, descomponer una palabra como "uninterested" en prefijo, raíz y sufijo ayuda a descifrar su sentimiento y significado aprovechando reglas lingüísticas — "un" indicando negación, "interest" como la raíz y "ed" marcando tiempo pasado. Sin embargo, tener en cuenta manualmente todos los prefijos y sufijos en inglés requeriría una amplia experiencia lingüística y aún probablemente perdería muchos matices, haciendo que los métodos tradicionales sean laboriosos y limitados en escalabilidad.\n\nEl aprendizaje profundo ofrece un enfoque transformador al centrarse en el aprendizaje de representaciones. De manera similar a cómo las redes neuronales convolucionales (CNNs) aprenden características de imágenes mediante filtros, los modelos de aprendizaje profundo en PLN buscan aprender representaciones de palabras a partir de grandes conjuntos de datos. Este cambio desplaza el énfasis de características hechas a mano a incrustaciones basadas en datos, permitiendo que los modelos capturen significados y contextos de palabras de manera más flexible y completa.\n\nUn concepto fundamental en el PLN basado en aprendizaje profundo es representar palabras como vectores en un espacio multidimensional. Por ejemplo, una palabra podría representarse como un vector de seis dimensiones, con cada dimensión codificando algún aspecto del significado o contexto de la palabra. Un método básico para inicializar estos vectores es construyendo una matriz de co-ocurrencia, que cuenta con qué frecuencia cada palabra aparece cerca de cada otra palabra en el corpus de entrenamiento. Extraer filas de esta matriz proporciona vectores iniciales de palabras, donde palabras similares tienden a tener patrones vectoriales similares. Por ejemplo, palabras como "love" y "like" muestran conteos de co-ocurrencia similares con sustantivos como "NLP" y "dogs", y pronombres como "I", indicando propiedades semánticas compartidas.\n\nSin embargo, el enfoque de matriz de co-ocurrencia escala mal. Con un vocabulario grande, como un millón de palabras, la matriz se vuelve prohibitivamente grande y dispersa, resultando en ineficiencia tanto en almacenamiento como en cálculo. Para superar esto, se han desarrollado métodos más sofisticados como Word2Vec. Word2Vec genera incrustaciones compactas de palabras entrenando un modelo para predecir palabras circundantes dentro de una ventana especificada para cada palabra central. Por ejemplo, dada la oración "I love NLP and I like dogs," con una ventana de tamaño tres, el modelo intenta maximizar la probabilidad de las palabras de contexto que rodean la palabra central "love."\n\nEl entrenamiento optimiza una función que suma las probabilidades logarítmicas de ocurrencia para las palabras de contexto dado la palabra central, utilizando descenso de gradiente estocástico para actualizar los vectores. Cada palabra tiene dos representaciones vectoriales distintas: una cuando es la palabra central y otra cuando aparece en el contexto. A pesar de su complejidad matemática, Word2Vec avanza significativamente las representaciones vectoriales de palabras al permitir capturar relaciones semánticas y sintácticas.\n\nUn resultado notable del entrenamiento de Word2Vec es la aparición de relaciones lineales entre vectores de palabras. Estas relaciones codifican analogías gramaticales y semánticas, como la aritmética vectorial que refleja "king" – "man" + "woman" ≈ "queen." Esta propiedad destaca el poder de arquitecturas neuronales simples combinadas con objetivos de entrenamiento apropiados para capturar conceptos complejos del lenguaje. Así, Word2Vec no solo ofrece incrustaciones eficientes sino también profundas ideas sobre la estructura del lenguaje aprendidas a partir de datos en lugar de reglas lingüísticas.