Contenu
Cet article marque la troisième entrée d'une série intitulée Revue de recherche en apprentissage profond, qui vise à résumer et clarifier des articles de recherche dans divers sous-domaines de l'apprentissage profond. L'accent actuel est mis sur le Traitement du Langage Naturel (NLP), un domaine concerné par la construction de systèmes capables de comprendre et de traiter la langue humaine pour accomplir des tâches telles que la réponse aux questions (comme Siri ou Alexa), l'analyse de sentiment, la correspondance image-texte, la traduction automatique, la reconnaissance vocale, l'étiquetage des parties du discours et la reconnaissance d'entités nommées. Les volets précédents couvraient l'apprentissage par renforcement et les réseaux antagonistes génératifs, posant les bases de cette exploration sur la manière dont les techniques d'apprentissage profond améliorent le NLP.\n\nTraditionnellement, le NLP reposait fortement sur les connaissances linguistiques, englobant des concepts tels que les phonèmes et les morphèmes. Par exemple, décomposer un mot comme "uninterested" en préfixe, racine et suffixe aide à déchiffrer son sentiment et sa signification en s'appuyant sur des règles linguistiques — "un" indiquant la négation, "interest" comme racine, et "ed" marquant le passé. Cependant, prendre en compte manuellement tous les préfixes et suffixes anglais nécessiterait une expertise linguistique étendue et manquerait probablement de nombreuses nuances, rendant les méthodes traditionnelles laborieuses et limitées en évolutivité.\n\nL'apprentissage profond offre une approche transformative en se concentrant sur l'apprentissage de représentations. Tout comme les réseaux de neurones convolutionnels (CNN) apprennent les caractéristiques d'images via des filtres, les modèles d'apprentissage profond en NLP visent à apprendre des représentations de mots à partir de grands ensembles de données. Ce changement déplace l'accent des caractéristiques faites à la main vers des embeddings basés sur les données, permettant aux modèles de capturer les significations et contextes des mots de manière plus flexible et complète.\n\nUn concept fondamental dans le NLP basé sur l'apprentissage profond est la représentation des mots sous forme de vecteurs dans un espace multidimensionnel. Par exemple, un mot pourrait être représenté par un vecteur à six dimensions, chaque dimension codant un aspect du sens ou du contexte du mot. Une méthode basique pour initialiser ces vecteurs consiste à construire une matrice de cooccurrence, qui compte la fréquence d'apparition de chaque mot à proximité de chaque autre mot dans le corpus d'entraînement. Extraire des lignes de cette matrice fournit des vecteurs de mots initiaux, où des mots similaires tendent à avoir des motifs vectoriels similaires. Par exemple, des mots comme "love" et "like" montrent des comptes de cooccurrence similaires avec des noms tels que "NLP" et "dogs", et des pronoms comme "I", indiquant des propriétés sémantiques partagées.\n\nCependant, l'approche de la matrice de cooccurrence évolue mal. Avec un vocabulaire large, comme un million de mots, la matrice devient prohibitivement grande et creuse, entraînant une inefficacité tant en stockage qu'en calcul. Pour surmonter cela, des méthodes plus sophistiquées comme Word2Vec ont été développées. Word2Vec génère des embeddings de mots compacts en entraînant un modèle à prédire les mots environnants dans une fenêtre spécifiée pour chaque mot central. Par exemple, donnée la phrase "I love NLP and I like dogs," avec une taille de fenêtre de trois, le modèle tente de maximiser la probabilité des mots de contexte entourant le mot central "love."\n\nL'entraînement optimise une fonction qui somme les log-probabilités d'occurrence des mots de contexte donnés le mot central, utilisant la descente de gradient stochastique pour mettre à jour les vecteurs. Chaque mot a deux représentations vectorielles distinctes : une lorsqu'il est le mot central et une lorsqu'il apparaît dans le contexte. Malgré sa complexité mathématique, Word2Vec fait progresser significativement les représentations vectorielles des mots en permettant de capturer les relations sémantiques et syntaxiques.\n\nUn résultat remarquable de l'entraînement Word2Vec est l'émergence de relations linéaires entre vecteurs de mots. Ces relations codent des analogies grammaticales et sémantiques, telles que l'arithmétique vectorielle reflétant "king" – "man" + "woman" ≈ "queen." Cette propriété souligne la puissance des architectures neuronales simples combinées à des objectifs d'entraînement appropriés pour capturer des concepts linguistiques complexes. Ainsi, Word2Vec offre non seulement des embeddings efficaces mais aussi des insights profonds sur la structure du langage appris à partir des données plutôt que des règles linguistiques.