Visualisation des réseaux neuronaux linéaires par morceaux - News

Les réseaux neuronaux sont fréquemment considérés comme des modèles opaques en boîte noire qui approximent des fonctions sans interprétabilité claire. Cependant, des approches théoriques nous permettent de décrire et de visualiser leur fonctionnement interne de manière plus transparente. Une propriété clé que partagent de nombreux réseaux neuronaux est la linéarité par morceaux, ce qui signifie que la fonction représentée par le réseau peut être décomposée en plusieurs segments linéaires, même si la fonction globale est non linéaire. Cette caractéristique apparaît de manière marquée dans les réseaux utilisant la fonction d'activation Rectified Linear Unit (ReLU), qui elle-même est définie par deux segments linéaires se rejoignant en zéro. Étant donné l'adoption généralisée des activations ReLU, examiner les réseaux construits en alternant transformations linéaires et non-linéarités ReLU offre des perspectives précieuses sur leur comportement.\n\nPour illustrer, considérons un réseau neuronal simple avec deux neurones d'entrée et un neurone de sortie utilisant l'activation ReLU. Lorsqu'il est visualisé en trois dimensions, avec les variables d'entrée sur les axes x et y et la sortie sur l'axe z, la ReLU divise l'espace d'entrée en deux régions linéaires : une où l'activation est éteinte (sortie nulle) et une où elle est allumée (sortie linéaire positive). Il est important que la fonction apprise par un tel réseau soit continue et linéaire par morceaux, excluant les discontinuités où les segments linéaires ne s'alignent pas à leurs frontières.\n\nL'extension du réseau pour inclure huit neurones de sortie dans une seule couche augmente la complexité du partitionnement linéaire par morceaux de l'espace d'entrée. Les activations ReLU créent plusieurs frontières, divisant le plan d'entrée en polygones, chacun correspondant à un motif unique d'activations neuronales (certains neurones activés, d'autres non). Bien que théoriquement il puisse y avoir 2^8, soit 256, motifs d'activation, les contraintes géométriques limitent ce nombre à 37 régions réalisables en deux dimensions, connues sous le nom de 8e nombre polygonal central, avec 32 régions généralement visibles. Cet agencement de lignes et de polygones est appelé complexe polyédrique, représentant la décomposition linéaire par morceaux du réseau.\n\nL'ajout d'une deuxième couche avec huit neurones ReLU affine davantage ce partitionnement. Les frontières de décision de la deuxième couche restent linéaires dans chaque région définie par la première couche mais introduisent des "coudes" lorsqu'elles traversent d'une région à une autre, reflétant des changements dans les motifs d'activation. Certains motifs d'activation deviennent irréalisables selon les biais et les entrées, mettant effectivement fin à certaines frontières. Le processus pour calculer ces régions implique d'itérer sur tous les motifs d'activation possibles dans chaque région parente et de tester la faisabilité en résolvant des inégalités linéaires dérivées des paramètres du réseau.\n\nÀ la troisième couche, les partitions linéaires par morceaux développent des structures complexes, semblables à des courbes, malgré leur composition de segments linéaires. La visualisation de ces régions, colorées selon la magnitude de la sortie, révèle comment certaines zones produisent des valeurs de sortie plus élevées, apparaissant plus lumineuses dans la représentation graphique. Le retour à des vues tridimensionnelles offre une compréhension intuitive du paysage fonctionnel du réseau.\n\nCette exploration s'est jusqu'à présent concentrée sur un seul réseau neuronal entraîné pour approximer le motif des anneaux Jane Street. Cependant, le complexe polyédrique évolue dynamiquement à mesure que les poids du réseau changent. Partant d'un réseau initialisé aléatoirement et non entraîné, l'espace d'entrée se divise en seulement quelques grands polygones, représentant des approximations linéaires par morceaux grossières. Au fur et à mesure de l'entraînement et de l'ajustement des poids, la complexité augmente, résultant en de nombreux polygones plus petits et des frontières de décision plus nuancées qui approchent mieux les formes cibles.\n\nRicson, qui fait partie du bureau de recherche Jane Street depuis 2020, mène ce travail parallèlement à ses intérêts pour l'astrophotographie et la modélisation linguistique. Sa recherche met en lumière à la fois la puissance et l'interprétabilité des réseaux neuronaux linéaires par morceaux, fournissant des outils pour visualiser et comprendre comment ces modèles partitionnent les espaces d'entrée via des activations ReLU en couches.

Loading...

Choix de l'Éditeur