Visualización de redes neuronales lineales por tramos - News

Las redes neuronales son frecuentemente consideradas modelos opacos y de caja negra que aproximan funciones sin una interpretabilidad clara. Sin embargo, enfoques teóricos nos permiten describir y visualizar su funcionamiento interno de manera más transparente. Una propiedad clave que muchas redes neuronales comparten es la linealidad por tramos, lo que significa que la función representada por la red puede descomponerse en múltiples segmentos lineales, aunque la función global sea no lineal. Esta característica surge prominentemente en redes que usan la función de activación Unidad Lineal Rectificada (ReLU), que en sí misma está definida por dos piezas lineales que se encuentran en cero. Dada la adopción generalizada de activaciones ReLU, examinar redes construidas alternando transformaciones lineales y no linealidades ReLU ofrece valiosos conocimientos sobre su comportamiento.\n\nPara ilustrar, considere una red neuronal simple con dos neuronas de entrada y una neurona de salida que emplea activación ReLU. Cuando se visualiza en tres dimensiones, con variables de entrada en los ejes x e y y la salida en el eje z, la ReLU divide el espacio de entrada en dos regiones lineales: una donde la activación está apagada (salida cero) y otra donde está encendida (salida lineal positiva). Es importante que la función aprendida por tal red debe ser continua y lineal por tramos, excluyendo discontinuidades donde las piezas lineales no se alinean en sus límites.\n\nExpandir la red para incluir ocho neuronas de salida en una sola capa aumenta la complejidad de la partición lineal por tramos del espacio de entrada. Las activaciones ReLU crean múltiples límites, dividiendo el plano de entrada en polígonos, cada uno correspondiente a un patrón único de activaciones neuronales (algunas neuronas encendidas, otras apagadas). Aunque teóricamente podría haber 2^8, o 256, patrones de activación, las restricciones geométricas limitan este número a 37 regiones factibles en dos dimensiones, conocidas como el octavo número poligonal central, con 32 regiones típicamente visibles. Esta disposición de líneas y polígonos se denomina complejo poliédrico, representando la descomposición lineal por tramos de la red.\n\nAgregar una segunda capa con ocho neuronas ReLU refina aún más esta partición. Los límites de decisión de la segunda capa permanecen lineales dentro de cada región definida por la primera capa pero introducen "quiebres" al cruzar de una región a otra, reflejando cambios en los patrones de activación. Algunos patrones de activación se vuelven inviables dependiendo de sesgos y entradas, terminando efectivamente ciertos límites. El proceso para calcular estas regiones implica iterar a través de todos los patrones de activación posibles dentro de cada región padre y probar la factibilidad resolviendo desigualdades lineales derivadas de los parámetros de la red.\n\nPara la tercera capa, las particiones lineales por tramos desarrollan estructuras intrincadas, similares a curvas, a pesar de estar compuestas por segmentos lineales. La visualización de estas regiones, coloreadas por magnitud de salida, revela cómo ciertas áreas producen valores de salida más altos, apareciendo más brillantes en la representación gráfica. Volver a vistas tridimensionales ofrece una comprensión intuitiva del paisaje funcional de la red.\n\nEsta exploración se ha centrado hasta ahora en una sola red neuronal entrenada para aproximar el patrón de anillos de Jane Street. Sin embargo, el complejo poliédrico evoluciona dinámicamente a medida que cambian los pesos de la red. Partiendo de una red no entrenada e inicializada aleatoriamente, el espacio de entrada se divide en solo unos pocos polígonos grandes, representando aproximaciones lineales por tramos toscas. A medida que avanza el entrenamiento y los pesos se ajustan, la complejidad aumenta, resultando en muchos polígonos más pequeños y límites de decisión más matizados que aproximan mejor las formas objetivo.\n\nRicson, quien forma parte del equipo de investigación de Jane Street desde 2020, realiza este trabajo junto con sus intereses en astrofotografía y modelado de lenguaje. Su investigación destaca tanto el poder como la interpretabilidad de las redes neuronales lineales por tramos, proporcionando herramientas para visualizar y entender cómo tales modelos particionan espacios de entrada mediante activaciones ReLU en capas.

Loading...

Elección del Editor