Visualização de redes neurais lineares por partes - News

As redes neurais são frequentemente consideradas modelos opacos, caixas-pretas que aproximam funções sem interpretabilidade clara. No entanto, abordagens teóricas permitem descrever e visualizar o seu funcionamento interno de forma mais transparente. Uma propriedade chave que muitas redes neurais partilham é a linearidade por partes, significando que a função representada pela rede pode ser decomposta em múltiplos segmentos lineares, embora a função global seja não linear. Esta característica surge proeminentemente em redes que usam a função de ativação Unidade Linear Retificada (ReLU), que por si só é definida por duas peças lineares que se encontram em zero. Dada a adoção generalizada das ativações ReLU, examinar redes construídas alternando transformações lineares e não linearidades ReLU oferece insights valiosos sobre o seu comportamento.\n\nPara ilustrar, considere uma rede neural simples com dois neurónios de entrada e um neurónio de saída que emprega ativação ReLU. Quando visualizada em três dimensões, com variáveis de entrada nos eixos x e y e saída no eixo z, a ReLU divide o espaço de entrada em duas regiões lineares: uma onde a ativação está desligada (saída zero) e outra onde está ligada (saída linear positiva). Importa salientar que a função aprendida por tal rede deve ser contínua e linear por partes, impedindo descontinuidades onde as peças lineares não se alinham nas suas fronteiras.\n\nExpandir a rede para incluir oito neurónios de saída numa única camada aumenta a complexidade da partição linear por partes do espaço de entrada. As ativações ReLU criam múltiplas fronteiras, dividindo o plano de entrada em polígonos, cada um correspondendo a um padrão único de ativações neuronais (alguns neurónios ligados, outros desligados). Embora teoricamente possam existir 2^8, ou 256, padrões de ativação, restrições geométricas limitam este número a 37 regiões viáveis em duas dimensões, conhecidas como o 8º número poligonal central, com 32 regiões tipicamente visíveis. Esta disposição de linhas e polígonos é referida como um complexo poliédrico, representando a decomposição linear por partes da rede.\n\nAdicionar uma segunda camada com oito neurónios ReLU refina ainda mais esta partição. As fronteiras de decisão da segunda camada permanecem lineares dentro de cada região definida pela primeira camada, mas introduzem "dobras" ao cruzar de uma região para outra, refletindo mudanças nos padrões de ativação. Alguns padrões de ativação tornam-se inviáveis dependendo dos enviesamentos e entradas, terminando efetivamente certas fronteiras. O processo para calcular estas regiões envolve iterar por todos os padrões de ativação possíveis dentro de cada região pai e testar a viabilidade resolvendo desigualdades lineares derivadas dos parâmetros da rede.\n\nNa terceira camada, as partições lineares por partes desenvolvem estruturas intrincadas, semelhantes a curvas, apesar de serem compostas por segmentos lineares. A visualização destas regiões, coloridas pela magnitude da saída, revela como certas áreas produzem valores de saída mais elevados, aparecendo mais brilhantes na representação gráfica. A transição de volta para vistas tridimensionais oferece uma compreensão intuitiva da paisagem funcional da rede.\n\nEsta exploração focou-se até agora numa única rede neural treinada para aproximar o padrão dos anéis Jane Street. No entanto, o complexo poliédrico evolui dinamicamente à medida que os pesos da rede mudam. Começando com uma rede aleatoriamente inicializada e não treinada, o espaço de entrada divide-se em apenas alguns grandes polígonos, representando aproximações lineares por partes grosseiras. À medida que o treino progride e os pesos se ajustam, a complexidade aumenta, resultando em muitos polígonos menores e fronteiras de decisão mais detalhadas que melhor aproximam as formas alvo.\n\nRicson, que faz parte da equipa de investigação Jane Street desde 2020, conduz este trabalho paralelamente aos seus interesses em astrofotografia e modelação de linguagem. A sua investigação destaca tanto o poder como a interpretabilidade das redes neurais lineares por partes, fornecendo ferramentas para visualizar e compreender como tais modelos partem os espaços de entrada através de ativações ReLU em camadas.

Loading...

Escolha do Editor