Analytical variation in the generalization of deep feed-forward neural networks (2021)
- Authors:
- Autor USP: NEVES, CARLOS GUATIMOSIM - IME
- Unidade: IME
- Sigla do Departamento: MAP
- Subjects: REDES NEURAIS; INTELIGÊNCIA ARTIFICIAL; APRENDIZADO COMPUTACIONAL
- Keywords: Analytical learning; Aprendizado analítico; Aprendizado estatístico; Aprendizado profundo; Artificial intelligence; Deep learning; Erro de generalização; Generalization error; Generalization gap; Generalization theory; Hardy-Krause variation; Machine learning; Neural networks; Regularização; Regularization; Statistical learning; Teoria da generalização; Variação de Hardy-Krause
- Agências de fomento:
- Language: Inglês
- Abstract: A essência do Aprendizado de Máquina pode ser resumida como: revelar padrões implícitos nos dados tendo em posse apenas uma amostra finita. A Teoria que estuda essa questão é vasta, e duas quantidades são de particular importância: os erros do modelo dentro e fora da amostra. O primeiro é chamado de erro de treinamento, e mede a performance dentro do conjunto usado para otimizar. O segundo é a média do erro em todas as amostras, e pode ser compreendido como o erro real. Apesar do verdadeiro indicador de performance ser o erro real, podemos calcular apenas a performance dentro da amostra, que é uma estimativa empírica. Portanto, para deduzir o padrão geral, é necessário que tais erros sejam similares. A distância entre estes erros é chamada de generalization gap, e grande parte da teoria se dedica a estudar as suas propriedades e limites superiores. Ele é uma medida da habilidade do modelo de induzir corretamente o comportamento global, e é um tópico central em todas as aplicações de Aprendizagem de Máquina. A visão clássica da Estatística correlaciona a propriedade de generalização com a capacidade do modelo de ajustar os dados. A ideia é de que, se o modelo é capaz de performar em diversas configurações, então ele será sensível a ruídos presentes, e então performará mal fora da amostra. Entretanto, a definição de complexidade de um modelo é vaga, e apesar de muitas vezes ser caracterizado pelo número de parâmetros, existe um espaço de hipóteses que aparentemente escapaessa intuição. É o caso das redes neurais profundas. Fazer uso de redes com muitas camadas (aprendizado profundo) está provando ser um dos melhores paradigmas de modelagem em diversos problemas de referência, e os avanços da indústria se devem em grande parte ao seu grande sucesso. Entretanto, isso aparentemente contradiz o que a teoria de Aprendizado Estatístico nos fala sobre complexidade e generalização, já que redes profundas são capazes de ajustar diversos padrões. De fato, existem experimentos que mostram que elas podem ajustar até variáveis respostas aleatórias. Esse possível paradoxo é uma questão em aberto na área e é o principal tópico neste estudo. Após uma introdução e revisão sobre a teoria clássica de generalização, nós introduzir o trabalho de [20], que é central para as nossas contribuições. Nele é proposta uma nova abordagem chamada de Analytical Learning com o intuito de complementar o entendimento clássico, almejando trazer uma nova visão sobre essa aparente contradição revelada pelo aprendizado profundo. Neste artigo, ao invés de analisar limites de natureza probabilística, o generalization gap é estudado em um contexto onde o preditor e o conjunto de dados é fixo. Assim, desconsideramos os casos pessimistas, e uma majoração mais precisa poderia ser alcançada. Além disso, essa proposta considera um cenário mais real, pois na prática a amostra é dada. O principal resultado de [20] é uma majoração que envolve um termo relacionado aos dados, e um outrorelacionado à Variação de Hardy-Krause da função perda. Nossa principal contribuição envolve traçar similaridades entre esse termo de variação com a noção de estabilidade estudada na abordagem estatística da generalização, fazendo paralelos com o que pode ser entendido no caso Analítico como informação. A ideia principal é que a variação da função perda decresce se as derivadas parciais do preditor são próximas das do oráculo. Dessa forma, as derivadas nesse sentido podem ser compreendidas como a quantidade de informação que está sendo usada, já que ela mede o impacto de uma certa dimensão na predição local. Portanto, se o preditor lê a informação da mesma forma que a função que gerou os dados, então podemos garantir uma aproximação do erro de treinamento com o erro real. Com isso, argumentamos que a derivada parcial é a principal forma de medir a regularização de um modelo no sentido analítico. Uma das vantagens dessa abordagem é simplicidade: reescrevendo o passo de otimização do DGE (descida pelo gradiente estocástico) no espaço das funções, adquirimos uma forma simples de investigar a evolução da complexidade do modelo durante o treinamento. Ademais, usamos essa interpretação para elaborar em recentes artigos abordando o problema da generalização em aprendizado profundo, [28] e [37]. No primeiro fazemos uma análise extensiva, enquanto no segundo fazemos uma análise qualitativa mais abreviada, mostrando como nossa interpretação se relaciona com os resultados nelespresentes. Em [28], a complexidade das redes neurais é estudada sob a lente da Teoria de Fourier. Nele é mostrado que o espaço de redes ReLU (Rectifier Linear Unit) apresenta um decaimento espectral particularmente intenso: durante a otimização, os incrementos no k-ésimo harmônico decorrente da atualização dos pesos decresce com pelo menos k². Isso significa que as magnitudes de frequências mais altas são naturalmente amortecidas durante o treinamento, sugerindo uma propriedade regularizadora intrínseca no espaço. Apesar disso, em momento algum [28] menciona o generalization gap, e portanto não é claro se o decaimento espectral é suficiente para garantir que o erro de treinamento seja uma boa estimativa do erro real. Motivados por isso, mostramos um limite superior usando a Variação de Hardy-Krause em splines que decresce com o grau, justificando as propriedades especiais da função de ligação ReLU. O principal teorema em [37] mostra que, para arquiteturas com um formato de funil (quando o número de neurônios decresce à medida que nos aprofundamos na rede), aumentar o número de camadas implica em uma redução no generalization gap, fundamentando portanto o aprendizado profundo nesses casos. Isso ocorre pois uma arquitetura com tal formato força núcleos não triviais nas transformações lineares, o que implica em uma perda de informação. Ou seja, ao aumentar o número de camadas, a quantidade de informação nos dados usada pelo preditor diminui, tornando a predição menosdependente da amostra, e portanto regularizada. Esse resultado se relaciona muito com a nossa interpretação de informação no sentido analítico. Ter um núcleo não trivial na arquitetura significa que em alguns casos a predição vai permanecer inalterada com relação à mudanças em certas dimensões. Isso implica que a variação geral (no sentido de derivadas) será menor, o que de acordo com a teoria do Aprendizado Analítico, acarreta em uma melhor estimativa do erro real
- Imprenta:
- Data da defesa: 26.01.2021
-
ABNT
NEVES, Carlos Guatimosim. Analytical variation in the generalization of deep feed-forward neural networks. 2021. Dissertação (Mestrado) – Universidade de São Paulo, São Paulo, 2021. Disponível em: https://www.teses.usp.br/teses/disponiveis/45/45132/tde-19042021-202404/. Acesso em: 25 fev. 2026. -
APA
Neves, C. G. (2021). Analytical variation in the generalization of deep feed-forward neural networks (Dissertação (Mestrado). Universidade de São Paulo, São Paulo. Recuperado de https://www.teses.usp.br/teses/disponiveis/45/45132/tde-19042021-202404/ -
NLM
Neves CG. Analytical variation in the generalization of deep feed-forward neural networks [Internet]. 2021 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45132/tde-19042021-202404/ -
Vancouver
Neves CG. Analytical variation in the generalization of deep feed-forward neural networks [Internet]. 2021 ;[citado 2026 fev. 25 ] Available from: https://www.teses.usp.br/teses/disponiveis/45/45132/tde-19042021-202404/
How to cite
A citação é gerada automaticamente e pode não estar totalmente de acordo com as normas
