Sumário
- 19.1 INTRODUÇÃO
- 19.2 AULA
- 19.2.1 Encontrando Ótimos com Gradientes
- 19.2.2 Revelando Pontos Críticos
- 19.2.3 O Teste da Segunda Derivada Entra em Cena
- 19.2.4 Matrizes Definidas Positivas e Negativas
- 19.2.5 Revelando o Papel das Hessianas Definidas Positivas
- 19.2.6 Classificando Extremos em Duas Dimensões
- 19.2.7 Funções de Morse e o Teste da Segunda Derivada
- 19.2.8 Da Hessiana à Curvatura de Gauss
- 19.2.9 O Lema de Morse
- 19.3 EXEMPLOS
- EXERCÍCIOS
19.1 INTRODUÇÃO
19.1.1 Explorando a Aprendizagem como um Processo de Otimização
Aprendizagem é um processo de otimização com o objetivo de aumentar conhecimento, habilidades e poder criativo. Isso se aplica tanto à educação quanto ao aprendizado de máquina. Para acompanhar o processo de aprendizagem, precisamos de uma função que meça o progresso. Uma métrica antiquada é o GPA, que calcula a média de algumas notas em um sistema educacional, ou os escores de QI medidos por meio de testes. Outro exemplo de métrica em um ambiente de pesquisa é uma pontuação de rede social, como o número de citações ou o índice h. Para um carro dirigindo autonomamente, poderia ser onde é o número de acidentes produzidos usando a configuração de parâmetros em um período fixo.

19.1.2 A IA Conquistará Todos os Domínios?
Uma vez que a estrutura e a função estão fixadas, a questão é como aumentar de forma mais eficaz. Essa imagem simplista é bastante eficaz tanto para a inteligência humana quanto para a inteligência artificial. Para muitas funções que foram consideradas (vencer em jogos de xadrez, poder computacional, retenção de dados, detecção de características, dirigir carros ou pilotar aviões), as máquinas progrediram rapidamente. Quase ninguém duvida seriamente que os humanos eventualmente perderão a batalha por qualquer função que possa ser considerada. Ainda existem domínios onde as máquinas não assumiram o controle. Exemplos são a arte ou a redação de artigos científicos.1
19.1.3 A Vantagem do Aprendizado de Máquina na Otimização Baseada em Gradiente
Uma vez que uma máquina conhece a função , ela pode determinar confortavelmente, a partir de uma posição , em qual direção mudar para aumentar mais rapidamente. A direção do aumento mais rápido é a direção do gradiente de . No cálculo, analisamos situações em que a posição consiste em apenas algumas variáveis. O cálculo de uma variável trata da situação com uma variável. Aqui, analisamos a situação com variáveis, mas trabalharemos principalmente com variáveis, pois isso já fornece a ideia principal. O princípio é que atingimos um ótimo onde nenhuma mudança pode mais aumentar a função . Isso significa matematicamente que a derivada de é zero. Chamamos tais pontos de "pontos críticos".
19.1.4 Usando Gradientes para Encontrar a Direção de Melhoria
Vamos primeiro analisar a taxa de variação de uma função ao longo de uma direção . Considere uma curva onde é um vetor unitário. Pela regra da cadeia, a taxa de variação em é dada por f(r(t))=\nabla f(r(t)) \cdot r^{\prime}(0)=\nabla f(x) \cdot v. Sabemos, para o produto escalar, que isso é igual a Isso é maximizado para , o que significa que aponta na mesma direção que . Portanto, o gradiente aponta na direção do aumento máximo. É importante lembrar disso. Se você estiver em uma paisagem dada pela altura , deverá seguir a direção de para aumentar ao máximo. É claro que isso não faz sentido se , mas essa é a situação em que você está em um máximo e não pode mais aumentar .
19.2 AULA
19.2.1 Encontrando Ótimos com Gradientes
Todas as funções são consideradas aqui como sendo de classe , o que significa que são duas vezes continuamente diferenciáveis. Tudo começa com uma observação que remonta a Pierre de Fermat:
Teorema 1. Se é um máximo de , então .
Prova. Provamos isso por contradição. Suponha que , defina o vetor e considere , que é uma função de uma variável. Pela regra da cadeia, ela satisfaz g^{\prime}(0)=\nabla f(x_{0}+0 v) \cdot v=|\nabla f|^{2}>0. Isso significa que para pequeno. O ponto não pode ter sido máximo. Isso é uma contradição. ◻
19.2.2 Revelando Pontos Críticos
Um ponto com é chamado de ponto crítico de . Pela fórmula de Taylor, temos em um ponto crítico a aproximação quadrática onde é a matriz Hessiana
19.2.3 O Teste da Segunda Derivada Entra em Cena
Assim como em uma dimensão, ter um ponto crítico não garante que o ponto seja um máximo ou mínimo local. O teste da segunda derivada no cálculo de uma variável garante que, se f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})>0, temos um mínimo local e, se f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})<0, temos um máximo local. Se f^{\prime \prime}(x_{0})=0, não podemos afirmar nada sem analisar derivadas de ordem superior.
19.2.4 Matrizes Definidas Positivas e Negativas
Uma matriz é chamada de definida positiva se para todos os vetores . É chamada de definida negativa se para todos os vetores . Uma matriz diagonal com entradas diagonais positivas é definida positiva. Nas afirmações a seguir, assumimos que é um ponto crítico.
19.2.5 Revelando o Papel das Hessianas Definidas Positivas
Dizemos que é um máximo local de se existe tal que para todo . Dizemos que é um mínimo local de se para todo . Como podemos verificar se um ponto é um máximo ou mínimo local?
Teorema 2. Suponha que . Se é definida positiva, então é um mínimo local. Se é definida negativa, então é um máximo local.
Prova. Como , a aproximação quadrática em é para pequeno e não nulo, e Hessiana . A afirmação análoga para o mínimo pode ser deduzida substituindo por . ◻
19.2.6 Classificando Extremos em Duas Dimensões
Vamos analisar o caso em que é uma função de duas variáveis tal que e . A matriz Hessiana é
Neste caso bidimensional, podemos classificar os pontos críticos se o determinante de for diferente de zero. O número também é chamado de discriminante em um ponto crítico.




19.2.7 Funções de Morse e o Teste da Segunda Derivada
Dizemos que é um ponto de Morse se é um ponto crítico e o determinante é diferente de zero. Uma função de classe é uma função de Morse se todo ponto crítico é de Morse. Exemplos de funções de Morse são , e . O último caso é chamado de sela hiperbólica. Em geral, um ponto crítico é uma sela hiperbólica se e se não é nem máximo nem mínimo. Aqui está o teste da segunda derivada em dimensão :
Teorema 3. Suponha que tenha um ponto crítico com .
- Se e , então é um mínimo local.
- Se e , então é um máximo local.
- Se , então é uma sela hiperbólica.
Prova. Após a translação e substituindo por , temos e . No ponto crítico, a aproximação quadrática agora é Isso pode ser reescrito como com e discriminante . Se e , então e a função assume valores positivos para todo . O ponto é então um mínimo. Se e , então e a função assume valores negativos para todo e o ponto é um máximo local. Se , então assume tanto valores negativos quanto positivos perto de . ◻
19.2.8 Da Hessiana à Curvatura de Gauss
Pode-se perguntar por que é escolhido e não . Não importa, porque se , então ambos e precisam ser diferentes de zero e ter o mesmo sinal. Em vez de , também se poderia escolher o mais natural traço . Ele é invariante sob mudanças de coordenadas, assim como o determinante . O discriminante também é a curvatura de Gauss da superfície no ponto.
19.2.9 O Lema de Morse
Em dimensões mais altas, a situação é descrita pelo lema de Morse. Ele diz que perto de um ponto crítico há uma mudança de coordenadas tal que é uma função quadrática onde é diagonal com entradas ou . O ponto crítico pode então receber um índice de Morse, o número de entradas em . O lema de Morse é na verdade um teorema (teoremas são mais importantes que lemas=teoremas auxiliares)
Teorema 4. Perto de um ponto crítico de Morse de uma função , existe uma mudança de coordenadas tal que é
Prova. Usamos indução em relação a .
- Base da indução: Para , o resultado diz que para um ponto crítico de Morse, a função se parece com ou . Primeiro mostre que se f(0)=f^{\prime}(0)=0, f^{\prime \prime}(0) \neq 0, então ou para alguma função positiva . Prova. Por uma mudança linear de coordenadas assumimos e . Existe então tal que : é para e no limite o valor de f(0)) / x=f^{\prime}(0). Pela regra do produto, f^{\prime}(x)=g(x)+x g^{\prime}(x) com . Como f^{\prime}(0)=g(0)=0 podemos definir para e tomar o limite , porque aplicando Hôpital duas vezes, o limite é f^{\prime \prime}(0). A mudança de coordenadas é agora dada por uma função satisfazendo . A diferenciação implícita dá de modo que pelo teorema da função implícita existe.
- Passo de indução : primeiro notamos que Taylor para com termo restante implica que com algumas funções contínuas . Além disso, o valor da função são as coordenadas da Hessiana. Aplique primeiro uma rotação de modo que . Agora olhe para e mantenha as outras coordenadas constantes. Como em (i), encontre uma mudança de coordenadas tal que , onde herda as propriedades de mas é de uma dimensão a menos. Por hipótese de indução, existe uma segunda mudança de coordenadas tal que Combinando e produz a forma normal de Morse.
◻
19.3 EXEMPLOS
Exemplo 1. P: Classifique os pontos críticos de .
R: Como os pontos críticos são , , e . Calculamos Para e temos e portanto pontos de sela. Para , temos , , um máximo local. Para onde , temos um mínimo local.
EXERCÍCIOS
Exercício 1.
- Classifique os pontos críticos da função (Máximos, mínimos ou pontos de sela).
- Agora faça o mesmo para e encontre o índice de Morse em cada ponto crítico.
Exercício 2. Encontre todos os pontos críticos da função D área Calcule a Hessiana em cada ponto crítico e determine os máximos (todos os autovalores são negativos) e mínimos (todos os autovalores são positivos).
P.S. Área é algo antigo. Mas a Área D ainda é altamente classificada e há rumores de que fica perto do lado escuro da lua.
Exercício 3. Onde na superfície parametrizada a temperatura é mínima. Classifique todos os pontos críticos da função . [Se você encontrou a função , pode substituir , novamente por , se preferir trabalhar com uma função .]
Exercício 4. Encontre todos os pontos críticos da função Em cada um dos casos, encontre a matriz Hessiana. Aqui também calcule os autovalores. Estes são números tais que para algum vetor não nulo. Pode-se encontrá-los procurando as raízes do polinômio característico . Você pode calculá-los em um computador. Encontre em cada caso os autovalores.
Exercício 5.
- Encontre uma função com máximos e pontos de sela e um mínimo.
- Você vê abaixo um mapa de contorno de uma função de duas variáveis. Quantos pontos críticos existem? A função é uma função de Morse?

- Pode haver resistência: os humanos podem decidir não citar descobertas científicas feitas por máquinas. Por outro lado, quem não gostaria de aprender uma "teoria de tudo" mesmo que seja descoberta por uma máquina?↩︎