Tabla de contenidos
- 19.1 INTRODUCCIÓN
- 19.2 LECCIÓN
- 19.2.1 Encontrando óptimos con gradientes
- 19.2.2 Revelando los puntos críticos
- 19.2.3 Entra en juego el test de la segunda derivada
- 19.2.4 Matrices definidas positivas y negativas
- 19.2.5 Revelando el papel de las hessianas definidas positivas
- 19.2.6 Clasificación de extremos en dos dimensiones
- 19.2.7 Funciones de Morse y el test de la segunda derivada
- 19.2.8 De la hessiana a la curvatura de Gauss
- 19.2.9 El lema de Morse
- 19.3 EJEMPLOS
- EJERCICIOS
19.1 INTRODUCCIÓN
19.1.1 Explorando el aprendizaje como un proceso de optimización
El aprendizaje es un proceso de optimización con el objetivo de aumentar el conocimiento, las habilidades y el poder creativo. Esto se aplica tanto a la educación como al aprendizaje automático. Para seguir el proceso de aprendizaje, necesitamos una función que mida el progreso. Una métrica anticuada es el promedio de calificaciones (GPA) que promedia algunas notas en un sistema educativo, u otras puntuaciones de CI medidas mediante pruebas. Otro ejemplo de métrica en un entorno de investigación es una puntuación de red social como el número de citas o el índice h. Para un coche que conduce de forma autónoma, podría ser donde es el número de accidentes producidos usando la configuración de parámetros en un período fijo.

19.1.2 ¿Conquistará la IA todos los dominios?
Una vez que el marco de trabajo y la función están fijos, la pregunta es cómo aumentar de la manera más efectiva. Esta imagen simplista es bastante efectiva tanto para la inteligencia humana como para la inteligencia artificial. Para muchas funciones que se han considerado (ganar en partidas de ajedrez, potencia computacional, retención de datos, detección de características, conducción de coches o pilotaje de aviones), las máquinas progresaron rápidamente. Prácticamente nadie duda seriamente de que los humanos eventualmente perderán la batalla por cualquier función que pueda considerarse. Todavía hay dominios donde las máquinas no han tomado el control. Ejemplos son el arte o la escritura de artículos científicos.1
19.1.3 Ventaja del aprendizaje automático en la optimización basada en gradientes
Una vez que una máquina conoce la función , puede determinar cómodamente desde una posición en qué dirección cambiar para aumentar más rápidamente. La dirección de aumento más rápido es la dirección del gradiente de . En cálculo, observamos situaciones donde la posición consiste en solo unas pocas variables. El cálculo de una sola variable trata la situación de una variable. Aquí observamos la situación con variables, pero trabajaremos principalmente con variables, ya que esto ya da la idea principal. El principio es que hemos alcanzado un óptimo donde ningún cambio puede aumentar más la función . Esto significa matemáticamente que la derivada de es cero. Llamamos a tales puntos "puntos críticos".
19.1.4 Uso de gradientes para encontrar la dirección de mejora
Veamos primero la tasa de cambio de una función a lo largo de una dirección . Tomemos una curva donde es un vector unitario. Por la regla de la cadena, la tasa de cambio en está dada por f(r(t))=\nabla f(r(t)) \cdot r^{\prime}(0)=\nabla f(x) \cdot v. Sabemos para el producto escalar que esto es igual a Esto se maximiza para , lo que significa que apunta en la misma dirección que . Así, el gradiente apunta en la dirección de máximo aumento. Esto es importante recordarlo. Si te encuentras en un paisaje dado por la altura , tienes que ir en la dirección de para aumentar más. Por supuesto, esto no tiene sentido si , pero esa es la situación en la que estás en un máximo y donde ya no puedes aumentar más .
19.2 LECCIÓN
19.2.1 Encontrando óptimos con gradientes
Se asume aquí que todas las funciones están en , lo que significa que son dos veces continuamente diferenciables. Todo comienza con una observación que se remonta a Pierre de Fermat:
Teorema 1. Si es un máximo de , entonces .
Demostración. Demostramos esto por contradicción. Supongamos que , definimos el vector y observamos , que es una función de una variable. Por la regla de la cadena, satisface g^{\prime}(0)=\nabla f(x_{0}+0 v) \cdot v=|\nabla f|^{2}>0. Esto significa que para pequeño. El punto no puede haber sido máximo. Esto es una contradicción. ◻
19.2.2 Revelando los puntos críticos
Un punto con se llama un punto crítico de . Por la fórmula de Taylor, tenemos en un punto crítico la aproximación cuadrática donde es la matriz hessiana
19.2.3 Entra en juego el test de la segunda derivada
Como en una dimensión, tener un punto crítico no asegura que un punto sea un máximo o mínimo local. El test de la segunda derivada en el cálculo de una variable asegura que si f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})>0, tenemos un mínimo local y si f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})<0, tenemos un máximo local. Si f^{\prime \prime}(x_{0})=0, no podemos decir nada sin mirar derivadas de orden superior.
19.2.4 Matrices definidas positivas y negativas
Una matriz se llama definida positiva si para todos los vectores . Se llama definida negativa si para todos los vectores . Una matriz diagonal con entradas diagonales positivas es definida positiva. En las siguientes afirmaciones, suponemos que es un punto crítico.
19.2.5 Revelando el papel de las hessianas definidas positivas
Decimos que es un máximo local de si existe tal que para todos los . Decimos que es un mínimo local de si para todos los . ¿Cómo podemos comprobar si un punto es un máximo o mínimo local?
Teorema 2. Supongamos que . Si es definida positiva, entonces es un mínimo local. Si es definida negativa, entonces es un máximo local.
Demostración. Como , la aproximación cuadrática en es para pequeño y no nulo y hessiana . La afirmación análoga para el mínimo se puede deducir reemplazando por . ◻
19.2.6 Clasificación de extremos en dos dimensiones
Veamos el caso en que es una función de dos variables tal que y . La matriz hessiana es
En este caso bidimensional, podemos clasificar los puntos críticos si el determinante de es distinto de cero. El número también se llama el discriminante en un punto crítico.




19.2.7 Funciones de Morse y el test de la segunda derivada
Decimos que es un punto de Morse si es un punto crítico y el determinante es distinto de cero. Una función es una función de Morse si cada punto crítico es Morse. Ejemplos de funciones de Morse son , y . El último caso se llama una silla hiperbólica. En general, un punto crítico es una silla hiperbólica si y si no es ni un máximo ni un mínimo. Aquí está el test de la segunda derivada en dimensión :
Teorema 3. Supongamos que tiene un punto crítico con .
- Si y , entonces es un mínimo local.
- Si y , entonces es un máximo local.
- Si , entonces es una silla hiperbólica.
Demostración. Tras la traslación y reemplazando con , tenemos y . En el punto crítico, la aproximación cuadrática es ahora Esto se puede reescribir como con y discriminante . Si y , entonces y la función toma valores positivos para todo . El punto es entonces un mínimo. Si y , entonces y la función toma valores negativos para todo y el punto es un máximo local. Si , entonces toma tanto valores negativos como positivos cerca de . ◻
19.2.8 De la hessiana a la curvatura de Gauss
Uno puede preguntarse por qué se elige y no . No importa, porque si , entonces ambos y deben ser distintos de cero y tener el mismo signo. En lugar de , también se podría haber elegido la traza más natural . Es invariante bajo cambios de coordenadas de manera similar al determinante . El discriminante resulta ser también la curvatura de Gauss de la superficie en el punto.
19.2.9 El lema de Morse
En dimensiones superiores, la situación se describe mediante el lema de Morse. Este indica que cerca de un punto crítico existe un cambio de coordenadas tal que es una función cuadrática donde es diagonal con entradas o . Al punto crítico se le puede entonces asignar un índice de Morse, el número de entradas en . El lema de Morse es en realidad un teorema (los teoremas son más importantes que los lemas=teoremas auxiliares).
Teorema 4. Cerca de un punto crítico de Morse de una función , existe un cambio de coordenadas tal que es
Demostración. Usamos inducción con respecto a .
- Base de inducción: Para , el resultado dice que para un punto crítico de Morse, la función se ve como o . Primero mostramos que si f(0)=f^{\prime}(0)=0, f^{\prime \prime}(0) \neq 0, entonces o para alguna función positiva . Demostración. Mediante un cambio lineal de coordenadas asumimos y . Existe entonces tal que : es para y en el límite el valor de f(0)) / x=f^{\prime}(0). Por la regla del producto, f^{\prime}(x)=g(x)+x g^{\prime}(x) con . Como f^{\prime}(0)=g(0)=0 podemos definir para y tomar el límite , porque aplicando Hôpital dos veces, el límite es f^{\prime \prime}(0). El cambio de coordenadas está dado ahora por una función que satisface . La diferenciación implícita da por lo que, por el teorema de la función implícita, existe.
- Paso de inducción : primero notamos que Taylor para con término del resto implica que con algunas funciones continuas . Además, el valor de la función son las coordenadas del hessiano. Aplicamos primero una rotación para que . Ahora miramos y mantenemos las otras coordenadas constantes. Como en (i), encontramos un cambio de coordenadas tal que , donde hereda las propiedades pero es de una dimensión menos. Por hipótesis de inducción, hay un segundo cambio de coordenadas tal que Combinando y se produce la forma normal de Morse.
◻
19.3 EJEMPLOS
Ejemplo 1. P: Clasificar los puntos críticos de .
R: Como los puntos críticos son , , y . Calculamos Para y tenemos y por lo tanto puntos de silla. Para , tenemos , , un máximo local. Para donde , tenemos un mínimo local.
EJERCICIOS
Ejercicio 1.
- Clasificar los puntos críticos de la función (Máximos, mínimos o puntos de silla).
- Ahora haz lo mismo para y encuentra el índice de Morse en cada punto crítico.
Ejercicio 2. Encuentra todos los puntos críticos de la función del D área Calcula el hessiano en cada punto crítico y determina los máximos (todos los valores propios son negativos) y los mínimos (todos los valores propios son positivos).
P.D. El Área es algo viejo. Pero el Área D sigue siendo altamente clasificada y se rumorea que está cerca del lado oscuro de la luna.
Ejercicio 3. ¿Dónde en la superficie parametrizada es la temperatura mínima? Clasifica todos los puntos críticos de la función . [Si has encontrado la función , puedes reemplazar , nuevamente con , si prefieres trabajar con una función .]
Ejercicio 4. Encuentra todos los puntos críticos de la función En cada uno de los casos, encuentra la matriz hessiana. También aquí calcula los valores propios. Estos son números tales que para algún vector no nulo. Se pueden encontrar buscando las raíces del polinomio característico . Puedes calcularlos en una computadora. Encuentra en cada caso los valores propios.
Ejercicio 5.
- Encuentra una función con máximos y puntos de silla y un mínimo.
- A continuación ves un mapa de contorno de una función de dos variables. ¿Cuántos puntos críticos hay? ¿Es la función una función de Morse?

- Podría haber resistencia: los humanos podrían decidir no citar avances científicos realizados por máquinas. Por otro lado, ¿quién no querría aprender una "teoría del todo" incluso si es descubierta por una máquina?↩︎