Extrema


 

19.1 INTRODUCCIÓN

19.1.1 Explorando el aprendizaje como un proceso de optimización

El aprendizaje es un proceso de optimización con el objetivo de aumentar el conocimiento, las habilidades y el poder creativo. Esto se aplica tanto a la educación como al aprendizaje automático. Para seguir el proceso de aprendizaje, necesitamos una función que mida el progreso. Una métrica anticuada es el promedio de calificaciones (GPA) que promedia algunas notas en un sistema educativo, u otras puntuaciones de CI medidas mediante pruebas. Otro ejemplo de métrica en un entorno de investigación es una puntuación de red social como el número de citas o el índice h. Para un coche que conduce de forma autónoma, podría ser f ( x ) = 100 / ( 1 + N ( x ) ) donde N ( x ) es el número de accidentes producidos usando la configuración de parámetros x en un período fijo.

Figura 1. La imagen Klondike de David Perkins ilustra la búsqueda de soluciones en un paisaje de mayor dimensión definido por una función de altura f . El cálculo sugiere seguir el gradiente f ya que esto conduce a máximos locales. Para encontrar máximos globales (que podrían ser ideas revolucionarias), tenemos que buscar con más empeño y hacer una lista de todos los máximos. El proceso recibe su nombre de la región de Klondike en Canadá, que se hizo famosa durante la fiebre del oro.

19.1.2 ¿Conquistará la IA todos los dominios?

Una vez que el marco de trabajo y la función f están fijos, la pregunta es cómo aumentar f de la manera más efectiva. Esta imagen simplista es bastante efectiva tanto para la inteligencia humana como para la inteligencia artificial. Para muchas funciones que se han considerado (ganar en partidas de ajedrez, potencia computacional, retención de datos, detección de características, conducción de coches o pilotaje de aviones), las máquinas progresaron rápidamente. Prácticamente nadie duda seriamente de que los humanos eventualmente perderán la batalla por cualquier función f que pueda considerarse. Todavía hay dominios donde las máquinas no han tomado el control. Ejemplos son el arte o la escritura de artículos científicos.1

19.1.3 Ventaja del aprendizaje automático en la optimización basada en gradientes

Una vez que una máquina conoce la función f , puede determinar cómodamente desde una posición x en qué dirección cambiar para aumentar f más rápidamente. La dirección de aumento más rápido es la dirección del gradiente f de f . En cálculo, observamos situaciones donde la posición consiste en solo unas pocas variables. El cálculo de una sola variable trata la situación de una variable. Aquí observamos la situación con n variables, pero trabajaremos principalmente con 2 variables, ya que esto ya da la idea principal. El principio es que hemos alcanzado un óptimo donde ningún cambio puede aumentar más la función f . Esto significa matemáticamente que la derivada d f de f es cero. Llamamos a tales puntos "puntos críticos".

19.1.4 Uso de gradientes para encontrar la dirección de mejora

Veamos primero la tasa de cambio de una función a lo largo de una dirección v . Tomemos una curva r ( t ) = x + t v donde v es un vector unitario. Por la regla de la cadena, la tasa de cambio en x está dada por f(r(t))=\nabla f(r(t)) \cdot r^{\prime}(0)=\nabla f(x) \cdot v. Sabemos para el producto escalar que esto es igual a | f ( x ) | | v | cos ( α ) = | f ( x ) | cos ( α ) . Esto se maximiza para cos ( α ) = 1 , lo que significa que v apunta en la misma dirección que f . Así, el gradiente apunta en la dirección de máximo aumento. Esto es importante recordarlo. Si te encuentras en un paisaje dado por la altura f ( x ) , tienes que ir en la dirección de f ( x ) / | f ( x ) | para aumentar más. Por supuesto, esto no tiene sentido si f ( x ) = 0 , pero esa es la situación en la que estás en un máximo y donde ya no puedes aumentar más f .

19.2 LECCIÓN

19.2.1 Encontrando óptimos con gradientes

Se asume aquí que todas las funciones están en C 2 , lo que significa que son dos veces continuamente diferenciables. Todo comienza con una observación que se remonta a Pierre de Fermat:

Teorema 1. Si x 0 es un máximo de f : m , entonces f ( x 0 ) = 0 .

Demostración. Demostramos esto por contradicción. Supongamos que f ( x 0 ) 0 , definimos el vector v = f ( x 0 ) y observamos g ( t ) = f ( x 0 + t v ) , que es una función de una variable. Por la regla de la cadena, satisface g^{\prime}(0)=\nabla f(x_{0}+0 v) \cdot v=|\nabla f|^{2}>0. Esto significa que f ( x 0 + t v ) > 0 para t > 0 pequeño. El punto x 0 no puede haber sido máximo. Esto es una contradicción. ◻

19.2.2 Revelando los puntos críticos

Un punto x con f ( x ) = 0 se llama un punto crítico de f . Por la fórmula de Taylor, tenemos en un punto crítico x 0 la aproximación cuadrática Q ( x ) = f ( x 0 ) + ( x x 0 ) T H ( x 0 ) ( x x 0 ) / 2 , donde H ( x 0 ) es la matriz hessiana H ( x 0 ) = [ f x 1 x 1 f x 1 x 2 f x 1 x m f x 2 x 1 f x 2 x 2 f x 2 x m f x m x 1 f x m x 2 f x m x m ] .

19.2.3 Entra en juego el test de la segunda derivada

Como en una dimensión, tener un punto crítico no asegura que un punto sea un máximo o mínimo local. El test de la segunda derivada en el cálculo de una variable asegura que si f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})>0, tenemos un mínimo local y si f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})<0, tenemos un máximo local. Si f^{\prime \prime}(x_{0})=0, no podemos decir nada sin mirar derivadas de orden superior.

19.2.4 Matrices definidas positivas y negativas

Una matriz A se llama definida positiva si v A v > 0 para todos los vectores v 0 . Se llama definida negativa si v A v < 0 para todos los vectores v 0 . Una matriz diagonal con entradas diagonales positivas es definida positiva. En las siguientes afirmaciones, suponemos que x 0 es un punto crítico.

19.2.5 Revelando el papel de las hessianas definidas positivas

Decimos que x 0 es un máximo local de f si existe r > 0 tal que f ( x ) f ( x 0 ) para todos los | x x 0 | < r . Decimos que es un mínimo local de f si f ( x ) f ( x 0 ) para todos los | x x 0 | < r . ¿Cómo podemos comprobar si un punto es un máximo o mínimo local?

Teorema 2. Supongamos que f ( x 0 ) = 0 . Si H ( x 0 ) es definida positiva, entonces x 0 es un mínimo local. Si H ( x 0 ) es definida negativa, entonces x 0 es un máximo local.

Demostración. Como f ( x 0 ) = 0 , la aproximación cuadrática en x 0 es Q ( x ) = f ( x 0 ) + H ( x 0 ) v v / 2 > f ( x 0 ) para v = x x 0 pequeño y no nulo y hessiana H . La afirmación análoga para el mínimo se puede deducir reemplazando f por f . ◻

19.2.6 Clasificación de extremos en dos dimensiones

Veamos el caso en que f ( x , y ) es una función de dos variables tal que f x ( x 0 , y 0 ) = 0 y g x ( x 0 , y 0 ) = 0 . La matriz hessiana es

H ( x 0 , y 0 ) = [ f x x f x y f y x f y y ]

En este caso bidimensional, podemos clasificar los puntos críticos si el determinante D = det ( H ) = f x x f y y f x y 2 de H es distinto de cero. El número D también se llama el discriminante en un punto crítico.

Figura 2. f = x 2 + y 2 da un mínimo, f = x 2 y 2 un máximo y f = x 2 y 2 una silla. El caso f = x 2 y y x 2 no es Morse.

19.2.7 Funciones de Morse y el test de la segunda derivada

Decimos que ( x 0 , y 0 ) es un punto de Morse si ( x 0 , y 0 ) es un punto crítico y el determinante es distinto de cero. Una función C 2 es una función de Morse si cada punto crítico es Morse. Ejemplos de funciones de Morse son f ( x , y ) = x 2 + y 2 , f ( x , y ) = x 2 y 2 y f ( x , y ) = x 2 y 2 . El último caso se llama una silla hiperbólica. En general, un punto crítico es una silla hiperbólica si D 0 y si no es ni un máximo ni un mínimo. Aquí está el test de la segunda derivada en dimensión 2 :

Teorema 3. Supongamos que f C 2 tiene un punto crítico ( x 0 , y 0 ) con D 0 .

  • Si D > 0 y f x x > 0 , entonces ( x 0 , y 0 ) es un mínimo local.
  • Si D > 0 y f x x < 0 , entonces ( x 0 , y 0 ) es un máximo local.
  • Si D < 0 , entonces ( x 0 , y 0 ) es una silla hiperbólica.

Demostración. Tras la traslación ( x , y ) ( x x 0 , y y 0 ) y reemplazando f con f f ( x 0 , y 0 ) , tenemos ( x 0 , y 0 ) = ( 0 , 0 ) y f ( 0 , 0 ) = 0 . En el punto crítico, la aproximación cuadrática es ahora Q ( x , y ) = a x 2 + 2 b x y + c y 2 . Esto se puede reescribir como a ( x + b a y ) 2 + ( c b 2 a ) y 2 = a ( A 2 + D B 2 ) con A = ( x + b a y ) , B = b 2 / a 2 y discriminante D . Si a = f x x > 0 y D > 0 , entonces c b 2 / a > 0 y la función toma valores positivos para todo ( x , y ) ( 0 , 0 ) . El punto ( 0 , 0 ) es entonces un mínimo. Si a = f x x < 0 y D > 0 , entonces c b 2 / a < 0 y la función toma valores negativos para todo ( x , y ) ( 0 , 0 ) y el punto ( x , y ) es un máximo local. Si D < 0 , entonces f toma tanto valores negativos como positivos cerca de ( 0 , 0 ) . ◻

19.2.8 De la hessiana a la curvatura de Gauss

Uno puede preguntarse por qué se elige f x x y no f y y . No importa, porque si D > 0 , entonces ambos f x x y f y y deben ser distintos de cero y tener el mismo signo. En lugar de f x x , también se podría haber elegido la traza más natural tr ( H ) . Es invariante bajo cambios de coordenadas de manera similar al determinante D . El discriminante D resulta ser también la curvatura de Gauss de la superficie en el punto.

19.2.9 El lema de Morse

En dimensiones superiores, la situación se describe mediante el lema de Morse. Este indica que cerca de un punto crítico existe un cambio de coordenadas ϕ tal que g ( x ) = f ( ϕ ( x ) ) es una función cuadrática f ( x ) = B ( x x 0 ) ( x x 0 ) donde B es diagonal con entradas + 1 o 1 . Al punto crítico se le puede entonces asignar un índice de Morse, el número de entradas 1 en B . El lema de Morse es en realidad un teorema (los teoremas son más importantes que los lemas=teoremas auxiliares).

Teorema 4. Cerca de un punto crítico de Morse x 0 de una función C 2 f , existe un cambio de coordenadas ϕ : m m tal que g ( x ) = f ( ϕ ( x ) ) f ( x 0 ) es g ( x ) = x 1 2 x k 2 + x k + 1 2 + + x m 2 .

Demostración. Usamos inducción con respecto a m .

  1. Base de inducción: Para m = 1 , el resultado dice que para un punto crítico de Morse, la función se ve como y = x 2 o y = x 2 . Primero mostramos que si f(0)=f^{\prime}(0)=0, f^{\prime \prime}(0) \neq 0, entonces f ( x ) = x 2 h ( x ) o f ( x ) = x 2 h ( x ) para alguna función C 2 positiva h . Demostración. Mediante un cambio lineal de coordenadas asumimos x 0 = 0 y f ( 0 ) = 0 . Existe entonces g ( x ) tal que f ( x ) = x g ( x ) : es g ( x ) = f ( x ) / x para x 0 y en el límite x 0 el valor de lim x 0 ( f ( x ) f(0)) / x=f^{\prime}(0). Por la regla del producto, f^{\prime}(x)=g(x)+x g^{\prime}(x) con g ( 0 ) = 0 . Como f^{\prime}(0)=g(0)=0 podemos definir f ( x ) / x 2 para x 0 y tomar el límite x 0 , porque aplicando Hôpital dos veces, el límite es f^{\prime \prime}(0). El cambio de coordenadas está dado ahora por una función y = ϕ ( x ) que satisface g ( x , y ) = y h ( y ) = x . La diferenciación implícita da g y ( 0 , 0 ) = h ( y ) 0 por lo que, por el teorema de la función implícita, y ( x ) existe.
  2. Paso de inducción 𝒎 𝒎 + 1 : primero notamos que Taylor para C 2 con término del resto implica que f ( x 1 , , x n ) = i , j x i x j h i j ( x 1 , , x n ) con algunas funciones continuas h i j . Además, el valor de la función h i j ( 0 ) = f x i x j ( 0 ) = H i j ( 0 ) son las coordenadas del hessiano. Aplicamos primero una rotación para que h 11 0 . Ahora miramos x 1 y mantenemos las otras coordenadas constantes. Como en (i), encontramos un cambio de coordenadas ϕ tal que f ( ϕ ( x ) ) = ± x 1 2 + g ( x 2 , , x m ) , donde g hereda las propiedades pero es de una dimensión menos. Por hipótesis de inducción, hay un segundo cambio de coordenadas tal que g ( ψ ( x ) ) = x 2 2 x l 2 + x l + 1 2 + + x m 2 . Combinando ϕ y ψ se produce la forma normal de Morse.

 ◻

19.3 EJEMPLOS

Ejemplo 1. P: Clasificar los puntos críticos de f ( x , y ) = x 3 3 x y 3 3 y .
R: Como f ( x , y ) = [ 3 x 2 3 , 3 y 2 + 3 ] T , los puntos críticos son ( 1 , 1 ) , ( 1 , 1 ) , ( 1 , 1 ) y ( 1 , 1 ) . Calculamos H ( x , y ) = [ 2 x 0 0 2 y ] . Para ( 1 , 1 ) y ( 1 , 1 ) tenemos D = 4 y por lo tanto puntos de silla. Para ( 1 , 1 ) , tenemos D = 4 , f x x = 2 , un máximo local. Para ( 1 , 1 ) donde D = 4 , f x x = 2 tenemos un mínimo local.

EJERCICIOS

Ejercicio 1.

  1. Clasificar los puntos críticos de la función f ( x , y ) = x 2 + y 3 x y . (Máximos, mínimos o puntos de silla).
  2. Ahora haz lo mismo para f ( x , y , z ) = x 2 + y 3 x y + z 2 y encuentra el índice de Morse en cada punto crítico.

Ejercicio 2. Encuentra todos los puntos críticos de la función del 3 D área 51 f ( x , y , z ) = x 51 51 x + y 51 51 y + z 51 51 z . Calcula el hessiano H = d 2 f en cada punto crítico y determina los máximos (todos los valores propios son negativos) y los mínimos (todos los valores propios son positivos).
P.D. El Área 51 es algo viejo. Pero el Área 3 D 51 sigue siendo altamente clasificada y se rumorea que está cerca del lado oscuro de la luna.

Ejercicio 3. ¿Dónde en la superficie parametrizada r ( u , v ) = [ u 2 , v 3 , u v ] es la temperatura T ( x , y , z ) = 12 x + y 12 z mínima? Clasifica todos los puntos críticos de la función f ( u , v ) = T ( r ( u , v ) ) . [Si has encontrado la función f ( u , v ) , puedes reemplazar u , v nuevamente con x , y si prefieres trabajar con una función f ( x , y ) .]

Ejercicio 4. Encuentra todos los puntos críticos de la función f ( x , y , z ) = ( x 1 ) 2 y 2 + x z 2 . En cada uno de los casos, encuentra la matriz hessiana. También aquí calcula los valores propios. Estos son números λ tales que H v = λ v para algún vector no nulo. Se pueden encontrar buscando las raíces del polinomio característico χ H ( λ ) = det ( L λ ) . Puedes calcularlos en una computadora. Encuentra en cada caso los valores propios.

Ejercicio 5.

  1. Encuentra una función f ( x , y ) con 3 máximos y 3 puntos de silla y un mínimo.
  2. A continuación ves un mapa de contorno de una función de dos variables. ¿Cuántos puntos críticos hay? ¿Es la función una función de Morse?
Figura 3.

  1. Podría haber resistencia: los humanos podrían decidir no citar avances científicos realizados por máquinas. Por otro lado, ¿quién no querría aprender una "teoría del todo" incluso si es descubierta por una máquina?↩︎