Table des matières
- 19.1 INTRODUCTION
- 19.2 COURS
- 19.2.1 Trouver les optima avec les gradients
- 19.2.2 Dévoiler les points critiques
- 19.2.3 Le test de la dérivée seconde entre en jeu
- 19.2.4 Matrices définies positives et négatives
- 19.2.5 Dévoiler le rôle des hessiennes définies positives
- 19.2.6 Classification des extremums en deux dimensions
- 19.2.7 Fonctions de Morse et le test de la dérivée seconde
- 19.2.8 De la hessienne à la courbure de Gauss
- 19.2.9 Le lemme de Morse
- 19.3 EXEMPLES
- EXERCICES
19.1 INTRODUCTION
19.1.1 Explorer l'apprentissage comme un processus d'optimisation
L'apprentissage est un processus d'optimisation ayant pour but d'augmenter les connaissances, les compétences et la puissance créative. Cela s'applique aussi bien à l'éducation qu'à l'apprentissage automatique. Afin de suivre le processus d'apprentissage, nous avons besoin d'une fonction qui mesure les progrès. Une métrique ancienne est la moyenne générale (GPA) qui fait la moyenne de certaines notes dans un système éducatif, une autre est le score de QI mesuré par des tests. Un autre exemple de métrique dans un contexte de recherche est un score de réseau social comme le nombre de citations ou l'indice h. Pour une voiture conduisant de manière autonome, cela pourrait être où est le nombre d'accidents produits en utilisant la configuration de paramètres sur une période fixe.

19.1.2 L'IA conquerra-t-elle tous les domaines ?
Une fois le cadre et la fonction fixés, la question est de savoir comment augmenter le plus efficacement possible. Cette image simpliste est assez efficace tant pour l'intelligence humaine que pour l'intelligence artificielle. Pour de nombreuses fonctions qui ont été considérées (gagner aux échecs, puissance de calcul, rétention de données, détection de caractéristiques, conduite de voitures ou pilotage d'avions), les machines ont progressé rapidement. Il n'y a pratiquement personne qui doute sérieusement que les humains finiront par perdre la bataille pour toute fonction qui peut être considérée. Il existe encore des domaines où les machines n'ont pas pris le dessus. Des exemples sont l'art ou la rédaction d'articles scientifiques.1
19.1.3 L'avantage de l'apprentissage automatique dans l'optimisation basée sur le gradient
Une fois qu'une machine connaît la fonction , elle peut déterminer confortablement à partir d'une position dans quelle direction changer pour augmenter le plus rapidement. La direction de l'augmentation la plus rapide est la direction du gradient de . En calcul, nous examinons des situations où la position ne comporte que quelques variables. Le calcul à une variable traite de la situation d'une variable. Nous examinons ici la situation avec variables mais nous travaillerons principalement avec variables car cela donne déjà l'idée principale. Le principe est que nous avons atteint un optimum où aucun changement ne peut plus augmenter la fonction . Cela signifie mathématiquement que la dérivée de est nulle. Nous appelons ces points des "points critiques".
19.1.4 Utiliser les gradients pour trouver la direction d'amélioration
Examinons d'abord le taux de variation d'une fonction le long d'une direction . Prenons une courbe où est un vecteur unitaire. Par la règle de la chaîne, le taux de variation en est donné par f(r(t))=\nabla f(r(t)) \cdot r^{\prime}(0)=\nabla f(x) \cdot v. Nous savons pour le produit scalaire que cela est égal à Ceci est maximisé pour ce qui signifie que pointe dans la même direction que . Ainsi, le gradient pointe dans la direction de l'augmentation maximale. C'est important à retenir. Si vous êtes dans un paysage donné par la hauteur , vous devez aller dans la direction de afin d'augmenter le plus. Bien sûr, cela n'a pas de sens si mais c'est la situation où vous êtes à un maximum, et où vous ne pouvez plus augmenter .
19.2 COURS
19.2.1 Trouver les optima avec les gradients
Toutes les fonctions sont supposées ici être de classe , c'est-à-dire deux fois continûment différentiables. Tout commence par une observation remontant à Pierre de Fermat :
Théorème 1. Si est un maximum de , alors .
Preuve. Nous prouvons cela par contradiction. Supposons , définissons le vecteur et considérons , qui est une fonction d'une variable. Par la règle de la chaîne, elle satisfait g^{\prime}(0)=\nabla f(x_{0}+0 v) \cdot v=|\nabla f|^{2}>0. Cela signifie que pour de petits . Le point ne peut pas avoir été maximal. C'est une contradiction. ◻
19.2.2 Dévoiler les points critiques
Un point avec est appelé un point critique de . Par la formule de Taylor, nous avons en un point critique l'approximation quadratique où est la matrice hessienne
19.2.3 Le test de la dérivée seconde entre en jeu
Comme en une dimension, avoir un point critique ne garantit pas que ce point soit un maximum ou un minimum local. Le test de la dérivée seconde en calcul à une variable garantit que si f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})>0, nous avons un minimum local et si f^{\prime}(x_{0})=0, f^{\prime \prime}(x_{0})<0, nous avons un maximum local. Si f^{\prime \prime}(x_{0})=0, nous ne pouvons rien dire sans examiner les dérivées d'ordre supérieur.
19.2.4 Matrices définies positives et négatives
Une matrice est dite définie positive si pour tout vecteur . Elle est dite définie négative si pour tout vecteur . Une matrice diagonale avec des entrées diagonales positives est définie positive. Dans les énoncés suivants, nous supposons que est un point critique.
19.2.5 Dévoiler le rôle des hessiennes définies positives
Nous disons que est un maximum local de s'il existe tel que pour tout . Nous disons que c'est un minimum local de si pour tout . Comment pouvons-nous vérifier si un point est un maximum ou un minimum local ?
Théorème 2. Supposons . Si est définie positive, alors est un minimum local. Si est définie négative, alors est un maximum local.
Preuve. Comme , l'approximation quadratique en est pour de petits non nuls et la hessienne . L'énoncé analogue pour le minimum peut être déduit en remplaçant par . ◻
19.2.6 Classification des extremums en deux dimensions
Examinons le cas où est une fonction de deux variables telle que et . La matrice hessienne est
Dans ce cas bidimensionnel, nous pouvons classer les points critiques si le déterminant de est non nul. Le nombre est aussi appelé le discriminant en un point critique.




19.2.7 Fonctions de Morse et le test de la dérivée seconde
Nous disons que est un point de Morse si est un point critique et que le déterminant est non nul. Une fonction de classe est une fonction de Morse si tout point critique est de Morse. Des exemples de fonctions de Morse sont , et . Ce dernier cas est appelé un point-selle hyperbolique. En général, un point critique est un point-selle hyperbolique si et s'il n'est ni un maximum ni un minimum. Voici le test de la dérivée seconde en dimension :
Théorème 3. Supposons que ait un point critique avec .
- Si et alors est un minimum local.
- Si et alors est un maximum local.
- Si alors est un point-selle hyperbolique.
Preuve. Après translation et remplacement de par , nous avons et . Au point critique, l'approximation quadratique est maintenant Cela peut être réécrit comme avec et le discriminant . Si et alors et la fonction a des valeurs positives pour tout . Le point est alors un minimum. Si et , alors et la fonction a des valeurs négatives pour tout et le point est un maximum local. Si , alors prend à la fois des valeurs négatives et positives près de . ◻
19.2.8 De la hessienne à la courbure de Gauss
On peut se demander pourquoi est choisi et non . Cela n'a pas d'importance, car si , alors et doivent être non nuls et avoir le même signe. Au lieu de , on aurait aussi pu choisir la trace plus naturelle . Elle est invariante par changement de coordonnées, tout comme le déterminant . Le discriminant se trouve également être la courbure de Gauss de la surface en ce point.
19.2.9 Le lemme de Morse
En dimensions supérieures, la situation est décrite par le lemme de Morse. Il indique qu'à proximité d'un point critique, il existe un changement de coordonnées tel que est une fonction quadratique où est diagonale avec des entrées ou . Le point critique peut alors se voir attribuer un indice de Morse, le nombre d'entrées dans . Le lemme de Morse est en réalité un théorème (les théorèmes sont plus importants que les lemmes=théorèmes auxiliaires).
Théorème 4. Près d'un point critique de Morse d'une fonction , il existe un changement de coordonnées tel que est
Preuve. On utilise une récurrence par rapport à .
- Base de récurrence : Pour , le résultat indique que pour un point critique de Morse, la fonction ressemble à ou . Montrons d'abord que si f(0)=f^{\prime}(0)=0, f^{\prime \prime}(0) \neq 0, alors ou pour une fonction positive . Preuve. Par un changement linéaire de coordonnées, on suppose et . Il existe alors tel que : c'est pour et à la limite la valeur de f(0)) / x=f^{\prime}(0). Par la règle du produit, f^{\prime}(x)=g(x)+x g^{\prime}(x) avec . Comme f^{\prime}(0)=g(0)=0, on peut définir pour et prendre la limite , car en appliquant deux fois la règle de l'Hôpital, la limite est f^{\prime \prime}(0). Le changement de coordonnées est maintenant donné par une fonction satisfaisant . La différentiation implicite donne de sorte que, par le théorème des fonctions implicites, existe.
- Étape de récurrence : on note d'abord que le développement de Taylor pour avec reste implique que avec des fonctions continues . De plus, la valeur sont les coordonnées de la hessienne. Appliquons d'abord une rotation pour que . Considérons maintenant et gardons les autres coordonnées constantes. Comme en (i), trouvons un changement de coordonnées tel que , où hérite des propriétés mais est d'une dimension de moins. Par hypothèse de récurrence, il existe un second changement de coordonnées tel que La combinaison de et produit la forme normale de Morse.
◻
19.3 EXEMPLES
Exemple 1. Q : Classifier les points critiques de .
R : Comme les points critiques sont , , et . On calcule Pour et on a donc des points-selles. Pour , on a , , un maximum local. Pour où , on a un minimum local.
EXERCICES
Exercice 1.
- Classifiez les points critiques de la fonction (Maxima, minima ou points-selles).
- Faites maintenant de même pour et trouvez l'indice de Morse en chaque point critique.
Exercice 2. Trouvez tous les points critiques de la fonction D zone Calculez la hessienne en chaque point critique et déterminez les maxima (toutes les valeurs propres sont négatives) et les minima (toutes les valeurs propres sont positives).
P.S. La zone est un vieux chapeau. Mais la zone en D est encore hautement classifiée et il se murmure qu'elle se trouve près de la face cachée de la lune.
Exercice 3. Où sur la surface paramétrée la température est-elle minimale ? Classifiez tous les points critiques de la fonction . [Si vous avez trouvé la fonction , vous pouvez remplacer , par , si vous préférez travailler avec une fonction .]
Exercice 4. Trouvez tous les points critiques de la fonction Dans chaque cas, trouvez la matrice hessienne. Calculez également ici les valeurs propres. Ce sont des nombres tels que pour un vecteur non nul. On peut les trouver en cherchant les racines du polynôme caractéristique . Vous pouvez les calculer sur un ordinateur. Trouvez dans chaque cas les valeurs propres.
Exercice 5.
- Trouvez une fonction avec maxima et points-selles et un minimum.
- Vous voyez ci-dessous une carte de contours d'une fonction de deux variables. Combien y a-t-il de points critiques ? La fonction est-elle une fonction de Morse ?

- Il pourrait y avoir de la résistance : les humains pourraient décider de ne pas citer les découvertes scientifiques faites par des machines. D'un autre côté, qui ne voudrait pas apprendre une « théorie du tout » même si elle est découverte par une machine ?↩︎