Règle de la chaîne


 

16.1 INTRODUCTION

16.1.1 Construction de fonctions complexes à partir de fonctions de base

En calcul, nous pouvons construire des fonctions plus générales à partir de fonctions de base. Une possibilité est d'additionner des fonctions comme f ( x ) + g ( x ) = x 2 + sin ( x ) . Une autre possibilité est de multiplier des fonctions comme f ( x ) g ( x ) = x 2 sin ( x ) . Une troisième possibilité est de composer des fonctions comme f g ( x ) = f ( g ( x ) ) = sin 2 ( x ) . La composition de fonctions est non commutative : f g g f . En effet, nous avons g f ( x ) = sin ( x 2 ) qui est complètement différent de f g ( x ) = sin 2 ( x ) .

Figure 1. f : p n et g : m p peuvent être combinées en f ( g ) : m n .

16.1.2 La règle de la chaîne : d'une variable à des dimensions supérieures

Comment pouvons-nous exprimer le taux de variation d'une fonction composée en termes des fonctions de base qui la constituent ? Pour la somme de deux fonctions, nous avons la règle d'addition (f+g)^{\prime}(x)=f^{\prime}(x)+g^{\prime}(x), pour la multiplication nous avons la règle du produit (f g)^{\prime}(x)=f^{\prime}(x) g(x)+f(x) g(x). Nous écrivons habituellement simplement (f+g)^{\prime}=f^{\prime}+g^{\prime} ou (f g)^{\prime}=f^{\prime} g+f g^{\prime} et n'écrivons pas toujours l'argument. Comme vous le savez du calcul à une variable, la dérivée de la fonction composée est donnée par la règle de la chaîne. C'est (f \circ g)^{\prime}=f^{\prime}(g) g^{\prime}. Écrit plus en détail avec l'argument, nous pouvons écrire \frac{d}{d x} f(g(x))=\frac{d}{d x} f^{\prime}(g(x)) g^{\prime}(x). Nous généralisons cela ici aux dimensions supérieures. Au lieu de d d x f nous écrivons simplement d f . C'est la matrice jacobienne que nous connaissons. Maintenant, la même règle s'applique comme avant d f ( g ( x ) ) = d f ( g ( x ) ) d g ( x ) et cela s'appelle la règle de la chaîne en dimensions supérieures. Du côté droit, nous avons le produit matriciel de deux matrices.

16.1.3 Dimensions et la règle de la chaîne

Voyons pourquoi cela a du sens en termes de dimensions : g : m p et f : p n , alors d g ( x ) M ( p , m ) et d f ( g ( x ) ) M ( n , p ) et d f ( g ( x ) ) d g ( x ) M ( n , m ) qui est le même type de matrice que d ( f g ) parce que f g ( x ) envoie m n de sorte que aussi d ( f g ) ( x ) M ( n , m ) . Le nom règle de la chaîne vient du fait qu'elle traite de fonctions qui sont enchaînées ensemble.

16.2 COURS

16.2.1 La règle de la chaîne multivariable

Étant donnée une fonction différentiable r : m p , sa dérivée en x est la matrice jacobienne d r ( x ) M ( p , m ) . Si f : p n est une autre fonction avec d f ( y ) M ( n , p ) , nous pouvons les combiner et former f r ( x ) = f ( r ( x ) ) : m n . Les matrices d f ( y ) M ( n , p ) et d r ( x ) M ( p , m ) se combinent en le produit matriciel d f d r en un point. Cette matrice est dans M ( n , m ) . La règle de la chaîne multivariable est :

Théorème 1. d ( f r ) ( x ) = d f ( r ( x ) ) d r ( x ) .

16.2.2 Fonctions scalaires et le gradient

Pour m = n = p = 1 , le cas du calcul à une variable, nous avons d f(x)=f^{\prime}(x) et (f \circ r)^{\prime}(x)=f^{\prime}(r(x)) r^{\prime}(x). En général, d f est maintenant une matrice plutôt qu'un nombre. En vérifiant une seule entrée de la matrice, nous nous réduisons au cas n = m = 1 . Dans ce cas, f : p est une fonction scalaire. Alors que d f est un vecteur ligne, nous définissons le vecteur colonne f = d f T = [ f x 1 , f x 2 , f x p ] T . Si r : p est une courbe, nous écrivons r^{\prime}(t)= [x_{1}^{\prime}(t), \cdots, x_{p}^{\prime}(t)]^{T} au lieu de d r ( t ) . Le symbole est aussi appelé "nabla".1 Le cas spécial n = m = 1 est :

Théorème 2. \frac{d}{d t} f(r(t))=\nabla f(r(t)) \cdot r^{\prime}(t).

Preuve. d d t f ( x 1 ( t ) , x 2 ( t ) , , x p ( t ) ) est la limite h 0 de \begin{aligned} & \big[f\big(x_{1}(t+h), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t)\big)\big] / h \\ = & \big[f\big(x_{1}(t+h), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t+h), \ldots, x_{p}(t+h)\big)\big] / h \\ + & \big[f\big(x_{1}(t), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t+h)\big)\big] / h+\cdots \\ + & \big[f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t)\big)\big] / h \end{aligned} ce qui est (règle de la chaîne 1D) à la limite h 0 la somme f_{x_{1}}(x) x_{1}^{\prime}(t)+\cdots+f_{x_{p}}(x) x_{p}^{\prime}(t).

Preuve du cas général : Soit h = f r . L'entrée i j de la matrice jacobienne d h ( x ) est d h i j ( x ) = x j h i ( x ) = x j f i ( r ( x ) ) . Le cas de l'entrée i j se réduit avec t = x j et h i = f au cas où r ( t ) est une courbe et f ( x ) est une fonction scalaire. C'est le cas que nous avons déjà prouvé. ◻

16.3 EXEMPLES

Exemple 1. Supposons qu'une coccinelle marche sur un cercle r ( t ) = [ cos ( t ) sin ( t ) ] et que f ( x , y ) = x 2 y 2 soit la température à la position ( x , y ) , alors f ( r ( t ) ) est le taux de variation de la température. Nous pouvons écrire f ( r ( t ) ) = cos 2 ( t ) sin 2 ( t ) = cos ( 2 t ) . Maintenant, d / d t f ( r ( t ) ) = 2 sin ( 2 t ) . Le gradient de f et la vitesse sont \nabla f(x, y)=\left[\begin{array}{r}2 x \\ -2 y\end{array}\right], \quad r^{\prime}(t)=\left[\begin{array}{r}-\sin (t) \\ \cos (t)\end{array}\right]. Maintenant \begin{aligned} \nabla f(r(t)) \cdot r^{\prime}(t)&=\left[\begin{array}{r} 2 \cos (t) \\ -2 \sin (t) \end{array}\right] \cdot\left[\begin{array}{r} -\sin (t) \\ \cos (t) \end{array}\right]\\ &=-4 \cos (t) \sin (t)\\ &=-2 \sin (2 t). \end{aligned}

Figure 2. Si f ( x , y ) est une hauteur, le taux de variation d / d t f ( r ( t ) ) est le gain de hauteur que la coccinelle grimpe par unité de temps. Cela dépend de la vitesse à laquelle la coccinelle marche et dans quelle direction par rapport au gradient f elle marche.

16.4 ILLUSTRATIONS

16.4.1 Puissance à partir du potentiel : une connexion par la règle de la chaîne

Le cas n = m = 1 est extrêmement important. La règle de la chaîne d / d t f ( r ( t ) ) = \nabla f(r(t)) \cdot r^{\prime}(t) dit que le taux de variation de l'énergie potentielle f ( r ( t ) ) à la position r ( t ) est le produit scalaire de la force F = f ( r ( t ) ) au point et de la vitesse avec laquelle nous nous déplaçons. Le côté droit est la puissance = force fois vitesse. Nous utiliserons cela plus tard dans le théorème fondamental des intégrales curvilignes.

16.4.2 Chaos via les dérivées : exposants de Lyapunov et entropie dans les applications itérées

Si f , g : m m , alors f g est à nouveau une application de m vers n . Nous pouvons aussi itérer une application comme x f ( x ) f ( f ( x ) ) f ( f ( f ( x ) ) ) La dérivée d f n ( x ) est par la règle de la chaîne le produit d f ( f n 1 ( x ) ) d f ( f ( x ) ) d f ( x ) de matrices jacobiennes. Le nombre λ ( x ) = lim sup n ( 1 / n ) log ( | d f n ( x ) | ) est appelé l'exposant de Lyapunov de l'application f au point x . Il mesure la quantité de chaos, la "dépendance sensible aux conditions initiales" de f . Ces nombres sont difficiles à estimer mathématiquement. Déjà pour des exemples simples comme l'application de Chirikov f ( [ x , y ] ) = [ 2 x y + c sin ( x ) , x ] , on peut mesurer une entropie positive S ( c ) . Une conjecture de Sinai dit que l'entropie de l'application est positive pour de grands c . Des mesures montrent que cette entropie S ( c ) = 0 2 π 0 2 π λ ( x , y ) d x d y / ( 4 π 2 ) satisfait S ( x ) log ( c / 2 ) . La conjecture est toujours ouverte.2

16.4.3 Équations de Hamilton et conservation de l'énergie

Si H ( x , y ) est une fonction appelée le hamiltonien et x^{\prime}(t)=H_{y}(x, y), y^{\prime}(t)= H x ( x , y ) , alors d / d t H ( x ( t ) , y ( t ) ) = 0 . Cela peut être interprété comme la conservation de l'énergie. Nous voyons qu'une équation différentielle hamiltonienne préserve toujours l'énergie. Pour le pendule, H ( x , y ) = y 2 / 2 cos ( x ) , nous avons x^{\prime}=y, y^{\prime}=-\sin (x) ou x^{\prime \prime}=-\sin (x).

Figure 3. L'application f ( [ x , y ] ) = [ x 2 x / 2 y , x ] est une application de Hénon. Nous voyons quelques orbites. L'application f ( [ x , y ] ) = [ 2 x y + 4 sin ( x ) , x ] à droite est apparue dans le premier examen partiel. Le tore 𝕋 2 = 2 / ( 2 π ) 2 est rempli d'une "mer stochastique" bleue contenant des "îles stables" rouges.

16.4.4 La règle de la chaîne déverrouille les inverses

La règle de la chaîne est utile pour obtenir les dérivées des fonctions inverses. Comme \begin{aligned} 1=\frac{d}{d x} x&=\frac{d}{d x} \sin (\arcsin (x))\\ &=\cos (\arcsin (x)) \arcsin ^{\prime}(x) \end{aligned} ce qui donne alors \begin{aligned} \arcsin ^{\prime}(x)&=1 / \sqrt{1-\sin ^{2}(\arcsin (x))}\\ &=1 / \sqrt{1-x^{2}}. \end{aligned}

16.4.5 Différenciation implicite : trouver la pente mystérieuse

Supposons que f ( x , y ) = x 3 y + x 5 y 4 2 sin ( x y ) = 0 soit une courbe. Nous ne pouvons pas résoudre pour y . Néanmoins, nous pouvons supposer f ( x , y ( x ) ) = 0 . La différenciation en utilisant la règle de la chaîne donne f_{x}(x, y(x))+f_{y}(x, y(x)) y^{\prime}(x)=0. Par conséquent y^{\prime}(x)=-\frac{f_{x}(x, y(x))}{f_{y}(x, y(x))} Dans l'exemple ci-dessus, le point ( x , y ) = ( 1 , 1 ) est sur la courbe. Maintenant g x ( x , y ) = 3 + 5 1 = 7 et g y ( x , y ) = 1 + 4 + 1 = 6 . Donc, g^{\prime}(1)=-7 / 6. Cela s'appelle la différenciation implicite. Nous pourrions calculer avec elle la dérivée d'une fonction qui n'était pas connue.

16.4.6 Solutions garanties : le théorème des fonctions implicites

Le théorème des fonctions implicites assure qu'une fonction implicite différentiable g ( x ) existe près d'une racine ( a , b ) d'une fonction différentiable f ( x , y ) .

Théorème 3. Si f ( a , b ) = 0 , f y ( a , b ) 0 il existe c > 0 et une fonction g C 1 ( [ b c , b + c ] ) avec f ( x , g ( x ) ) = 0 .

Preuve. Soit c si petit que pour x [ a c , a + c ] fixé, la fonction y [ b c , b + c ] h ( y ) = f ( x , y ) ait la propriété h ( b c ) < 0 et h ( b + c ) > 0 et h^{\prime}(y) \neq 0 dans [ b c , b + c ] . Le théorème des valeurs intermédiaires pour h assure alors une unique racine z = g ( x ) de h près de b . La formule de la règle de dérivation en chaîne ci-dessus assure alors que pour a c < x < a + c , le quotient différentiel [ g ( x + h ) g ( x ) ] / h écrit pour g a une limite f x ( x , g ( x ) ) / f y ( x , g ( x ) ) . ◻

P.-S. On peut obtenir la racine de h en appliquant des étapes de Newton T(y)=y-h(y) / h^{\prime}(y). Taylor (vu au prochain cours) montre que l'erreur est élevée au carré à chaque étape. L'étape de Newton T ( y ) = y d h ( y ) 1 h ( y ) fonctionne aussi en dimensions arbitraires. On peut prouver le théorème des fonctions implicites en établissant simplement que Id T = d h 1 h est une contraction, puis en utilisant le théorème du point fixe de Banach pour obtenir un point fixe de Id T qui est une racine de h .

Figure 4. L'étape de Newton.
Figure 5. Si l'on applique l'application f ( [ x , y ] ) = [ x 2 x 4 y , x ] encore et encore et que l'on trace les points, on obtient une orbite. De tels systèmes dynamiques simples sont en grande partie incompris. Quels points ne s'échappent pas à l'infini ? Quelle est la frontière de cet ensemble. Prouver qu'il existe des régions qui restent bornées est difficile et nécessite des « théorèmes des fonctions implicites difficiles ». La méthode de Newton permet de maîtriser la preuve de cela, où l'étape de Newton est appliquée sur des espaces de fonctions. Certaines des analyses les plus difficiles que les humains aient inventées pour aborder des problèmes mathématiques entrent en jeu dans cette application apparemment simple f : 2 2 .

Les unités 16 et 17 sont enseignées ensemble le mercredi. Les devoirs sont tous dans l'unité 17.


  1. L'étymologie indique que le symbole est inspiré d'une harpe égyptienne ou phénicienne.↩︎
  2. Pour générer des orbites, voir http://www.math.harvard.edu/k̃nill/technology/chirikov/.↩︎