Regra da Cadeia


 

16.1 INTRODUÇÃO

16.1.1 Construindo Funções Complexas a Partir de Funções Básicas

No cálculo, podemos construir, a partir de funções básicas, funções mais gerais. Uma possibilidade é somar funções como f ( x ) + g ( x ) = x 2 + sin ( x ) . Outra possibilidade é multiplicar funções como f ( x ) g ( x ) = x 2 sin ( x ) . Uma terceira possibilidade é compor funções como f g ( x ) = f ( g ( x ) ) = sin 2 ( x ) . A composição de funções é não comutativa: f g g f . De fato, temos g f ( x ) = sin ( x 2 ) que é completamente diferente de f g ( x ) = sin 2 ( x ) .

Figura 1. f : p n e g : m p podem ser combinadas para formar f ( g ) : m n .

16.1.2 A Regra da Cadeia: De Uma Variável para Dimensões Superiores

Como podemos expressar a taxa de variação de uma função composta em termos das funções básicas que a compõem? Para a soma de duas funções, temos a regra da adição (f+g)^{\prime}(x)=f^{\prime}(x)+g^{\prime}(x), para a multiplicação temos a regra do produto (f g)^{\prime}(x)=f^{\prime}(x) g(x)+f(x) g(x). Geralmente escrevemos apenas (f+g)^{\prime}=f^{\prime}+g^{\prime} ou (f g)^{\prime}=f^{\prime} g+f g^{\prime} e nem sempre escrevemos o argumento. Como você sabe do cálculo de uma variável, a derivada da função composta é dada pela regra da cadeia. Isto é (f \circ g)^{\prime}=f^{\prime}(g) g^{\prime}. Escrevendo com mais detalhes com o argumento, podemos escrever \frac{d}{d x} f(g(x))=\frac{d}{d x} f^{\prime}(g(x)) g^{\prime}(x). Generalizamos isso aqui para dimensões superiores. Em vez de d d x f simplesmente escrevemos d f . Esta é a matriz Jacobiana que conhecemos. Agora, a mesma regra vale como antes d f ( g ( x ) ) = d f ( g ( x ) ) d g ( x ) e isso é chamado de regra da cadeia em dimensões superiores. No lado direito, temos o produto matricial de duas matrizes.

16.1.3 Dimensões e a Regra da Cadeia

Vejamos por que isso faz sentido em termos de dimensões: g : m p e f : p n , então d g ( x ) M ( p , m ) e d f ( g ( x ) ) M ( n , p ) e d f ( g ( x ) ) d g ( x ) M ( n , m ) que é o mesmo tipo de matriz que d ( f g ) porque f g ( x ) mapeia m n de modo que também d ( f g ) ( x ) M ( n , m ) . O nome regra da cadeia vem porque ela lida com funções que estão encadeadas.

16.2 AULA

16.2.1 A Regra da Cadeia Multivariável

Dada uma função diferenciável r : m p , sua derivada em x é a matriz Jacobiana d r ( x ) M ( p , m ) . Se f : p n é outra função com d f ( y ) M ( n , p ) , podemos combiná-las e formar f r ( x ) = f ( r ( x ) ) : m n . As matrizes d f ( y ) M ( n , p ) e d r ( x ) M ( p , m ) combinam-se no produto matricial d f d r em um ponto. Esta matriz está em M ( n , m ) . A regra da cadeia multivariável é:

Teorema 1. d ( f r ) ( x ) = d f ( r ( x ) ) d r ( x ) .

16.2.2 Funções Escalares e o Gradiente

Para m = n = p = 1 , o caso do cálculo de uma variável, temos d f(x)=f^{\prime}(x) e (f \circ r)^{\prime}(x)=f^{\prime}(r(x)) r^{\prime}(x). Em geral, d f é agora uma matriz em vez de um número. Verificando uma única entrada da matriz, reduzimos ao caso n = m = 1 . Nesse caso, f : p é uma função escalar. Enquanto d f é um vetor linha, definimos o vetor coluna f = d f T = [ f x 1 , f x 2 , f x p ] T . Se r : p é uma curva, escrevemos r^{\prime}(t)= [x_{1}^{\prime}(t), \cdots, x_{p}^{\prime}(t)]^{T} em vez de d r ( t ) . O símbolo também é chamado de "nabla".1 O caso especial n = m = 1 é:

Teorema 2. \frac{d}{d t} f(r(t))=\nabla f(r(t)) \cdot r^{\prime}(t).

Demonstração. d d t f ( x 1 ( t ) , x 2 ( t ) , , x p ( t ) ) é o limite h 0 de \begin{aligned} & \big[f\big(x_{1}(t+h), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t)\big)\big] / h \\ = & \big[f\big(x_{1}(t+h), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t+h), \ldots, x_{p}(t+h)\big)\big] / h \\ + & \big[f\big(x_{1}(t), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t+h)\big)\big] / h+\cdots \\ + & \big[f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t)\big)\big] / h \end{aligned} que é (regra da cadeia 1D) no limite h 0 a soma f_{x_{1}}(x) x_{1}^{\prime}(t)+\cdots+f_{x_{p}}(x) x_{p}^{\prime}(t).

Demonstração do caso geral: Seja h = f r . A entrada i j da matriz Jacobiana d h ( x ) é d h i j ( x ) = x j h i ( x ) = x j f i ( r ( x ) ) . O caso da entrada i j reduz-se com t = x j e h i = f ao caso em que r ( t ) é uma curva e f ( x ) é uma função escalar. Este é o caso que já provamos. ◻

16.3 EXEMPLOS

Exemplo 1. Suponha que uma joaninha caminhe sobre um círculo r ( t ) = [ cos ( t ) sin ( t ) ] e f ( x , y ) = x 2 y 2 seja a temperatura na posição ( x , y ) , então f ( r ( t ) ) é a taxa de variação da temperatura. Podemos escrever f ( r ( t ) ) = cos 2 ( t ) sin 2 ( t ) = cos ( 2 t ) . Agora, d / d t f ( r ( t ) ) = 2 sin ( 2 t ) . O gradiente de f e a velocidade são \nabla f(x, y)=\left[\begin{array}{r}2 x \\ -2 y\end{array}\right], \quad r^{\prime}(t)=\left[\begin{array}{r}-\sin (t) \\ \cos (t)\end{array}\right]. Agora \begin{aligned} \nabla f(r(t)) \cdot r^{\prime}(t)&=\left[\begin{array}{r} 2 \cos (t) \\ -2 \sin (t) \end{array}\right] \cdot\left[\begin{array}{r} -\sin (t) \\ \cos (t) \end{array}\right]\\ &=-4 \cos (t) \sin (t)\\ &=-2 \sin (2 t). \end{aligned}

Figura 2. Se f ( x , y ) é uma altura, a taxa de variação d / d t f ( r ( t ) ) é o ganho de altura que a joaninha sobe por unidade de tempo. Depende de quão rápido a joaninha anda e em qual direção em relação ao gradiente f ela anda.

16.4 ILUSTRAÇÕES

16.4.1 Potência a Partir do Potencial: Uma Conexão com a Regra da Cadeia

O caso n = m = 1 é extremamente importante. A regra da cadeia d / d t f ( r ( t ) ) = \nabla f(r(t)) \cdot r^{\prime}(t) diz que a taxa de variação da energia potencial f ( r ( t ) ) na posição r ( t ) é o produto escalar da força F = f ( r ( t ) ) no ponto e a velocidade com a qual nos movemos. O lado direito é potência = força vezes velocidade. Usaremos isso mais tarde no teorema fundamental das integrais de linha.

16.4.2 Caos via Derivadas: Expoentes de Lyapunov e Entropia em Mapas Iterados

Se f , g : m m , então f g é novamente um mapa de m para n . Também podemos iterar um mapa como x f ( x ) f ( f ( x ) ) f ( f ( f ( x ) ) ) A derivada d f n ( x ) é, pela regra da cadeia, o produto d f ( f n 1 ( x ) ) d f ( f ( x ) ) d f ( x ) de matrizes Jacobianas. O número λ ( x ) = lim sup n ( 1 / n ) log ( | d f n ( x ) | ) é chamado de expoente de Lyapunov do mapa f no ponto x . Ele mede a quantidade de caos, a "dependência sensível das condições iniciais" de f . Esses números são difíceis de estimar matematicamente. Já para exemplos simples como o mapa de Chirikov f ( [ x , y ] ) = [ 2 x y + c sin ( x ) , x ] , pode-se medir entropia positiva S ( c ) . Uma conjectura de Sinai afirma que a entropia do mapa é positiva para c grande. Medições mostram que essa entropia S ( c ) = 0 2 π 0 2 π λ ( x , y ) d x d y / ( 4 π 2 ) satisfaz S ( x ) log ( c / 2 ) . A conjectura ainda está em aberto.2

16.4.3 Equações de Hamilton e Conservação de Energia

Se H ( x , y ) é uma função chamada de Hamiltoniana e x^{\prime}(t)=H_{y}(x, y), y^{\prime}(t)= H x ( x , y ) , então d / d t H ( x ( t ) , y ( t ) ) = 0 . Isso pode ser interpretado como conservação de energia. Vemos que uma equação diferencial Hamiltoniana sempre preserva a energia. Para o pêndulo, H ( x , y ) = y 2 / 2 cos ( x ) , temos x^{\prime}=y, y^{\prime}=-\sin (x) ou x^{\prime \prime}=-\sin (x).

Figura 3. O mapa f ( [ x , y ] ) = [ x 2 x / 2 y , x ] é um mapa de Hénon. Vemos algumas órbitas. O mapa f ( [ x , y ] ) = [ 2 x y + 4 sin ( x ) , x ] à direita apareceu na primeira hora. O toro 𝕋 2 = 2 / ( 2 π ) 2 está preenchido com um "mar estocástico" azul contendo "ilhas estáveis" vermelhas.

16.4.4 A Regra da Cadeia Desbloqueia Inversas

A regra da cadeia é útil para obter derivadas de funções inversas. Como \begin{aligned} 1=\frac{d}{d x} x&=\frac{d}{d x} \sin (\arcsin (x))\\ &=\cos (\arcsin (x)) \arcsin ^{\prime}(x) \end{aligned} que então fornece \begin{aligned} \arcsin ^{\prime}(x)&=1 / \sqrt{1-\sin ^{2}(\arcsin (x))}\\ &=1 / \sqrt{1-x^{2}}. \end{aligned}

16.4.5 Diferenciação Implícita: Encontrando a Inclinação Misteriosa

Suponha que f ( x , y ) = x 3 y + x 5 y 4 2 sin ( x y ) = 0 seja uma curva. Não podemos resolver para y . Ainda assim, podemos assumir f ( x , y ( x ) ) = 0 . A diferenciação usando a regra da cadeia fornece f_{x}(x, y(x))+f_{y}(x, y(x)) y^{\prime}(x)=0. Portanto y^{\prime}(x)=-\frac{f_{x}(x, y(x))}{f_{y}(x, y(x))} No exemplo acima, o ponto ( x , y ) = ( 1 , 1 ) está sobre a curva. Agora g x ( x , y ) = 3 + 5 1 = 7 e g y ( x , y ) = 1 + 4 + 1 = 6 . Então, g^{\prime}(1)=-7 / 6. Isso é chamado de diferenciação implícita. Poderíamos calcular com ela a derivada de uma função que não era conhecida.

16.4.6 Soluções Garantidas: O Teorema da Função Implícita

O teorema da função implícita garante que uma função implícita diferenciável g ( x ) existe perto de uma raiz ( a , b ) de uma função diferenciável f ( x , y ) .

Teorema 3. Se f ( a , b ) = 0 , f y ( a , b ) 0 existe c > 0 e uma função g C 1 ( [ b c , b + c ] ) com f ( x , g ( x ) ) = 0 .

Prova. Seja c tão pequeno que, para x [ a c , a + c ] fixo, a função y [ b c , b + c ] h ( y ) = f ( x , y ) tenha a propriedade h ( b c ) < 0 e h ( b + c ) > 0 e h^{\prime}(y) \neq 0 em [ b c , b + c ] . O teorema do valor intermediário para h agora garante uma raiz única z = g ( x ) de h próxima a b . A fórmula da regra da cadeia acima então garante que, para a c < x < a + c , o quociente diferencial [ g ( x + h ) g ( x ) ] / h escrito para g tem limite f x ( x , g ( x ) ) / f y ( x , g ( x ) ) . ◻

P.S. Podemos obter a raiz de h aplicando passos de Newton T(y)=y-h(y) / h^{\prime}(y). Taylor (visto na próxima aula) mostra que o erro é elevado ao quadrado a cada passo. O passo de Newton T ( y ) = y d h ( y ) 1 h ( y ) também funciona em dimensões arbitrárias. Pode-se provar o teorema da função implícita simplesmente estabelecendo que Id T = d h 1 h é uma contração e então usar o teorema do ponto fixo de Banach para obter um ponto fixo de Id T , que é uma raiz de h .

Figura 4. O passo de Newton.
Figura 5. Se aplicarmos o mapa f ( [ x , y ] ) = [ x 2 x 4 y , x ] repetidamente e plotarmos pontos, obtemos uma órbita. Tais sistemas dinâmicos simples são em grande parte não compreendidos. Quais pontos não escapam para o infinito? Qual é a fronteira desse conjunto? Provar que existem regiões que permanecem limitadas é difícil e requer "teoremas da função implícita difíceis". O método de Newton permite obter um controle sobre provar isso, onde o passo de Newton é aplicado em espaços de funções. Algumas das análises mais difíceis que os humanos inventaram para enfrentar problemas matemáticos entram em jogo neste mapa aparentemente simples f : 2 2 .

As unidades 16 e 17 são ensinadas juntas na quarta-feira. A tarefa está toda na unidade 17.


  1. A etimologia diz que o símbolo é inspirado em uma harpa egípcia ou fenícia.↩︎
  2. Para gerar órbitas, veja http://www.math.harvard.edu/k̃nill/technology/chirikov/.↩︎