Regra da Cadeia

Índice

16.1 INTRODUÇÃO
16.2 AULA
- 16.2.1 A Regra da Cadeia Multivariável
- 16.2.2 Funções Escalares e o Gradiente
16.3 EXEMPLOS
16.4 ILUSTRAÇÕES

16.1 INTRODUÇÃO

16.1.1 Construindo Funções Complexas a Partir de Funções Básicas

No cálculo, podemos construir, a partir de funções básicas, funções mais gerais. Uma possibilidade é somar funções como $f (x) + g (x) = x^{2} + \sin (x)$ . Outra possibilidade é multiplicar funções como $f (x) g (x) = x^{2} \sin (x)$ . Uma terceira possibilidade é compor funções como $f \circ g (x) = f (g (x)) = \sin^{2} (x)$ . A composição de funções é não comutativa: $f \circ g \neq g \circ f$ . De fato, temos $g \circ f (x) = \sin (x^{2})$ que é completamente diferente de $f \circ g (x) = \sin^{2} (x)$ .

**Figura 1.** $f : ℝ^{p} \to ℝ^{n}$ e $g : ℝ^{m} \to ℝ^{p}$ podem ser combinadas para formar $f (g) : ℝ^{m} \to ℝ^{n}$ .

16.1.2 A Regra da Cadeia: De Uma Variável para Dimensões Superiores

Como podemos expressar a taxa de variação de uma função composta em termos das funções básicas que a compõem? Para a soma de duas funções, temos a regra da adição (f+g)^{\prime}(x)=f^{\prime}(x)+g^{\prime}(x), para a multiplicação temos a regra do produto (f g)^{\prime}(x)=f^{\prime}(x) g(x)+f(x) g(x). Geralmente escrevemos apenas (f+g)^{\prime}=f^{\prime}+g^{\prime} ou (f g)^{\prime}=f^{\prime} g+f g^{\prime} e nem sempre escrevemos o argumento. Como você sabe do cálculo de uma variável, a derivada da função composta é dada pela regra da cadeia. Isto é (f \circ g)^{\prime}=f^{\prime}(g) g^{\prime}. Escrevendo com mais detalhes com o argumento, podemos escrever \frac{d}{d x} f(g(x))=\frac{d}{d x} f^{\prime}(g(x)) g^{\prime}(x). Generalizamos isso aqui para dimensões superiores. Em vez de $\frac{d}{d x} f$ simplesmente escrevemos $d f$ . Esta é a matriz Jacobiana que conhecemos. Agora, a mesma regra vale como antes $d f (g (x)) = d f (g (x)) d g (x)$ e isso é chamado de regra da cadeia em dimensões superiores. No lado direito, temos o produto matricial de duas matrizes.

16.1.3 Dimensões e a Regra da Cadeia

Vejamos por que isso faz sentido em termos de dimensões: $g : ℝ^{m} \to ℝ^{p}$ e $f :$ $ℝ^{p} \to ℝ^{n}$ , então $d g (x) \in M (p, m)$ e $d f (g (x)) \in M (n, p)$ e $d f (g (x)) d g (x) \in M (n, m)$ que é o mesmo tipo de matriz que $d (f \circ g)$ porque $f \circ g (x)$ mapeia $ℝ^{m} \to ℝ^{n}$ de modo que também $d (f \circ g) (x) \in M (n, m)$ . O nome regra da cadeia vem porque ela lida com funções que estão encadeadas.

16.2 AULA

16.2.1 A Regra da Cadeia Multivariável

Dada uma função diferenciável $r : ℝ^{m} \to ℝ^{p}$ , sua derivada em $x$ é a matriz Jacobiana $d r (x) \in M (p, m)$ . Se $f : ℝ^{p} \to ℝ^{n}$ é outra função com $d f (y) \in M (n, p)$ , podemos combiná-las e formar $f \circ r (x) = f (r (x)) : ℝ^{m} \to ℝ^{n}$ . As matrizes $d f (y) \in$ $M (n, p)$ e $d r (x) \in M (p, m)$ combinam-se no produto matricial $d f d r$ em um ponto. Esta matriz está em $M (n, m)$ . A regra da cadeia multivariável é:

Teorema 1. $d (f \circ r) (x) = d f (r (x)) d r (x)$ .

16.2.2 Funções Escalares e o Gradiente

Para $m = n = p = 1$ , o caso do cálculo de uma variável, temos d f(x)=f^{\prime}(x) e (f \circ r)^{\prime}(x)=f^{\prime}(r(x)) r^{\prime}(x). Em geral, $d f$ é agora uma matriz em vez de um número. Verificando uma única entrada da matriz, reduzimos ao caso $n = m = 1$ . Nesse caso, $f : ℝ^{p} \to ℝ$ é uma função escalar. Enquanto $d f$ é um vetor linha, definimos o vetor coluna $\nabla f = d f^{T} = [f_{x_{1}}, f_{x_{2}}, \dots f_{x_{p}}]^{T} .$ Se $r : ℝ \to ℝ^{p}$ é uma curva, escrevemos r^{\prime}(t)= [x_{1}^{\prime}(t), \cdots, x_{p}^{\prime}(t)]^{T} em vez de $d r (t)$ . O símbolo $\nabla$ também é chamado de "nabla".¹ O caso especial $n = m = 1$ é:

Teorema 2. \frac{d}{d t} f(r(t))=\nabla f(r(t)) \cdot r^{\prime}(t).

Demonstração. $\frac{d}{d t} f (x_{1} (t), x_{2} (t), \dots, x_{p} (t))$ é o limite $h \to 0$ de \begin{aligned} & \big[f\big(x_{1}(t+h), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t)\big)\big] / h \\ = & \big[f\big(x_{1}(t+h), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t+h), \ldots, x_{p}(t+h)\big)\big] / h \\ + & \big[f\big(x_{1}(t), x_{2}(t+h), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t+h)\big)\big] / h+\cdots \\ + & \big[f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t+h)\big)-f\big(x_{1}(t), x_{2}(t), \ldots, x_{p}(t)\big)\big] / h \end{aligned} que é (regra da cadeia 1D) no limite $h \to 0$ a soma f_{x_{1}}(x) x_{1}^{\prime}(t)+\cdots+f_{x_{p}}(x) x_{p}^{\prime}(t).

Demonstração do caso geral: Seja $h = f \circ r$ . A entrada $i j$ da matriz Jacobiana $d h (x)$ é $d h_{i j} (x) = \partial_{x_{j}} h_{i} (x) = \partial_{x_{j}} f_{i} (r (x))$ . O caso da entrada $i j$ reduz-se com $t = x_{j}$ e $h_{i} = f$ ao caso em que $r (t)$ é uma curva e $f (x)$ é uma função escalar. Este é o caso que já provamos. ◻

16.3 EXEMPLOS

Exemplo 1. Suponha que uma joaninha caminhe sobre um círculo $r (t) = [\begin{matrix} \cos (t) \\ \sin (t) \end{matrix}]$ e $f (x, y) = x^{2} - y^{2}$ seja a temperatura na posição $(x, y)$ , então $f (r (t))$ é a taxa de variação da temperatura. Podemos escrever $f (r (t)) = \cos^{2} (t) - \sin^{2} (t) = \cos (2 t) .$ Agora, $d / d t f (r (t)) = - 2 \sin (2 t)$ . O gradiente de $f$ e a velocidade são \nabla f(x, y)=\left[\begin{array}{r}2 x \\ -2 y\end{array}\right], \quad r^{\prime}(t)=\left[\begin{array}{r}-\sin (t) \\ \cos (t)\end{array}\right]. Agora \begin{aligned} \nabla f(r(t)) \cdot r^{\prime}(t)&=\left[\begin{array}{r} 2 \cos (t) \\ -2 \sin (t) \end{array}\right] \cdot\left[\begin{array}{r} -\sin (t) \\ \cos (t) \end{array}\right]\\ &=-4 \cos (t) \sin (t)\\ &=-2 \sin (2 t). \end{aligned}

**Figura 2.** Se $f (x, y)$ é uma altura, a taxa de variação $d / d t f (r (t))$ é o ganho de altura que a joaninha sobe por unidade de tempo. Depende de quão rápido a joaninha anda e em qual direção em relação ao gradiente $\nabla f$ ela anda.

16.4 ILUSTRAÇÕES

16.4.1 Potência a Partir do Potencial: Uma Conexão com a Regra da Cadeia

O caso $n = m = 1$ é extremamente importante. A regra da cadeia $d / d t f (r (t)) =$ \nabla f(r(t)) \cdot r^{\prime}(t) diz que a taxa de variação da energia potencial $f (r (t))$ na posição $r (t)$ é o produto escalar da força $F = \nabla f (r (t))$ no ponto e a velocidade com a qual nos movemos. O lado direito é potência $=$ força vezes velocidade. Usaremos isso mais tarde no teorema fundamental das integrais de linha.

16.4.2 Caos via Derivadas: Expoentes de Lyapunov e Entropia em Mapas Iterados

Se $f, g : ℝ^{m} \to ℝ^{m}$ , então $f \circ g$ é novamente um mapa de $ℝ^{m}$ para $ℝ^{n}$ . Também podemos iterar um mapa como $x \to f (x) \to f (f (x)) \to f (f (f (x))) \dots$ A derivada $d f^{n} (x)$ é, pela regra da cadeia, o produto $d f (f^{n - 1} (x)) \dots d f (f (x)) d f (x)$ de matrizes Jacobianas. O número $λ (x) = \underset{n \to \infty}{lim sup} (1 / n) \log (| d f^{n} (x) |)$ é chamado de expoente de Lyapunov do mapa $f$ no ponto $x$ . Ele mede a quantidade de caos, a "dependência sensível das condições iniciais" de $f$ . Esses números são difíceis de estimar matematicamente. Já para exemplos simples como o mapa de Chirikov $f ([x, y]) = [2 x - y + c \sin (x), x],$ pode-se medir entropia positiva $S (c)$ . Uma conjectura de Sinai afirma que a entropia do mapa é positiva para $c$ grande. Medições mostram que essa entropia $S (c) = \int_{0}^{2 π} \int_{0}^{2 π} λ (x, y) d x d y / (4 π^{2})$ satisfaz $S (x) \geq \log (c / 2)$ . A conjectura ainda está em aberto.²

16.4.3 Equações de Hamilton e Conservação de Energia

Se $H (x, y)$ é uma função chamada de Hamiltoniana e x^{\prime}(t)=H_{y}(x, y), y^{\prime}(t)= $- H_{x} (x, y)$ , então $d / d t H (x (t), y (t)) = 0$ . Isso pode ser interpretado como conservação de energia. Vemos que uma equação diferencial Hamiltoniana sempre preserva a energia. Para o pêndulo, $H (x, y) = y^{2} / 2 - \cos (x)$ , temos x^{\prime}=y, y^{\prime}=-\sin (x) ou x^{\prime \prime}=-\sin (x).

**Figura 3.** O mapa $f ([x, y]) = [x^{2} - x / 2 - y, x]$ é um **mapa de Hénon**. Vemos algumas órbitas. O mapa $f ([x, y]) = [2 x - y + 4 \sin (x), x]$ à direita apareceu na primeira hora. O toro $𝕋^{2} = ℝ^{2} / (2 π ℤ)^{2}$ está preenchido com um "mar estocástico" azul contendo "ilhas estáveis" vermelhas.

16.4.4 A Regra da Cadeia Desbloqueia Inversas

A regra da cadeia é útil para obter derivadas de funções inversas. Como \begin{aligned} 1=\frac{d}{d x} x&=\frac{d}{d x} \sin (\arcsin (x))\\ &=\cos (\arcsin (x)) \arcsin ^{\prime}(x) \end{aligned} que então fornece \begin{aligned} \arcsin ^{\prime}(x)&=1 / \sqrt{1-\sin ^{2}(\arcsin (x))}\\ &=1 / \sqrt{1-x^{2}}. \end{aligned}

16.4.5 Diferenciação Implícita: Encontrando a Inclinação Misteriosa

Suponha que $f (x, y) = x^{3} y + x^{5} y^{4} - 2 - \sin (x - y) = 0$ seja uma curva. Não podemos resolver para $y$ . Ainda assim, podemos assumir $f (x, y (x)) = 0$ . A diferenciação usando a regra da cadeia fornece f_{x}(x, y(x))+f_{y}(x, y(x)) y^{\prime}(x)=0. Portanto y^{\prime}(x)=-\frac{f_{x}(x, y(x))}{f_{y}(x, y(x))} No exemplo acima, o ponto $(x, y) = (1, 1)$ está sobre a curva. Agora $g_{x} (x, y) =$ $3 + 5 - 1 = 7$ e $g_{y} (x, y) = 1 + 4 + 1 = 6$ . Então, g^{\prime}(1)=-7 / 6. Isso é chamado de diferenciação implícita. Poderíamos calcular com ela a derivada de uma função que não era conhecida.

16.4.6 Soluções Garantidas: O Teorema da Função Implícita

O teorema da função implícita garante que uma função implícita diferenciável $g (x)$ existe perto de uma raiz $(a, b)$ de uma função diferenciável $f (x, y)$ .

Teorema 3. Se $f (a, b) = 0$ , $f_{y} (a, b) \neq 0$ existe $c > 0$ e uma função $g \in C^{1} ([b - c, b + c])$ com $f (x, g (x)) = 0$ .

Prova. Seja $c$ tão pequeno que, para $x \in [a - c, a + c]$ fixo, a função $y \in [b - c, b + c] \to h (y) = f (x, y)$ tenha a propriedade $h (b - c) < 0$ e $h (b + c) > 0$ e h^{\prime}(y) \neq 0 em $[b - c, b + c]$ . O teorema do valor intermediário para $h$ agora garante uma raiz única $z = g (x)$ de $h$ próxima a $b$ . A fórmula da regra da cadeia acima então garante que, para $a - c < x < a + c$ , o quociente diferencial $[g (x + h) - g (x)] / h$ escrito para $g$ tem limite $- f_{x} (x, g (x)) / f_{y} (x, g (x))$ . ◻

P.S. Podemos obter a raiz de $h$ aplicando passos de Newton T(y)=y-h(y) / h^{\prime}(y). Taylor (visto na próxima aula) mostra que o erro é elevado ao quadrado a cada passo. O passo de Newton $T (y) = y - d h (y)^{- 1} h (y)$ também funciona em dimensões arbitrárias. Pode-se provar o teorema da função implícita simplesmente estabelecendo que Id $- T = d h^{- 1} h$ é uma contração e então usar o teorema do ponto fixo de Banach para obter um ponto fixo de $Id - T$ , que é uma raiz de $h$ .

**Figura 5.** Se aplicarmos o mapa $f ([x, y]) = [x^{2} - x^{4} - y, x]$ repetidamente e plotarmos pontos, obtemos uma **órbita**. Tais sistemas dinâmicos simples são em grande parte não compreendidos. Quais pontos não escapam para o infinito? Qual é a fronteira desse conjunto? Provar que existem regiões que permanecem limitadas é difícil e requer "teoremas da função implícita difíceis". O método de Newton permite obter um controle sobre provar isso, onde o passo de Newton é aplicado em espaços de funções. Algumas das análises mais difíceis que os humanos inventaram para enfrentar problemas matemáticos entram em jogo neste mapa aparentemente simples $f : ℝ^{2} \to ℝ^{2}$ .

As unidades 16 e 17 são ensinadas juntas na quarta-feira. A tarefa está toda na unidade 17.

A etimologia diz que o símbolo é inspirado em uma harpa egípcia ou fenícia.↩︎
Para gerar órbitas, veja http://www.math.harvard.edu/k̃nill/technology/chirikov/.↩︎