本節先處理一個獨立變數,再處理兩個獨立變數。依賴圖可以幫助記公式,但真正的幾何意思是:$t$ 改變時,$(x(t),y(t))$ 在 $xy$ 平面移動,曲面上的點 $(x(t),y(t),w(t))$ 也跟著移動;高度變化由 $x$ 方向與 $y$ 方向的貢獻相加。
若 $w=f(x,y)$ 且 $x=g(t),\ y=h(t)$,則
$$\frac{dw}{dt}=w_x\frac{dx}{dt}+w_y\frac{dy}{dt}.$$若 $x=g(s,t),\ y=h(s,t)$,則
$$\frac{\partial w}{\partial s}=w_xx_s+w_yy_s,\qquad \frac{\partial w}{\partial t}=w_xx_t+w_yy_t.$$∂/∂s 收集對 s 的所有分支)當 $x,y$ 對 $t$ 顯式可代:兩種作法等價,先代入後微分常常更省事;
當 $f$ 抽象(例如熱力學 $U(p,V)$ 中的 $p,V$ 又依賴 $T,S$):只有鏈鎖律可用。記住:所有「鏈鎖律例題」的核心都是把單變數鏈鎖律對每條樹枝加總。
若 $F(x,y)=0$ 隱含定義 $y=y(x)$,鏈鎖律給 $F_x+F_y\,dy/dx=0$,故
$$\frac{dy}{dx}=-\frac{F_x}{F_y}\quad(F_y\ne 0).$$若 $F(x,y,z)=0$ 隱含定義 $z=z(x,y)$,則 $\displaystyle z_x=-F_x/F_z,\ z_y=-F_y/F_z\ (F_z\ne 0)$。
13.4 的全微分 $dw=w_x\,dx+w_y\,dy$ 與鏈鎖律相容:若 $x,y$ 都依賴 $t$,兩邊除以 $dt$ 就得到 $\frac{dw}{dt}=w_x\frac{dx}{dt}+w_y\frac{dy}{dt}$。同樣地,當 $F(x,y)=0$ 把 $y$ 視為 $x$ 的函數,全微分對 $F$ 取 $0$ 即得 $F_x+F_y\,y'=0$,這就是隱微分公式的來源。
偏導數只看座標軸方向;方向導數看任意單位向量 $\mathbf u=(\cos\theta,\sin\theta)$。在三維圖形中,固定方向 $\mathbf u$ 等於拿一個垂直平面切曲面,截痕曲線在點上的切線斜率就是 $D_{\mathbf u}f$。
左:曲面 $z=f(x,y)$ 與切割平面(沿 $\mathbf u$ 的垂直平面),平面與曲面交出黃色截痕,紅點處的切線斜率就是 $D_{\mathbf u}f$。右:俯視等高線圖,紅色 梯度、藍色 $\mathbf u$,可看出當 $\mathbf u$ 與等高線垂直(與梯度同向)時 $D_{\mathbf u}f$ 達到最大值 $\|\nabla f\|$。
$\nabla f$ 是向量,由各偏導排成;$D_{\mathbf u}f$ 是純量,是 $f$ 沿 $\mathbf u$ 的瞬時變化率。兩者透過內積相連:$D_{\mathbf u}f=\nabla f\cdot\mathbf u=\|\nabla f\|\cos\alpha$($\alpha$ 為 $\nabla f$ 與 $\mathbf u$ 夾角)。當 $\alpha=0$ 取最大、$\alpha=\pi/2$ 為零、$\alpha=\pi$ 取最小。
$T_x=-8x,\ T_y=-2y$;$\nabla T(2,-3)=(-16,6)$。最大上升方向沿此向量;最大增加率為其長度 $\sqrt{256+36}=2\sqrt{73}$ ℃/cm。
$\nabla f=(-\cos x,1)$ 在曲線上每一點都垂直於切向(曲線切向 $(1,\cos x)$ 與 $\nabla f=(-\cos x,1)$ 內積 $=-\cos x+\cos x=0$)。在等高線上前進 $f$ 不變,所以梯度(最大變化方向)必與等高線正交。這個性質在 13.7 切平面、13.8 鞍點分析裡會反覆出現。
在三維中:梯度垂直於 等位面 $f(x,y,z)=c$(不再是曲線而是曲面),長度仍為最大方向導數。
例題 4 給的方向是 $\overrightarrow{PQ}=(3/4,1)$,長度 $5/4\ne 1$。若直接用它代公式會得到錯誤的「方向導數」(量綱多一倍)。永遠先除以 $\|\mathbf v\|$ 再代入。例題 2 的 $\mathbf v=3\mathbf i-4\mathbf j$ 也是同樣的陷阱。
曲面若寫成 $F(x,y,z)=0$,切平面和法線可以統一由 $\nabla F(P)$ 決定。這裡不只看平面投影,而是在三維中同時看曲面、貼住曲面的切平面,以及穿過切點的法線。
若 $F$ 在 $P=(x_0,y_0,z_0)$ 可微,且 $P$ 在曲面 $F(x,y,z)=0$ 上、$\nabla F(P)\ne0$,則切平面為
$$F_x(P)(x-x_0)+F_y(P)(y-y_0)+F_z(P)(z-z_0)=0.$$法線通過 $P$,方向向量也是 $\nabla F(P)$。
13.6:對 $f(x,y)$,$\nabla f(x_0,y_0)$ 在 2D 平面中是「等高線 $f=c$」的法向量;
13.7:對 $F(x,y,z)$,$\nabla F(x_0,y_0,z_0)$ 在 3D 空間中是「等位面 $F=c$」的法向量。
形式相同,但所在空間不同。當 $F=f(x,y)-z$ 時,$\nabla F=(f_x,f_y,-1)$,第三個分量恆為 $-1$;這就是把 $z=f(x,y)$ 翻譯為 $F=0$ 形式時的代價。
外積只在三維向量中使用。若 $\mathbf a=(a_1,a_2,a_3)$、$\mathbf b=(b_1,b_2,b_3)$,則
$$\mathbf a\times\mathbf b=(a_2b_3-a_3b_2,\ a_3b_1-a_1b_3,\ a_1b_2-a_2b_1).$$它的方向同時垂直於 $\mathbf a$ 與 $\mathbf b$;長度等於以 $\mathbf a,\mathbf b$ 為邊的平行四邊形面積。兩曲面交線的切向量必須同時躺在兩個曲面的切平面內,因此要同時垂直於兩個法向量 $\nabla F$ 與 $\nabla G$,所以可用 $\nabla F\times\nabla G$ 找方向。
臨界點的意思是 $f_x=f_y=0$ 或偏導不存在;若 $f_x=f_y=0$,幾何上代表切平面水平。但水平切平面可能是碗底、帽頂,也可能是鞍點,因此還需要二階偏導數檢定。
若 $f_x(a,b)=0,\ f_y(a,b)=0$ 且二階偏導連續,令
$$d=f_{xx}(a,b)f_{yy}(a,b)-[f_{xy}(a,b)]^2.$$$d>0,f_{xx}>0$ 為相對極小;$d>0,f_{xx}<0$ 為相對極大;$d<0$ 為鞍點;$d=0$ 則本檢定無結論。
這裡只用講義前面已經建立的「增量」與「微分近似」來看。從點 $(a,b)$ 移到附近點 $(a+u,b+v)$,也就是令 $$u=\Delta x,\qquad v=\Delta y,$$ 函數高度的改變量是 $$\Delta f=f(a+u,b+v)-f(a,b).$$
講義 13.4 說過,若函數可微,第一個線性近似來自全微分: $$\Delta f\approx df=f_x(a,b)u+f_y(a,b)v.$$ 這一整塊稱為一階項,因為它只含有 $u$、$v$ 的一次方。幾何上,一階項描述切平面的傾斜:往 $x$ 方向走 $u$,高度約改變 $f_x(a,b)u$;往 $y$ 方向走 $v$,高度約改變 $f_y(a,b)v$。
可是二階偏導檢定只在講義定理 13.17 的條件下使用,也就是 $$f_x(a,b)=0,\qquad f_y(a,b)=0.$$ 因此在臨界點,一階項變成 $$f_x(a,b)u+f_y(a,b)v=0\cdot u+0\cdot v=0.$$ 這表示切平面是水平的;只看一階近似時,附近所有方向的高度改變都被估成 $0$,所以它無法分辨此點是極大、極小,還是鞍點。
下一步要問:既然一階項消失,那高度的下一層變化從哪裡來?答案是:看斜率本身怎麼變。$f_x$ 和 $f_y$ 也是 $x,y$ 的函數,所以從 $(a,b)$ 移到 $(a+u,b+v)$ 時,可以再用一次線性近似:
$$f_x(a+u,b+v)\approx f_x(a,b)+f_{xx}(a,b)u+f_{xy}(a,b)v,$$ $$f_y(a+u,b+v)\approx f_y(a,b)+f_{yx}(a,b)u+f_{yy}(a,b)v.$$在臨界點 $f_x(a,b)=f_y(a,b)=0$,所以上式變成:沿路走動時,$x$ 方向斜率大約由 $f_{xx}u+f_{xy}v$ 控制,$y$ 方向斜率大約由 $f_{yx}u+f_{yy}v$ 控制。也就是說,二階偏導數描述的是「斜率的變化」。
把這些斜率變化累積成高度變化,就得到二階項: $$\frac12\left(f_{xx}(a,b)u^2+2f_{xy}(a,b)uv+f_{yy}(a,b)v^2\right).$$ 它含有 $u^2$、$uv$、$v^2$,所以叫二階項。前面的 $\frac12$ 可理解為:斜率不是一開始就跳到終點的大小,而是從 $0$ 逐漸變化,累積高度時取到平均效果。這裡不需要額外定理,只要抓住講義的想法:一階項看「斜率」,二階項看「斜率如何改變」。
因此在臨界點附近,扣掉原本高度後主要看
$$f(a+u,b+v)-f(a,b)\approx \frac12\left(f_{xx}u^2+2f_{xy}uv+f_{yy}v^2\right).$$$d=f_{xx}f_{yy}-f_{xy}^2$ 的作用,就是判斷這個二階式在所有方向 $(u,v)$ 上是否同號。若 $d>0$,所有方向的二階變化同號;再看 $f_{xx}$:正表示附近都較高,是相對極小;負表示附近都較低,是相對極大。若 $d<0$,不同方向的二階變化有正有負,所以是鞍點。若 $d=0$,二階資訊不足,正如講義所說,要改用圖形或其他方法判斷。
定義 13.13:$(a,b)$ 是 $f$ 的臨界點,若
(1)$f_x(a,b)=f_y(a,b)=0$,或
(2)$f_x$ 或 $f_y$ 在 $(a,b)$ 不存在。
兩類都可能是極值;二階檢定法 (定理 13.17) 只能用在情況 (1)。
鞍點滿足 $\nabla f(P)=0$ 但不是極值點:沿某些方向是極小、沿其他方向卻是極大(典型如 $f=y^2-x^2$ 在 $(0,0)$)。所以「水平切平面」不蘊含「極值」,必須再做二階檢定。
$x=0$:$f(0,y)=\sin 0=0$,整條 $y$ 軸邊界都是最小值點。
$y=0$:$f(x,0)=\sin 0=0$,整條 $x$ 軸邊界都是最小值點。
$x=\pi$:$f(\pi,y)=\sin(\pi y)$,$0\le y\le1$。在 $y=1/2$ 得最大值 $1$;在 $y=0,1$ 得最小值 $0$,特別包含講義列出的點 $(\pi,1)$。
$y=1$:$f(x,1)=\sin x$,$0\le x\le\pi$。在 $x=\pi/2$ 得最大值 $1$;在 $x=0,\pi$ 得最小值 $0$,其中 $x=\pi$ 也就是同一個點 $(\pi,1)$。
13.9 不列入考試範圍,這裡只保留最大體積與最大利潤兩個建模例題作為補充。兩題都回到同一件事:先把問題寫成二變數函數,再找臨界點或比較可行區域。
(1) 建模:把問題寫成 $F(x,y)$ 或 $F(x,y,z)$ 加限制;
(2) 消變數:用限制把 $z$(或一個變數)以另兩個表達,化為二變數函數;
(3) 找臨界點:解 $\nabla F=0$;
(4) 判型:二階檢定或實際情境(最大化體積→必有最大值);
(5) 代回:給原問題的答案。
許多最佳化問題會限制可使用的點,例如點必須落在某條曲線、某個曲面,或兩個曲面的交線上。這些限制會使問題變複雜,因為最佳解可能出現在可行區域的邊界。Lagrange 乘數法的想法是:在限制曲線上取得極值時,目標函數的等高線會和限制曲線相切,所以兩者的梯度方向平行。
限制式可看成 $g(x,y)=x^2/3^2+y^2/4^2$ 的固定等高線 $g(x,y)=1$。目標函數 $f(x,y)=4xy$ 的等高線是一族雙曲線 $4xy=k$。若 $k$ 太小,雙曲線和橢圓交在許多可行點;把 $k$ 逐漸放大,最後仍能碰到橢圓的那一條雙曲線會剛好與橢圓相切。相切時,兩條曲線的法向量平行,也就是
$$\nabla f(x,y)=\lambda\nabla g(x,y).$$若 $\nabla f(x,y)=\lambda\nabla g(x,y)$,講義稱這個純量 $\lambda$ 為拉格朗日乘數。
令 $f$ 與 $g$ 具有連續一階偏導數,且 $f$ 在光滑限制曲線 $g(x,y)=c$ 上的 $(x_0,y_0)$ 取得極值。若 $\nabla g(x_0,y_0)\ne 0$,則存在實數 $\lambda$ 使得
$$\nabla f(x_0,y_0)=\lambda\nabla g(x_0,y_0).$$把限制曲線寫成 $\mathbf r(t)=x(t)\mathbf i+y(t)\mathbf j$,且 $\mathbf r'(t)\ne 0$。令 $h(t)=f(x(t),y(t))$。因為 $f$ 在限制曲線上於 $(x_0,y_0)$ 取得極值,所以對應的 $h(t)$ 在 $t_0$ 有極值,故 $h'(t_0)=0$。
$$h'(t_0)=f_x(x_0,y_0)x'(t_0)+f_y(x_0,y_0)y'(t_0)=\nabla f(x_0,y_0)\cdot\mathbf r'(t_0)=0.$$因此 $\nabla f(x_0,y_0)$ 垂直於曲線切向量 $\mathbf r'(t_0)$。另一方面,依定理 13.12,$\nabla g(x_0,y_0)$ 也垂直於同一條限制曲線的切向量。兩個向量都垂直於同一個切向方向,所以它們平行,因此存在 $\lambda$ 使 $\nabla f=\lambda\nabla g$。
同時解下列三個方程:
$$f_x(x,y)=\lambda g_x(x,y),\qquad f_y(x,y)=\lambda g_y(x,y),\qquad g(x,y)=c.$$把第一步得到的每個解代回 $f$。最大的值給出受限制最大值,最小的值給出受限制最小值。
令
$$F(x,y,\lambda)=f(x,y)-\lambda\bigl(g(x,y)-c\bigr),$$再把 $F$ 視為無限制問題求解。
先寫目標函數,再寫限制函數;接著列梯度方程,最後比較所有候選點。
若有兩個限制函數 $g$ 與 $h$,講義引入第二個拉格朗日乘數 $\mu$,並解
$$\nabla f=\lambda\nabla g+\mu\nabla h,$$其中兩個限制函數的梯度向量不平行。