椭圆函数正篇:Gauss与AGM(6-1)


[注:题图用如下方法生成:取 $a_0=3,b_0=1$ , 进行六次复数 AGM 迭代后,取 $\{b_n\},0\leq+n\leq+6$ 中所有可能的值在复平面上进行散点图绘制。数值计算精确到小数点后五位。]

前情提要:

Gauss 大约在 1799 年年末到次年 6 月发展了一般椭圆积分理论。根据 Gauss 现存的手稿来看,他的一般椭圆积分理论在相当程度上依赖于所谓的算术几何平均(定义见Gauss 与 AGM (IV-1))。其中非常重要的内容是 (见Gauss 与 AGM (V-1)):

给定正实数 $x,x\in (0,1)$ . 并且定义 $x^\prime=\sqrt{1-x^2}$ 。记 $M (1,x),M (1,x^\prime)$ 分别为 $1,x$ 以及 $1,x^\prime$ 之间的算术几何平均。如果定义 $z=\exp\left (-\pi\frac{M (1,x^\prime)}{M (1,x)}\right)$ , 那么我们有

$$\begin{align}\frac{1}{M (1,x^\prime)}=p^2 (z)\\\frac{x^\prime}{M (1,x^\prime)}=q^2 (z)\\\frac{x}{M (1,x^\prime)}=r^2 (z)\end{align}$$

其中

$$\begin{align} p (z)&=1+2z+2z^4+2z^9+\cdots\\q (z)&=1-2z+2z^4-2z^9+\cdots\\r (z)&=2z^{1/4}+2z^{9/4}+2z^{25/4}+\cdots\end{align}$$

$z=\exp\left (-\pi\frac{M (1,x^\prime)}{M (1,x)}\right)$ 及其反演在 Gauss 后续的工作中占有举足轻重的作用。借助这些关系,Gauss 成功地将双纽线的工作推广到了一般椭圆积分

$$\int_0^{S}\frac{\mathrm{d} t}{\sqrt{1-t^2}\sqrt{1+\mu^2t^2}}$$

上去 (见Gauss 与 AGM (V-2))。他在Scheda Ac末尾特别提到了自己 1797 年 1 月 8 日的日记 (见Gauss 与 AGM (I)及 Gauss 全集第十卷第一册,206 页) 便是明证。一般椭圆积分的反函数,椭圆积分所满足的二阶微分方程 [后来的超几何函数的雏形],一般椭圆积分的加法定理,theta 函数各类三角级数和无穷乘积的应用都在 Gauss 的笔记中出现,这标志着 Gauss 的椭圆函数理论已经具备了后来 Abel 和 Jacobi 工作中的大部分要点。而 Gauss 的工作中有一项是 Abel 与 Jacobi 未能触及的:那就是所谓的椭圆模函数 (modular function) 理论。它有可能源自 Gauss 对复数域上的椭圆积分以及算术-几何平均值的研究,但是由于缺少同时代的材料,所有的推测可能永远无法得到证实。


1800 年 5 月到 6 月期间 Gauss 日记的 105,106,108,109,110,111 条全与椭圆积分相关,而在其中,第 109 条的内容是比较特别的。

Inter duos numeros datos semper dantur infinite multi termini medii tum arithmetico-geometrici tum harmonico-geometrici, quorum nexum mutuum ex asse perspiciendi felicitas nobis est facta.两个给定的数之间有无穷多种算术-几何平均值以及调和-几何平均值,理清这些平均值之间的关系是我们欢乐的源泉。

[编辑:Jemery Gray 的翻译是修正之前采用的英文译本,现根据 David Cox 的文章予以修正。]

按理说两个正实数的算术-几何平均值以及调和-几何平均值应该只有唯一的一个。这无穷多种算术-几何平均值 (AGM) 的说法又是从何而来呢?这背后徘徊的自然是复数的幽灵。如果我们要用 AGM 来建立复数域上椭圆积分的理论,那么我们就不可避免地用到复数域上的 AGM。回顾AGM 的定义

$$\begin{cases} a_{n+1}=(a_n+b_n)/2\\b_{n+1}=\sqrt{a_nb_n}\end{cases}$$

$a_n,b_n$ 的平均值自然是 $a_n,b_n$ 的单值函数,但是 $a_nb_n$ 的平方根却不是。正是因为开方是多值函数,因此迭代的值不再收敛到唯一的极限。一个自然的问题是:在我们把迭代过程搬到复数域以后,迭代过程是否还总是收敛?进一步我们还要追问,如果收敛,极限值是否还与椭圆积分密切相关?我们先从一个简化的问题开始。

[Toy Model]回顾 Gauss 曾经考虑过的算术几何平均值的变种 (见Gauss 与 AGM (IV-1))

$$\begin{cases} a_{n+1}=(a_n+b_n)/2\\b_{n+1}=\sqrt{a_{n+1} b_n}\end{cases}$$

令 $r_n=a_n/b_n$ , 那么 $r_{n+1}=\sqrt{\frac{1+r_n}{2}}$ 。根据递推式的形式,作三角代换 $r_n=\cos\theta_n$ , 我们知道, $r_n=\cos\frac{\theta_0}{2^n}$ 。因此

$$b_n=b_0r_0r_1\cdots+r_{n-1}=\frac{b_0}{2^n\sin (\theta_0/2^n)},\\a_n=r_nb_n=\frac{b_0\cos (\theta_0/2^n)}{2^n\sin (\theta_0/2^n)}$$

当我们考虑开方的多值性的时候,问题就变得相对复杂一些。根据上面的推理,我们令 $a_n=\frac{\lambda}{2^{n}}\cot\theta_n,b_n=\frac{\lambda}{2^{n}}\csc\theta_n$

那么利用三角函数的倍角公式 / 半角公式可以得到

$$a_{n+1}=\frac{\lambda}{2^{n+1}}\cot\frac{\theta_n}{2},b_{n+1}=\pm\frac{\lambda}{2^{n+1}}\csc\frac{\theta_n}{2}$$

我们把它重写为

$$a_{n+1}=\frac{\lambda}{2^{n+1}}\cot\left (\frac{\theta_n}{2}+s_n\pi\right),\\b_{n+1}=\frac{\lambda}{2^{n+1}}\csc\left (\frac{\theta_n}{2}+s_n\pi\right),\,s_n=0,1$$

所以我们可以取 $\theta_{n+1}=\frac{\theta_n}{2}+s_n\pi$ 。序列 $\{s_0,s_1,s_2,\cdots,s_n,\cdots\}$ 中只有有限项为 0 或者有限项为 1 是最容易处理的。此时 $\{\theta_n/\pi\}$ 收敛到 1 或 0。

我们先取序列 $\{s_n\}$ 中只有有限项为 1 的情形进行说明。假设满足 $s_n=1$ 的最大角标为 $N$ ,并且令 $2^Ns_N+2^{N-1} s_{N-1}+\cdots+s_0=S$ , 那么根据极限 $\lim_{x\rightarrow0}\frac{\sin+x}{x}=1$ , 我们得到 $\{a_n\},\{b_n\}$ 收敛到极限 $\frac{\lambda}{\theta_0+2\pi+S}$ 。 $S$ 正是正整数的二进制表示,因此 $\{a_n\},\{b_n\}$ 可以 [同时] 收敛到 $\frac{\lambda}{\theta_0+2k\pi},k\geq0,k\in\mathbb{Z}$ 的每一个值。如果我们继续讨论 $\{s_n\}$ 只有有限项为 0 以及其他 $\{\theta_n\}$ 收敛的情况,我们就可以被引导到以下结论:

如果初值为复数,开方为多值函数,迭代生成的序列 $\{a_n\},\{b_n\}$ 仍然收敛到同一个极限值。极限值有两类可能:

  • 0;

  • $$\frac{\lambda}{\theta_0+2k\pi},k\in\mathbb{Z}$$

序列 $\{\theta_n\}$ 不收敛的时候我们是没有和上面一样方便的处理方法的。我们下面介绍的方法本质上属于 Ludwig von Dávid (1928),Harald Geppert (1928) 与 David Cox (1984),他们的方法绕开了 $\{\theta_n\}$ 敛散性的分析过程,使得对于所有序列 $\{s_n\}$ 的分析成为可能。

[$\{a_n\},\{b_n\}$ 中如果有一项为 0,那么两序列都收敛到 0, 我们下面不考虑这种平凡的情形]

  • 如果我们规定 $\{a_n\},\{b_n\}$ 为正实数列,那么两个序列收敛到同一个值。在复数域上迭代的时候,开方会有两个值存在。我们规定,给定序列中的项 $a_n,b_n$ , 产生的 $b_{n+1}$ 离 $a_{n+1}$ 更近,那么它就更 "好",对于 "好的" $b_{n+1}$ , 我们自然有 $\vert+a_{n+1}-b_{n+1}\vert\leq\vert+a_{n+1}+b_{n+1}\vert$ ;

  • 一个非常重要的观察是: $M_n:=\max (\vert+a_n\vert,\vert+b_n\vert)$ 是随 $n$ 递减的 [为什么?]。因此 $\lim_{n\rightarrow\infty} M_n$ 总是存在的。

  • 对于一对“好的” $(a_n,b_n)$ , 我们总有 $\Re{b_n/a_n}\geq0$ [为什么?]。如果一对 $(a_n,b_n)$ 是“不好”的,我们不妨令 $\vert+a_n\vert=M_n$ ,那么 $\vert+a_{n+1}\vert\leq+\frac{M_{n}}{2}\vert1+\frac{b_n}{a_n}\vert\leq\frac{\sqrt{2}}{2} M_n\\\vert+b_{n+1}\vert\leq\sqrt{M_n\cdot2^{-1/2} M_n}$ 因此我们有 $M_{n+1}\leq2^{-1/4} M_n$ 成立。如果迭代过程中有无限多对“不好”的 $(a_n,b_n)$ ,那么 $\{a_n\},\{b_n\}$ 必须收敛到 0.

  • 我们转而考察序列中只有有限对“不好”的 $(a_n,b_n)$ 的情形。我们来证明此时的两个序列仍然收敛到同一极限。从递推式我们可以直接得到 $a_n^2-b_n^2=\frac{1}{4^n}(a_0^2-b_0^2)$ 。设对所有 $n\geq+N$ 均有 $|a_n-b_n|\leq|a_n+b_n|$ , 那么我们有 $|a_n-b_n|\leq\frac{M}{2^n}$ 对一切 $n\geq+N$ 均成立, $M$ 是某个非负实数。又 $a_{n+1}-a_n=\frac{b_n-a_n}{2}$ , 因此 $|a_{n+1}-a_n|\leq\frac{M}{2^{n+1}}$ 。从此可以推出 $\{a_n\}$ 是 Cauchy 数列,它必然有极限。所以两数列仍然收敛到同一极限。

  • 从三角代换我们可以得到 $\frac{a_n}{b_n}=\cos\theta_n$ 。如果对某个正整数 $N$ , 我们总有 $\Re{\cos\theta_n}\geq+0$ 对一切 $n\geq+N$ 成立。我们不妨先取 $\theta_N$ 使 $-\pi/2\leq\Re\theta_N\leq\pi/2,\Im\theta_N\geq0$ 。我们此时仍然有 $\theta_{n+1}=\theta_{n}/2+s_n\pi,s_n=0,1$ 成立。不过我们如果要强制 $\Re{\cos\theta_n}\geq+0$ 对一切 $n\geq+N$ 成立,我们必须有 $s_n=0,n\geq+N$ 成立 [为什么?]。于是我们就回归到前面讨论过的情形 [为什么?]。


仔细审视以上推理过程,我们就可以知道,三角函数的倍角公式 / 半角公式及其周期性在推理中起到了重要的作用。对于复的 AGM 迭代过程

$$\begin{cases} a_{n+1}=(a_n+b_n)/2\\b_{n+1}=\sqrt{a_nb_n}\end{cases}$$

我们可以找到一个几乎平行于上面 toy model 的论证过程。Gauss 最迟在建立一般椭圆积分理论的过程中就已经知道

$$p^2 (z^2)=\frac{p^2 (z)+q^2 (z)}{2}\\q^2 (z^2)=p (z) q (z)\\p^4 (z)=q^4 (z)+r^4 (z)$$

这些关系式大概就是 Gauss 全集第一任编辑Ernst Christian Julius Schering在 Gauss 全集第三卷 [p. 493] 中记载的轶事:Gauss 早在 1794 年就知道这一类函数与 AGM 之间的关系。笔者偏向于不相信 Schering 的记载。且不说 Schering 的记载没有任何旁证,如果 Gauss 真的知道这一关系式,那么借用 1798 年Scheda Aa 中的记载$q (e^{-\pi})=r (e^{-\pi})=\sqrt{\varpi/\pi},$ 他立刻就可以得到 1799 年 5 月 30 日提出的猜想$M (1,\sqrt{2})=\pi/\varpi$ 的解答。然而根据 Gauss 日记 1799 年 12 月的记载以及1799 年 11 月与 Pfaff 的通信来看,他在 1799 年 11 月还尚未得到 $M (1,\sqrt{2})=\pi/\varpi$ 的证明。Schering 留下的另一个传说是:Dirichlet 在拜访 Gauss 时,见到 Gauss 用自己《算术研究》的手稿点自己的烟斗。Dirichlet 大吃一惊,请求 Gauss 将剩余的手稿交给自己保存 [见 Uta C. Merzbach 的文章An Early Version of Gauss's Disquisitiones Arithmeticae, 1981]。根据 Merzbach 的记载,Dedekind 本人曾经表示对这一传说的严重怀疑。毋庸置疑,Dedekind 与 Gauss 和 Dirichlet 都有过密切的交往。Dedekind 自己说,如果传说属实,Dirichlet 应该早就告诉过他这件轶事,但他什么都没听说。

[注:不过 Merzbach 等人确实在 Dirichlet 遗留下的手稿中找到了 Gauss《算术研究》的早期版本。此版本应当有八个章节,其中第四章的一部分 (二次剩余) 与整个第五章 (二次型理论) 尚未找到。其他章节,包括未发表的第八章 (高次剩余,包含了有限域理论的很多内容) 都相对比较完整。]

言归正传,如果我们把这一关系式与前面提出的简化模型作对比,那么我们立刻就可以写出

$$\begin{cases} a_{n}=\lambda+p^2 (z^{2^n})\\b_{n}=\lambda+q^2 (z^{2^n})\end{cases}$$

如果 $-1<+z<1$ , 那么数列收敛到常数 $\lambda$ 。换句话说, $p^2 (z),q^2 (z)$ 的算术几何平均值是 1。Gauss 自己很看重这个结论,称之为höchst wichtige Theorem[极其重要的定理,见 Gauss 全集第三卷,467 页 (这是 1818 年以后的手稿)]。

[注:读者可尝试计算 $p^2 (z),r^2 (z)$ 的算术几何平均值 [见 Gauss 全集第十卷第一册,218 页]。这个值和 $z$ 的关系是什么?]

将这一结论推广到复数域上需要我们付出更多的努力。我们先回到简化的模型上获取一点灵感。如果我们令 $a=\lambda\cot\theta,a^\prime=\lambda^\prime\cot\theta^\prime,b=\lambda\csc\theta,b^\prime=\lambda^\prime\csc\theta^\prime$ ,那么迭代过程

$$\begin{cases} a^\prime=(a+b)/2\\b^\prime=\sqrt{a^\prime+b}\end{cases}$$

自然引导出 $\lambda^\prime=\lambda/2,\theta^\prime=\theta/2+s\pi,s=0,1$ 。

如果我们类比这一过程,令

$$a=\lambda+p^2 (z),a^\prime=\lambda^\prime+p^2 (z^\prime),b=\lambda+q^2 (z),b^\prime=\lambda^\prime+q^2 (z^\prime)$$

迭代过程

$$\begin{cases} a^\prime=(a+b)/2\\b^\prime=\sqrt{ab}\end{cases}$$

给出 $\lambda^\prime+p^2 (z^\prime)=\lambda+p^2 (z^2)\\+\lambda^\prime+q^2 (z^\prime)=\pm\lambda+q^2 (z^2)$

很显然符号为正的时候我们可以确定 $\lambda^\prime=\lambda,z^\prime=z^2$ 。但符号为负的时候就没有这样简单的关系了。

为此我们回到开篇 $p,q,r$ 以及 $z$ 的定义。我们令 $t=\frac{M (1,x^\prime)}{M (1,x)}$ 。那么我们有 $\frac{1}{M (1,x^\prime)}=p^2 (e^{-\pi+t})$ 。如果我们把 $x$ 换为 $x^\prime$ , 那么我们有

$\frac{1}{M (1,x)}=p^2 (e^{-\pi/t})$ 。然而 $\frac{1}{M (1,x)}=\frac{t}{M (1,x^\prime)}$ , 因此我们得到了

$p^2 (e^{-\pi/t})=t+p^2 (e^{-\pi+t})$ 。利用同样的推理我们得到以下三个关系式:

$$p^2 (e^{-\pi/t})=t+p^2 (e^{-\pi+t})\\+q^2 (e^{-\pi/t})=t+r^2 (e^{-\pi+t})\\+r^2 (e^{-\pi/t})=t+q^2 (e^{-\pi+t})$$

这是 theta 函数极其重要的函数方程。我们有理由认为 Gauss 是通过我们叙述的方式发现这些关系的,但是这并不是严格的证明。现代意义上的严格证明来自于Poisson 求和,具体到我们的例子上,就是通过计算周期函数

$$f (x)=\sum_{n\in+\mathbb{Z}} e^{-\pi (x+n)^2}$$

的 Fourier 级数得到 $p,q,r$ 的函数方程。这里 Arnold principle (如果一个概念挂着某个人的名字,那么此人不是这个概念的最初发现者) 再次发挥了作用:因为 Poisson 求和已经出现在了 Gauss 1808 年的笔记当中 [见 Gauss 全集第十卷第一册,287-289 页],而 Poisson 发表自己的发现是在1823 年

除了上面的关系以外, $p,q,r$ 还满足其他显而易见的函数方程:

$$p^2 (e^{-\pi (t+i)})=q^2 (e^{-\pi+t})\\+q^2 (e^{-\pi (t+i)})=p^2 (e^{-\pi+t})\\+r^2 (e^{-\pi (t+i)})=i+r^2 (e^{-\pi+t})$$

这些函数方程告诉我们,函数 $p,q,r$ 在变换 $t\mapsto+1/t$ 以及 $t\mapsto+t+i$ 下可以互相转变。按现代记法,如果我们令 $t=i\tau$ ,那么我们就需要探索 $p^2 (e^{\pi+i\tau}),q^2 (e^{\pi+i\tau}),r^2 (e^{\pi+i\tau})$ 在变换 $\tau\mapsto+-1/\tau$, $\tau\mapsto\tau+1$ 以及这两种变换的所有复合之下是如何互相转换的。[下文中我们会用 $p (\tau)$ 来代表 $p (e^{\pi+i\tau})$ , 对于 $q,r$ 我们也采用类似的记法。]

我们已经知道 $p^2 (\tau+2)=p^2 (\tau),p^2 (-1/\tau)=-i\tau+p^2 (\tau)$ 。通过不太多的试探我们可以得到

$$p^2\left (\frac{\tau}{2\tau+1}\right)=i\frac{2\tau+1}{\tau} p^2\left (-\frac{2\tau+1}{\tau}\right)=(2\tau+1) p^2 (\tau)$$

类似地我们可以证明,

$$q^2\left (\frac{\tau}{2\tau+1}\right)=-(2\tau+1) q^2 (\tau)$$

到这里我们的问题就有了答案。如果令

$$a=\lambda+p^2 (\tau),a^\prime=\lambda^\prime+p^2 (\tau^\prime),b=\lambda+q^2 (\tau),b^\prime=\lambda^\prime+q^2 (\tau^\prime)$$

那么迭代过程

$$\begin{cases} a^\prime=(a+b)/2\\b^\prime=\sqrt{ab}\end{cases}$$

自然给出

$$\tau^{\prime}=\frac{2\tau}{4s\tau+1},\lambda^\prime=\frac{\lambda}{4s\tau+1},s=0,1$$

确定这一关系式固然重要,但是还不足以完全确定这一迭代过程中产生的所有值之间的关系。这就需要我们更加深入地了解函数 $p,q,r$ 的对称性,这是由若干作用在复平面上的线性分式变换群所决定的。我们会在下篇中集中探讨这些群。

作者: rainbow zyop