在中国普及数学方法的若干个人体会


在第四届国际数学教育会议上,我能够在全体大会上作报告,我个人感到光荣,这也是中国人民的光荣。但另一方面,人贵有自知之明,我的数学是自学出来的,对于数学教育,实践不多。近二十年来,我从事把数学方法交到工人和技术人员手里、为生产服务的工作,也是一面搞理论研究、一面教学、一面在实践中摸索着做的。这是我第一次有机会在世界性的数学教育会议上公开报告。在我的讲话中,如有缺点错误,就请大家指教和纠正。

一 三个原则

我从事普及数学方法的工作是从 60 年代开始的,迄今我们已经到过 23 个省、市、自治区, 几百个城市,几千个工厂,会见了成百万的工人、农民和技术人员。从工作实践中,我们体会到在普及数学方法时有以下三个原则:

(一) “为谁? ” 或 “目的是什么了”

(二) “什么技术? ”

(三)“如何推广? ” 我现在对这三个问题,简单地分述如下:

(一) 在专家与工人之间并不一定有共同语言,要找到共同语言,必须要有共同的目的性。决不能你想你的,他想他的。当一个工人正为平衡砂轮或锡林 (cylinder) 而着急的时候,你去对他讲无穷维空间,无疑是他不会感兴趣的。虽然无穷维空间对一些数学家来说是引人入胜的。因此搞普及工作,首先要找到讲者与听者间的共同目标。有了共同目标,就能为产生共同语言打开道路。这样才有可能提到 (二) 选择什么技术的问题。

(二) 关于这一问题,我以后还要较详细地讲。现在仅提出 “选题三原则” :

1. 群众性 我们提出来的方法,要让有关的群众听得懂,学得会,用得上,见成效。

2. 实践性 每个方法在推广之前都要经过实践,通过实践去检验这个方法可以适用的范围,然后在这范围内进行推广。在实践中会发现,在国外取得成功的方法,即使原封不动地搬到中国来,往往不能取得预期的结果。

3. 理论性 必须有较高的理论水平,因为有了理论,才能深人浅出; 有了理论,才能辨别方法的好坏; 有了理论,才能创造新的方法。在没有理论的时候,没有较深刻的认识,也就不会知道教学改革应当从哪儿改起,很可能把理论上十分重要的部分给革掉了,把无用或只有一用的东西,甚至是过时了的东西添进去了。

(三) 如何推广的问题,我们的经验是亲自下去,从小范围做起。例如先从一个车间做起, 从一个项目做起。如果一个车间做出成绩,引起了注意,其它车间会闻风而来,邀请我们前去。如果整个工厂从领导到群众大都感兴趣了,那就可以推广到整个工厂,一直到整个城市、整个省和自治区。就这样,有时我们要对成十万个听众演讲。演讲的方法是有一个主会场,并设若千个分会场。在我国闭路电视还不普遍,所以在每个分会场都有我的助手负责演示与画图。讲完后,我们不仅要负责答疑,更重要的是到现场去,和大家一起工作实践,务必让讲授的方法在生产中见到效果。

二 书本上寻

作为一个学者,首先想到的就是到文献中或书本上寻找材料。如果能注意分析比较,这样作也不失为一个好方法,可以从中获得不少经验和教训。例子很多,我仅举其中之一。如何计算山区的表面积? 我们在书上找到了两个方法: 一个是地质学家用的 Бауман 法, 另一个是地理学家用的 Волков 法。这些方法的叙述如下:

从一个画有高程差为 \(\Delta h\) 的等高线地图出发。\(l_0\) 是高度为 0 的等高线,\(l_1\) 是高度为 \(\Delta h\) 的等高线,…… ,\(l_n\) 是制高点,高度为 h。$W_i$是 \(l_i\) 与 \(l_{i+1}\) 间平面上的面积。

1) 地质学家的方法。分两步:

a) 令 \(C_i=\dfrac{1}{2}(|l_i|+|l_{i+1}|)\),\(|l_i|\) 是等高线 \(l_i\) 的长度。

b) \[B_n=\sum_{i=0}^{n-1}\sqrt{W_i^{2}+C_i^{2}}\]

地质学家把 \(B_n\) 看作是这山地区域近似面积值。

2) 地理学家的方法,也分两步

a) \[l=\sum_{i=1}^n|l_i|\qquad W=\sum_{i=0}^{n-1}W_i\]

b)\[V_n=\sqrt{W^2+({\Delta h}\cdot l)^2}\]

地理学家把 \(V_n\) 看作是这山地区域近似面积值。这是我们从不同的科学分支找来的两种方法。当这些方法摆在我们面前的时候,立刻就出现了两个问题: (i) 它们是否收敛于真面积? (i) 哪个方法好些? 使人失望的是,两个方法都不收敛于真面积 \(A\),确切地说,命 \[B=\lim_{n\to \infty} B_n \qquad  V=\lim_{n\to \infty}V_n\] 则得出 \[V\leq B\leq A\]

证明是不难的,但似乎有些兴趣。我们把曲面写成为 \[\rho=\rho(z,\theta)\qquad 0\leq \theta<2\pi\] 这是以制高点为原点、高度为: 的等高线方程,则易知 \[A=\int_{0}^{h}\int_{0}^{2\pi}\sqrt{\rho^2+{(\frac{\partial \rho}{\partial \theta})}^2+{(\frac{\partial \rho}{\partial \theta})}^2} d\theta dz.\]

如果引进一个复值 \[f(z,\theta)=-\rho \frac{\partial \rho}{\partial z}+i\sqrt{\rho^2+{(\frac{\partial \rho}{\partial \theta})}^2}.\] 则 \[\begin{aligned} V&=\Big|\int_{0}^{h}\int_{0}^{2\pi}f(z,\theta)d\theta dz\Big|\leq B=\int_{0}^{h}\Big|\int_{0}^{2\pi}f(z,\theta) d\theta\Big|dz\\ &\leq A=\int_{0}^{h}\int_{0}^{2\pi}|f(z,\theta)|d\theta dz. \end{aligned}\]

我们还发现了它们取等号的可能性。很不幸,只有在一些非常特殊的情况下,才取等号。

这个例子,一方面说明了数学工作者从其他科学领域寻找问题的可能性。另一方面,也说明了数学理论的作用。没有数学理论就不能识别方法的好坏。经过理论上的分析,我们就有可能由之而创造出更好的方法来。找出了较好的方法,是不是能够成为我们应该普及的材料 ? 不! 这个方法只要让地质地理学家们知道就够了,也就是建议他们写书的时候改用新法、或作为我们教授微积分时的资料就行了。

虽然这不是我们可以推广的项目,但我还是觉得这样的工作是必要的。这样的材料积累多了,就可以使我们改写教材时显得更充实,习题可以更实际,不仅仅在概念上兜圈子,或凭空地去想些难题。我们也有一个体会,不广泛联系各个学科的教学改革是空的改革,联系的方面包括其他学科和工农业生产。

三 车间里找

从一个车间或从个别工人处得来的问题,也有不少是很有意义的。我在这儿举共中一个作为例子,叫做挂轮问题。那是 1973 年,我们到了中国的中部洛阳市去推广应用数学方法。洛阳拖拉机厂的一位工人给我们提出一个 “挂轮问题”。用数学的语言来表达,给定一个实数 $\xi$,寻求四个介于 \(20\) 和 \(100\) 之间的整数 \(a\),\(b\),\(c\),\(d\) 使 \[\Big|\xi-\frac{a\times b}{c\times d}\Big|\] 最小。

这位工人给我们指出,从机械手册所查到的数字是不精确的。他以省 $\pi$ 为例,手册上给出的是 \[\dfrac{337}{120}=\dfrac{52\times 29}{20\times 24}\] 他自己找到的 \[\dfrac{2108}{671}=\dfrac{68\times 62}{22\times 61}\] 要比手册上的好。他问还有比这更好的吗?

这是 Diophantien 逼近问题。粗看起来容易,用连分数有可能解决这个问题。或许从 $\pi$ 的渐近分数 \[\dfrac{3}{1},\dfrac{22}{7},\dfrac{333}{106},\dfrac{355}{113},\dfrac{103993}{33102},\cdots\] 中能找到比这位工人找出的数更好: 可是不行!\(\dfrac{355}{113}\) 以前的分数太粗糙,不比他的好。以后的分子分母都超过 \(100^2\),不合要求。\(113\) 是素数,不能分解为 \(c\times d\)。这个问题竟成了棘手的问题。怎么办?时间仅有一天!在我离开洛阳的时候,在火车站给我的助手写了一张小纸条: \[\fbox {$\dfrac{377}{120}=\dfrac{22+355}{7+113}$}\] 我的助手着了这小纸条,知道我建议他用 Farey 中项法。

我的助手用这方法,又找出两个更好的分数。 \[\dfrac{20\times (355)+29\times (22)+2\times (3)}{20\times (113)+29\times (7)+2\times (1)}=\dfrac{7744}{2465}=\dfrac{88\times 88}{85\times 29}\] 及 \[\dfrac{10\times (355)+1\times (333)+2\times (22)}{10\times (113)+1\times (106)+2\times (7)}=\dfrac{3927}{1250}=\dfrac{51\times 77}{50\times 25}\] 最后一个分数是最好的。

上面是以 \(\pi\) 作为例子,但得出来的方法可以用来处理任意的实数。根据这个方法我们发现工程手册上有好些 \(a\)、\(b\)、\(c\)、\(d\) 并不是最好的,并且还有漏列。我在此顺便一提: 我们可以根据这些经验去帮助编写工程手册的单位和人员,改进他们手册的质量。

找到这个方法,是否能作为我们推广普及的材料? 虽然需要这方法的人比算山区表面积的人多些,但用 “挂轮计算” 的毕竟还是工人中的极少数。而且,如果工程手册改进了,也就可以起到同样的作用。于是,“选题”问题还需要多方探讨。

四 优选法

来回调试法是我们经常用的方法。但是怎样的来回调试最有效? 1952 年 Kicfer 解决了这一问题。由于和初等几何的黄金分割有关,因之称为黄金分割法。这是一个应用范围广的方法,我们怎样才能让普通工人掌握这方法并用于他们的工作中?

我们讲授的方法是 (先预备一张狭长纸条):

(一) 请大家记好一个数字 0.618;

(二) 举例说: 进行某工艺时,温度的最佳点可能在 1000–2O00℃ 之间。当然,我们可以隔一度做一个试验,做完一千个试点之后,我们一定可以找到最佳温度。但要做一千次试验。

(三) (取出纸条) 假定这是有刻度的纸条,刻了 1000℃ 到 2000℃ 第一个试点在总长度的 0.618 处做,总长度是 1000,乘以 0.618 是 618,也就是说第一点在 1618℃ 做,做出结果记下。

image_016.png

(四) 把纸条对摺,在第一试点的对面做第二实验。

image_017.png

比较第一、二试点结果,在较差点 (例如①) 处将纸条撕下不要。

(五) 对剩下的纸条,重复 (四) 的处理方法,直到找出最。

用这样的办法,普通工人一听就能懂,懂了就能用。根据上面第二部分提出的选题三原则”,我们选择了若干常用的优选方法,用类似的显浅语言向工人讲授。

对于一些不易普及但在特殊情况下可能用上的方法,我们也作了深入的研究。例如 1962 年提出的 DFP 法 (Davidon–Fleteher–Powell),声称收敛速度是 \[|x^{(k+1)}-x^*|=o(|x^{(k)}-x^*|)\] 我们早就指出此法的收敛速度可达到 \[|x^{(k+n)}-x^*|=O({|x^{(k)}-x^*|}^2)\] 去年我们在西欧才得知,W. Bumiester 于 1973 年曾证明了这结果。但是我们早在 1968 年就给出了收敛速度达到 \[|x^{(k+n)}-x^*|=O({|x^{(k)}-x^*|}^2)\] 的方法,这方法比 DFP 法至少可以少做一半试验。

五 分数法

有时客观情况不是连续变化的。例如一台车床,只有若干挡速度。这时候,\(\dfrac {\sqrt{5}-1}{2}=0.618\) 似乎难以用上,但连分数又起了作用。\(\dfrac {\sqrt{5}-1}{2}=0.618\) 的渐近分数是 \[\dfrac{1}{1},\dfrac{1}{2},\dfrac{2}{3},\dfrac{3}{5},\dfrac{5}{8},\dfrac{8}{13}\cdots ,\dfrac{F_n}{F_{n+1}},\cdots\] 这儿的 \({F_n}\) 是 Fibonacci 数, 由 \(F_0=1\),\(F_1=1\) 及 \(F_{n}+F_{n+1}=F_{n+2}\) 来定义。这个方法,我们是利用“火柴”或另件,在车床旁向工人们讲述的。

例如,一台车床有 12 挡 \[(1)(2)(3)(4)(5)(6)(7)(8)(9)(10)(11)(12)\] 我们建议在第 \((8)\) 挡做第一个试验,然后用对称法,在 \((5)\) 做第二个试验,比比看哪个好。如果 \((8)\) 好,便甩掉 \((1)\)–\((5)\) 而 \[(6)(7)\overset{\circ}{(8)}(9)(10)(11)(12)\] 不然,则留下 \[(1)(2)(3)(4)\overset{\circ}{(5)}(6)(7)\] 再用对称法,在 \((10)\) 处做试验。如果还是 \((8)\) 好, 则甩掉 \((10)(11)(12)\),余下的是 \[(6)(7)\overset{\circ}{(8)}(9)\] 再用对称法在 \((7)\) 处做试验, 如果还是 \((7)\) 好,便留下 \[(6)\overset{\circ}{(7)}\] 最后在 \((6)\) 处做试验,如果 \((6)\) 较 \((7)\) 好,则 \((6)\) 是十二挡内最好的一挡,我们就在 \((6)\) 挡上进行生产。

这种方法不但易为机加工工人所掌握,而且曾启发出关于多重积分的计算方法。 \(\theta =\dfrac {\sqrt{5}-1}{2}\) 称为黄金数, 不但在黄金分割上有用,它在 Diophantie 逼近上也占有独特的地位。因而启发我想到以下的数值积分公式: \[\int_{0}^{1}\int_{0}^{1}f(x,y)dxdy\approx\dfrac{1}{F_{n+1}}\sum_{i=1}^{F_{n+1}}f(\{\dfrac{t}{F_{n+1}}\},\{\dfrac{tF_n}{F_{n+1}}\})\]

这是用单和来逼近重积分的公式,这儿 \(\{\xi \}\) 表 \(\xi\) 的分数部分。

如何把这个方法推广到多维积分呢? 关键在于我们要认识到 \(\dfrac {\sqrt{5}-1}{2}\) 是什么?它是分单位圆为五份而产生的, 也就是从 \[x^5=1\] 即 \[x^4+x^3+x^2+x+1=0\] 中,令 \(y=x+\dfrac{1}{x}\) 而得到 \(y^2+y-1=0\), 解之得 \(y=\dfrac {\sqrt{5}-1}{2}\) 也就是 \(y=2\cos \dfrac{2\pi}{5}\) 这是分圆数,既然分圆为 5 份 \(2\cos \dfrac{2\pi}{5}\) 有用处, 那么分圆为 p 份的 \[2\cos \dfrac{2\pi l}{p},\qquad 1\leq l\leq \dfrac{p_1}{2}=s\] 是否能用来处理多维的数值积分?Minkowski 定理早已证明有 \(x_1,\cdots ,x_{s-1}\) 及 \(y\),使 \[(\{\dfrac{t}{y}\},\{\dfrac{tx_1}{y}\},\cdots ,\{\dfrac{xt_{s-1}}{y}\}),t=1,\cdots ,y\] 来代替 \[(\{\dfrac{t}{F_{n+1}}\},\cdots ,\{\dfrac{tF_n}{F_{n+1}}\}),t=1,\cdots ,n+1.\]

这不但可以用于数值积分,而且凡用随机数的地方,都可以试用这点列。

六 统筹方法

教学改革既要帮助学生扩大知识面,还要有促进社会生产发展的作用。以上介绍的优选法的例子既便于普及,又是改进生产工艺的好方法。另外,质量控制是在出了次品、废品后,不让它们出厂,从而保持本厂产品质量荣誉的方法。但是,与其出了废品后再处理,不如先用优选找到最好的生产条件而减少废品率。这样,再用质量控制把关也就比较轻而易举了。

在生产中,除了生产工艺的管理问题外,还有生产组织的管理问题。处理这类问题所用的数学方法,我们称之为统筹方法 (或统筹学)。

统筹学中也有许多好方法,可以进行普及,仅举几例。

(一) CPM 法

我们开始普及时,为容易接受而把让工期缩到最短作为目标。但是,一旦大家学会了这个方法,就会懂得搞投资最少及人力、资源平衡等较为复杂的问题。 CPM 是什么,大家都已知道了,我只准备介绍我们是怎样工作的。

我们的第一原则是根据实际工程,使技术人员或工人学会这一方法。步骤是

1. 调查。调查三件事:a) 组成整个工程的各个工序;b) 各工序之间的衔接关系;c) 每道工序所需的时间。要做好这一条,一定要注意依靠生产第一线的工人和技术人员,他们的估计比起上层的技术人员的估计更符合实际。

2. 依据这些材料,使大家学会画出草图,再教会大家找关键路线的方法。然后大家讨论献计献策,努力缩短工期,定出计划,画出 CPM 图。

3. 注意矛盾转化。在工程进行过程,经常会有提前或延期完成的现象,因此关键路线不会一成不变。我们就要经常注意变化的情况,给有关工段下指示。

4. 总结。在工程完成后,依照实际的进度重画 CPM 图,这样可以把这次的经验记录下来,作为下次施工的参考。

我们体会到,这一方法宜小更宜大。或者从基层工段做起,逐步汇成整个工程的 CPM 图,或从全局着眼,先拟制一个粗线条的计划,然后由基层单位拟订自己的 CPM 图,再综合起来,大家讨论修改。

(二) Sequencing Analysi

如果有若干工程 (每个工程各有时间估计,或可用 CPM 估出),可以任意安排先后次序施工,如何安排次序,使总的等待时间最短。

在解决这一问题之前,先讲一个数学问题。

有两组非负数 \[a_1,\cdots a_n;\] \[b_1,\cdots ,b_n.\] 怎样的次序使 \[\sum_{i=1}^{n}a_ib_i\] 最小, 或最大 ? 答案是:“$a$” 与 “$b$” 同序时最大,逆序时最小。证明是容易的。从下面最简单的况,不难推出最一般的结果: 若 \[a_1\leq a_2,\qquad b_1\leq b_2,\] 则 \[a_1b_1+a_2b_2\geq a_1b_2+a_2b_1,\] (即 \((a_2-a_1)(b_2-b_1)\geq 0)\)。 一般来说,和中若有一个不同序处,则改之为同序后,和数更大。

再用通俗的话来讲: 有一个水龙头,有 $n$ 个容量分别为 \(a_1,a_2,\cdots ,a_n\) 的水桶。依怎样的次序安排方能使总的等待时间最短?第一桶没满的时间是 \(a_1\),第二桶是 \(a_1+a_2,\) …,所以总的等待时间是 \[a_1+(a_1+a_2)+\cdots +(a_1+a_2+\cdots +a_n)\] \[=na_1+(n-1)a_2+\cdots +2a_{n-1}+a_n\] 它当 “$a$”; 依 \(b_1=n,b_2=n-1,\cdots ,b_n=1\) 的反向排列时最小,即 \[a_1\leq a_2\leq \cdots \leq a_n\] 也就是容量小的先灌。

如果有 5 个水龙头,第一个水龙头上的水桶容量次序为 \(a_1^{(1)},\cdots a_m^{(1)},\) 第二个是 \(a_1^{(2)},\cdots a_m^{(2)},\cdots\) 因此总等待时间是 \[\sum_{j=1}^{s}(ma_1^{(j)}+(m-1)a_2^{(j)}+\cdots +a_m^{(j)})\] (我们不排除有些 \(a_i^{(j)}=0\)) 命 \[b_1=b_2=\cdots =b_s=m\] \[b_{s+1}=b_{s+2}=\cdots =b_{2s}=m-1\] \[\cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots \cdots\] 便得出结论: 仍然是 “小桶先灌”。

换一种讲法: 假定有 \(l\) 台电子机,由中央控制台联在一起,有 \(m\) 个计算问题,如何安排,使等待时间最短。两个问题,同一性质。

三) 上面两段初等介绍,使大家对多工程、总安排有了初步认识。然后再向负责组织理的人提供当前他们所用得着的方法。

(四) 另一个可以普及的方法是关于运输调配的图上作业法,有 \(n\) 个小麦产地 \(a_1,\cdots a_n,\) 各生产麦子 \(A_1,\cdots A_n\) 吨 ,要运往 \(m\) 个消费点,各需要麦子 \(B_1,\cdots B_m\)。要求运输的吨公里数最小。这问题当然可以用线性规划来处理。但我们往往用较简单的图上作业法。这方法的原则是: 利用交通图,消灭对流和迁迥。

(五) 邮路问题 (管梅谷) 从略。

七 统计方法

(一) 经验公式及数学见识的重要性

经验公式往往从许多统计数据归纳而得,具有广博知识和一定数学修养的科学家很容易看出某个经验公式的意义。举个例子,印度数理统计学家 R.C.Bose 分析了印度稻叶的大量样本,得出一个计算稻叶面积 A 的经验公式

\[A= \dfrac{\text{长}\times\text{宽}}{1.2}\]

我不怀疑此公式的统计可靠性。一些中国农学家应用相同的公式去估计他们的稻子试验田的产量。我看了他们稻田里叶子的形状后,便立刻指出这公式不适合他们的稻叶。他们采集了一些稻叶样本来侧量,果然发现这公式估计的面积比实际稻叶面积大。他们很奇怪,我画了下面的一个图向他们解释:

image_018.png

阴影部分表示叶片的面积。

在这种情形,长方形面积与 \(A\) 的比近似为 \(6/5\) 即 \(1.2\)。但在他们的试验田里,叶片的形状更为狭长。我又画了另一个图。

image_019.png

这时,长方形面积与 \(A\) 的比当然大于 \(1.2\) 了。很容易解释为什么 Bose 的公式会高估了他们稻叶的面积。

由此,我们得到了很好的教训: 一个经验公式的数学背景是非常重要的。

(二) 简统计

在实验科学中我们常常应用统计方法。当然不能否认,这些方法是重要的。然而,我个人认为某些方法太复杂繁琐,而且很容易被滥用、误用。先举一些例子。

(例 l) 某一试验独立地重复了 \(20\) 次,以 \(x_1,\cdots ,x_{20}\) 表示观察值。命

\[\bar{x}=(x_1+\cdots +x_{20})/20\quad \text{均值}\] \[s=\sqrt{\sum_{i=1}^{20}(x_i-\bar{x})^2/19}\quad \text{(标准离差)}\]

这时,做实验的人一可以声称: 观察值落在区间 \((\bar{x}-1.73s/\sqrt{20},\bar{x}+1.73/\sqrt{20})\) 的置信概率为 \(0.9\)。这样复杂的方法似乎不易为中国的普通工人所理解,此外,基本的 Gauss 假设很可能不成立!

实际上,我倾向于用如下的简便方法。

将观察值排好次序,记为 \[x_{(1)}\leq x_{(2)}\leq \cdots \leq x_{(20)}\] 我们可以如实地说实验值落在 \((\dfrac{x_{(1)}+x_{(2)}}{2},\dfrac{x_{(19)}+x_{(20)}}{2})\) 的可能性大于 \(18/20=90\%\)。

(例 2) 假如有两种生产方法,每种方法有 5 个观察值,要求检验哪种方法较好。以 \(\{a_1,\cdots ,a_5\}\) 与 \(\{b_1,\cdots ,b_5\}\) 分别表示第一法与第二法的观察值。我们可以借助于通常的 Student 分布,试一试比较两者的均值。但要知道,用这样一个复杂的办法,要基于一系列的假设,诸如正态性、同离差、独立性等等。对于这些东西,普通工人是不容易去理解的。

有一个更为可靠的简便方法,它只基于有序样本 \(a_{(1)}>a_{(2)}>\cdots >a_{(5)}\) 和 \(b_{(1)}>\cdots >b_{(5)}\) 的比较,可能更适于在中国推广。举例说,如果将两组样本混起来比较次序,有

\[a_{(1)}>a_{(2)}>a_{(3)}>a_{(4)}>b_{(1)}>a_{(5)}>b_{(2)}>b_{(3)}>b_{(4)}>b_{(5)}\]

或 \[a_{(1)}>a_{(2)}>a_{(3)}>a_{(4)}>a_{(5)}>b_{(1)}>b_{(2)}>b_{(3)}>b_{(4)}>b_{(5)}\]

image_020.png

我通常伸出两只手、两只大拇指互相交叉,用以说明前者 (如图): 即使是普通工人也很容易明白: 不能说两种生产方法一样好。进一步讲,两组样品有 \(5\times 5=25\) 种比较关系,除了 \(b_{(1)}>a_{(5)}\) 外,"a" 都大于 "b"。所以 “第一种生产方法比第二种好” 有 \(\dfrac{24}{25}=96\%\) 的可能性。再举一个例子,有人称猪的体重,试图用猪的身长乘腰围,再乘上一个常数,而常数用统计方法未确定,这显然是错误的,因为量纲不对,故这样的经验公式是不能成立的。

(三) PERT 统筹方法

考虑 Program Evaluation Review Teehnique(PERT)。假如在表示某工程的网络共有 \(N\) 个活动,描述第 \(i\) 活动持续时间的基本参数有三个,以 \(a_j,b_j 和 c_j\) 表示 “乐观时间”、“最可能时间” 和“悲观时间”。第 \(i\) 个活动的持续时间通常假定是服从 beta 分布(在 \((a_j,c_j)\) 上)具有平均持续时间 \(m_j\), \[m_j=(a_j+4b_j+c_j)/6\] 并且有离差 \[\{(m_j-a_j)^2+4(m_j-b_j)^2+(m_j-c_J)^2\}\] 整个工程所需总时间的概率分布是否可用 Gauss 分布来近似 r 对这个问题仍然有争议。Gaus 分布的前提是中心极限定理 (CLT)。“服从 beta 分布” 这个假设本身已有争论,即使不计及这点,能否草率地应用 CLT,还很有疑问。

(四) 试验的设计

我认为,迄今为止还没有给予非线性设计足够的重视。过去偏重于线性模型的研究,却盖了一个重要的事实: 这些模型往往不符合现实。

我们需要不断改进模型,使之更接近现实。当然,我们也懂得任何摸型都不是实体, 不能指望有一个完全符合现实的模型。

(五) 分布的类型

有人一直主张用 PearsonIH 型分布去模拟 “特大” 洪水间隔时间的分布。在这个问题中数据本来就少得可怜,因而用 IH 型分布是否符合事实,是否明智了都值得怀疑。更不用说从这模型去预测下一次大洪水到来的时间了。

八 数学模型

(一) 矩阵的广义逆

考虑 \(y\) 关于 \(x_i,\cdots ,x_p\) 的一般回归模型, \[y=f(x_i,\cdots x_p)+e\] 这里 \(e\) 表示随机 “误差” 项,以 \(y^{(i)}\) 表 \(y\) 在 \(x_1^{(i)},x_1^{(i)},\cdots x_p^{(i)}\) 的观察值。若假定 \(f\) 是线性的, 且有 \(n(>p)\) 个观察值,那么 \[y^{(i)}=\sum_{j=1}^{p}\theta_jx_j^{(i)}+e^{(i)},i=1,\cdots ,n.\] 估计 \(\theta_1,\cdots ,\theta_p\) 的一般方法是令 \[\sum_{i=1}^{n}[e^{(i)}]^2\] 关于 \(\theta_j\) 达到最小值。亦即使 \(Q(\)\({\theta}_{~}\)\()=(y-M\theta)'(y-M\theta)\) 关于 \(\theta\) 达最小值,此处 \[\underset{\sim}{y}=[y^{(1)},\cdots ,y^{(n)}]'\] \[\underset{\sim}{M} =\begin{bmatrix} x_1^{(1)} &x_2^{(1)} & \cdots & x_p^{(1)}\\ \vdots \\ x_1^{(n)} & x_2^{(n)} & \cdots & x_p^{(n)}\\ \end{bmatrix}\] \[\underset{\sim}{\theta} =(\theta _1,\cdots \theta _p)'\] 为简单起见,可以假定 \(\underset{\sim}{M}\) 是 \(p\) 阶的。那么 \[\begin{aligned} Q(\underset{\sim}{\theta})&=[\underset{\sim}{\theta}- (\underset{\sim}{M}^ { \prime }\underset{\sim}{M}) ^ { - 1 }\underset{\sim}{M}^ { \prime } \underset{\sim}{y} ] ^ { \prime }\underset{\sim}{M}^ { \prime }\underset{\sim}{M}[\underset{\sim}{\theta}- (\underset{\sim}{M}^ { \prime }\underset{\sim}{M}) ^ { - 1 }\underset{\sim}{M}^ { \prime } \underset{\sim}{y} ] \\ &+ \underset{\sim}{y} ^ { \prime } [ I -\underset{\sim}{M}(\underset{\sim}{M}^ { \prime }\underset{\sim}{M}) ^ { - 1 }\underset{\sim}{M}^ { \prime } ] \underset{\sim}{y} \\ &=S_1+S_2 \end{aligned}\]

因为 \(S_1\geq 0,\) 所以置

\[\underset{\sim}{\theta} =(\underset{\sim}{M}'\underset{\sim}{M})^{-1}\underset{\sim}{M}'\underset{\sim}{y}\tag{2}\]

可使 \(Q(\underset{\sim}{\theta})\) 达到最小值。有时候,(2) 被看作是方程 \[\underset{\sim}{y}=\underset{\sim}{M}\underset{\sim}{\theta}\tag{3}\] 的广义解。因之 \((\underset{\sim}{M}'\underset{\sim}{M})^{-1}\underset{\sim}{M}'\) 被称作 \(\underset{\sim}{M}\) 的广义逆。

当然,如果模型是线性的,那么 (2) 是正确解。但是,\(y\) 的 “观察值” 和“预侧值”之间出现本质上的差异,那么就得放弃线性的假定了。

来源: 华罗庚. 在中国普及数学方法的若干个人体会[J]. 课程.教材.教法, 1981(1):14-23.