本文摘录自吴军的《智能时代》。

数据——人类建造文明的基石

人们使用数据的标准流程:获取数据,分析数据,建立模型,预测未来。

托勒密继承了毕达哥拉斯的一些思想,他也认为圆是最完美的几何图形,因此所有天体均以匀速度按完全圆形的轨道旋转。其伟大之处在于用 40~60 个大圆套小圆的方法,精确计算出了所有行星运动的轨迹。托勒密使用了 3 种尺寸的圆相互嵌套的模型,即本轮、偏心轮和均轮,这样,他就能对五大行星(金、木、水、火、土,肉眼看不到天王星和海王星)的轨道给出合理的描述。

托勒密认为模型必须与观测数据相吻合(这种想法从古埃开始就有了),要感谢喜帕恰斯为托勒密留下了很多观测数据,使得他的模型能够建立得很准确。托勒密模型的精度之高,让后来所有的科学家都惊叹不已。即使今天,在计算机的帮助下,我们也很难解出 40 个套在起的圆的方程。托勒密根据计算,制定了关于日月星辰位置的《实用天文表》(Handy Tables),和当时的儒略历相吻合,即每年 365 天,每 4 年增加一个闰年,多一天。其后 1500 年,人们根据儒略历和《实用天文表》决定农时。但是,经过了 1500 年后,托勒密对太阳运动估计的累计误差还是多出了 10 天。由于这 10 天的差别,欧洲的农民从事农业生产的日期几乎差了一个节气,很影响农业生产。1582 年,教皇格里高利十三世在日历上取消掉 10 天,然后将每一个世纪最后一年的闰年改成平年,每 400 年再插回一个闰年,这就是我们今天用的日历,这个日历几乎没有误差。为了纪念格里高利十三世,我们今天的日历也叫作格里高利日历。

很多时候,我们无法直接获得信息(比如疫情的传播情况),但我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接得到所要的信息。而各种数学模型的基础都离不开概率论和统计学。

最初研究概率论的并非数学家,而是一群赌徒和投机者。直到今天,很多研究纯数学的数学家都不把概率论当作数学,而将它看成是一门独立的学科。

人们希望能够从理论上证明当观察到的数据量足够多了以后,随机性和噪声的影响可以忽略不计。19 世纪的俄国数学家切比雪夫给出了这样一个不等式,也称切比雪夫不等式:

\begin{equation} \label{eq:chebyshev} P(|X-E(X)|\ge\varepsilon) < \frac{\sigma^2}{n\varepsilon^2} \end{equation}

其中 \(X\) 是一个随机变量,\(E(X)\) 是该变量的数学期望值,\(n\) 是实验次数(或者是样本数),\(\varepsilon\) 是误差,\(\sigma^2\) 是方差。

在大多数复杂应用中,需要通过数据建立起一个数学模型,以便在实际应用中使用。要建立数学模型就要解决两个问题,首先是采用什么样的模型,其次是模型的参数是多少。模型的选择不是一件容易的事情,通常简单的模型未必和真实情况相匹配。一个典型的例子就是,无论是支持地心说的托勒密,还是提出日心说的哥白尼,都假定行星运动轨迹的基本模型是最简单的圆,而不是更准确的椭圆。由此可见,如果一开始模型选得不好,那么以后修修补补就很困难。因此在过去,无论是理论上还是工程上,大家都把主要的精力放在寻找模型上。有了模型之后,第二步就是要找到模型的参数,以便让模型至少和以前观察到的数据相吻合。这一点在过去的被重视程度远不如找模型,但是今天它又有了一个比较时髦而高深的词——机器学习。

鉴于完美的模型未必存在,即便存在,找到它也非常不容易,而且费时间,因此就有人考虑是否能通过用很多简单不完美的模型凑在一起,起到完美模型的效果呢?如今这个答案是肯定的,从理论上讲,只要找到足够多的具有代表性的样本(数据),就可以运用数学找到一个模型或者一组模型的组合,使得它和真实情况非常接近。

这种思路在现实生活中已经被用到。比如美国和苏联在设计飞机、航天器和其他武器上的理念和方法就不同。苏联拥有大量数学功底非常深厚的设计人员,但是缺乏高性能的计算机和大量的数据,因此其科学家喜欢寻找比较准确但是复杂的数学模型;而美国的设计人员相比之下数学功底平平,但是美国的计算机拥有强大的计算能力和更多的数据,因此其科学家喜欢用很多简单的模型来替代一个复杂的模型。这两个国家做出的东西可谓各有千秋,但从结果来看,似乎美国的更胜一筹。在工程上,采用多而简单的模型常常比一个精确的模型成本更低,也被使用得更普遍。

回到数学模型上,其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这种方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据 (Fit Data)。虽然这种数据驱动方法在数据量不足时找到的一组模型可能和真实的模型存在一定的偏差,但是在误差允许的范围内,单从结果上看和精确的模型是等效的,这在数学上是有根据的。从原理上讲,这类似于前面提到的切比雪夫大数定理。

数据驱动方法最大的优势在于,它可以在最大程度上得益于计算机技术的进步。在今天的 IT 领域中,越来越多的问题可以用数据驱动方法来解决。具体讲,就是当我们对一个问题暂时不能用简单而准确的方法解决时,我们可以根据以往的历史数据,构造很多近似的模型来逼近真实情况,这实际上是用计算量和数据量来换取研究的时间。这种方法不仅仅是经验论,它在数学上是有严格保障的。

数据驱动方法对机器智能产生作用的最佳案例,恐怕要数 2016 年在计算机行业最热门的事件—— Google 的 AlphaGo 计算机战胜天才围棋选手李世石了。AlphaGo 在围棋方面有很高的智能,来源于它对能找到的全部几十万盘人类高手对弈的分析总结。这么多的对弈是任何人类高手一辈子也学习不完的。

大数据和机器智能

真正科学定义什么是机器智能的还是电子计算机的奠基人阿兰·图灵 (Alan Turing, 1912-1954) 博士。1950 年,图灵在《思想》(mind) 杂志上发表了一篇题为《计算的机器和智能》的论文。在论文中,图灵既没有讲计算机怎样才能获得智能,也没有提出什么解决复杂问题的智能方法,而只是提出了一种验证机器有无智能的判别方法。

让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己文流的对象是人还是机器,就说明这台机器有了和人同等的智能。这种方法被后人称为图灵测试 (Turing Test)。计算机千米人们认为,如果计算机实现了下面几件事情中的一件,就可以认为它有图灵所说的那种智能:

  1. 语音识别
  2. 机器翻译
  3. 文本的自动摘要或者写作
  4. 战胜人类的国际象棋冠军
  5. 自动回答问题

今天,计算机已经做到了上述这几件事情,有些时候还超额完成了任务,比如在下棋方面,不仅战胜了国际象棋的世界冠军,而且还战胜了围棋的世界冠军,后者的难度比前者高出 6~8 个数量级 (\(10^6 \sim 10^8\))。当然,人类走上这一步并非一帆风顺,而是走了十几年的弯路。

人工智能这个名词严格地讲在今天有两个定义,第一个是泛指机器智能,也就是任何可以让计算机通过图灵测试的方法,包括我们在本书中要经常讲的数据驱动方法。第二个是狭义上的概念,即 20 世纪五六十年代特定的研究机器智能的方法。今天,几乎所有书名含有“人工智能”字样的教科书(包括全球销量最大的由斯图亚特·罗素和诺威格编写的《人工智能:一种现代的方法》一书)依然用主要的篇幅介绍那些“好的老式的人工智能” (Good Old Fashioned AI)。后来那些利用其他方法产生机器智能的学者为了划清自己和传统方法的界限,特地强调自己不是用人工智能的方法。因此,学术界将机器智能分为传统人工智能的方法和现代其他的方法(比如数据驱动、知识发现或者机器学习)。当然,计算机领域之外的人在谈到人工智能时,常常是泛指任何机器智能,而并不局限于传统的方法。

大数据的特征: 一些数据专家将大数据的特征概括成三个 V,即大量 (Vast)、多样性 (Variety) 和及时性 (Velocity)。

思维的革命

在过去三个多世纪里,机械思维可以算得上是人类总结出的最重要的思维方式,也是现代文明的基础。机械思维的形成可以追溯至古希腊。欧洲之所以能够在科学上领先于世界其他地方,在很大程度上是依靠从古希腊建立起来的思辨的思想和逻辑推理的能力,依靠它们可以从实践中总结出最基本的公理,然后通过因果逻辑构建起整个科学的大厦。其中最有代表性的是欧几里得的几何学和托勒密的地心说。

欧基里得在其公理化的几何学中,总结出 5 条最最简单且相互独立的公设 (Five Axioms),任何一条公理都无法从另外 4 条中推导出来,而且这 5 条公理本身是不证自明的。接下来几何学的一切定理都由定义和 5 条公理直接(仅以公理和定义为前提)或者间接地(除了公理和定义,还可以使用已经证明的定理)演绎得出。欧几里得将他的公理化体系几何学写成了一本书,名为《几何原本》,这也是对世界影响力最大的一本书。欧几里得的这种基于逻辑推理的公理化系统不仅为几何学、数学和自然科学后来的发展奠定了基础,而且对西方人的整个思维方法都有极大的影响。甚至在法学界,整个罗马法都是建立在类似于欧几里得公理系统这样的基础上的,当然罗马法里面的公理不是几何学的,而是自然法——所有的法律都可以从自然法中演绎出来。

欧几里得几何学的五条公设 (Five Axioms):

  1. 由任意一点到另外任意一点可以画直线。
  2. 一条有限直线可以继续延长。
  3. 以任意点为心及任意的距离可以画圆。
  4. 凡直角都彼此相等。
  5. 平面内一条直线和另外两条直线相交,若在某一侧的两个内角的和小于二直角的和,则这二直线经无限延长后在这一侧相交。

欧几里得几何学的五条公理 (Five Notions):

  1. 等于同量的量彼此相等。
  2. 等量加等量,其和仍相等。
  3. 等量减等量,其差仍相等。
  4. 彼此能重合的物体是全等的。
  5. 整体大于部分。

在作者看来,托勒密在近代之前是当之无愧最伟大的天文学家,没有之一。除了地心说,托勒密的贡献还包括:发明了球坐标(我们今天还在用),定义了包括赤道和零度经线在内的经纬线(今天的地图就是这么划的),提出了黄道,发明了弧度制,等等。这些贡献随便拎出一条,都足以让托勒密名垂青史。和欧几里得一样,托勒密不仅是一个构建大系统的人,也是一个善于总结方法论的人。托勒密的方法论可以被概括为“通过观察获得数学模型的雏形,然后利用数据来细化模型”。托勒密认为用圆作为模型描述天体运动最合适,因为毕达哥拉斯说圆是最完美的图形。托勒密仅仅通过圆这种曲线,以及不同大小的圆相互嵌套,把当时人们所知的天体运动的规律描述得清清楚楚。托勒密的思想影响了西方世界一千多年,这倒不完全是因为他的地心说,而是他这种思维方式和方法论。

托勒密等人的方法虽然很朴素,但是很管用。今天我们在做事情的时候还是会首先想到这种方法,比如几乎所有经济学家的理论,都是按照这种方法提出来的。如果我们把他们的方法论做一个简单的概括,其核心思想有如下两点:首先,需要有一个简单的元模型,这个模型可能是假设出来的,然的再用这个元模型构建复杂的模型;其次,整个模型要和历史数据相吻合。这在今天动态规划管理学上还被广泛地使用,其核心思想和托勒密的方法论是一致的。

思维方式和方法远不如方法论对科学的发展至关重要,东方的文明长期以来在技术上领先于西方,但是在科学体系的建立上远远落后于西方,关键是输在方法论上。东方的中国和阿拉伯帝国虽然在工程和技术上不断进步,但是既没有形成科学体系,也没有在方法论方面做出太多的贡献。最终,发展科学方法的任务留给了笛卡儿和牛顿。笛卡儿的贡献在于提出了科学的方法论,即大胆假设,小心求证,这个方法论在我们今天的工作中还在使用。不过对近代社会思想贡献最大的还是著名科学家和思想家牛顿。

西方人对牛顿评价之高是强调官本位的中国人难以想象的。牛顿去世后被葬在威斯敏特教堂(又称西敏寺)里最显眼的地方,其墓碑建筑远远超过包括伊丽莎白一世在内的英国任何一位君主,每天到那里拜谒的人不计其数。在大部分中国人看来牛顿不过是一个科学家,而且他的理论今天看起来也颇为简单,为什么会如此受敬重呢?因为在欧美人看来,牛顿不仅是一位杰出的科学家,而且是人类历史上最重要的思想家之一。牛顿甚至被一些历史学家认为是人类历史上第二具有影响人物,不仅排在爱因斯坦等所有科学家之前,而且超过了耶稣和孔子。牛顿通过他在数学、物理学、天文学和光学等诸多领域开创性的成绩,总结出了一种全新的方法论,不仅开创了科学的时代、理性的时代,而且开启了西方的近代社会。

牛顿最直接的贡献,在于他简单而优美的数学公式破解了自然之谜。牛顿在他的巨著《自然哲学之数学原理》(简称《原理》)一书中,用几个简明的公式(力学三定律和万有引力定律)破解了宇宙中万物运动的规律,用微积分的概念把数学从静止的变量拓展为连续变化函数。在他的《光学》一书中,他把看上去虚幻的光分解为单个原色。

从欧几里得到托勒密再到牛顿,在思想方法上可以说是一脉相承而又不断发展的。牛顿不仅把欧几里得通过逻辑推理建立起一个科学体系的方法论从数学扩展到自然科学领域,而且把托勒密用机械运动模型描述天体的规律,扩展到对世界任何规律的描述。后来人们将牛顿的方法论概括为机械思维,其核心思想可以概括成这样几句话:第一,世界变化的规律是确定的。第二,因为有确定性做保障,因此规律不仅是可以被认识的,而且可以用简单的公式或语言描述清楚。第三,这些规律应该是放之四海而皆准的,可以应用到各种未知领域指导实践。

机械思维直接带来工业大发明的时代。我们常说瓦特发明了蒸汽机,其实蒸汽机在瓦特之前就有了,更准确的说法是瓦特改进了蒸汽机,或者说瓦特发明了一种万用蒸汽机。在 18 世纪时,英国的一些矿井使用的是非常笨拙、适用性差、效率低下的纽卡门蒸汽机。虽然纽卡门蒸汽机有诸多缺点,但是半个世纪的时间里都没有人能够改进它——这不是因为工匠们不想改进,而是他们不知道该怎样改进。瓦特和他之前的工匠都不同,他是通过科学原理直接改进蒸汽机,而不是靠长期经验的积累。虽然各种励志的读物把他描写成没有上过大学的人,但其实他系统地学习过大学物理的课程和高等数学的很多内容。瓦特从 20 岁出头就在格拉斯哥大学工作,利用工作之便,他在那里听了力学、数学和物理学的课程,并与教授们讨论理论和技术问题。瓦特改进蒸汽机的大部分理论工作都是在这所大学里完成的。后来瓦特离开了大学,和工厂主博尔顿一起专心发明新的、适合各种场合的蒸汽机,因此瓦特蒸汽机也被称为万用蒸汽机。瓦特蒸汽机的通用性要好得多,同一种蒸汽机可以卖到不同的工厂。这也是机械思维的重要特征——所有问题有一个通用的解决方法。正是因为瓦特蒸汽机的这个特性,才使得工业革命后有了“现有产业+蒸汽机=新产业”的模式。

瓦特的成功不仅是技术的胜利,更重要的是他掌握了新的方法论——机械思维。机械的广泛使用和机械的思维方式直接导致了人类迄今为止最为伟大的事件——工业革命。在工业革命之前的两千年里,世界各地的人们生活水平其实没有太大的提高。马克思曽经讲过:“资产阶级在其不到 100 年的阶级统治中所创造的生产力,比过去一切时代创造的全部生产力还要多,还要大。”相比工业革命,任何王侯将相所谓的丰功伟绩都显得微不足道。工业革命带来的不仅是财富,也大大延长了人类的寿命。在工业革命之前,无论是欧洲、东亚还是印度,人均寿命都在 30~40 岁之间徘徊,因此古人才会有“人生七十古来稀”之叹。而在 1800 年之后,世界各国的人均寿命都先后翻了一番。由此可见,一种新的思维方式对人类文明进步的重要性。

机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性(或者可预测性)和因果关系。机械思维的局限性更多来源于它否认不确定性和不可知性。爱因斯坦有句名言——“上帝不掷色子”,这是他在和量子力学的发明人波尔等人争论时讲的话。今天我们知道,在这场争论中,波尔等人是正确的,爱因斯坦错了,上帝也掷色子。著名物理学家张首晟教授喜欢用三个公式概括人类最高的文明成就:

\begin{align} \label{eq:three-equation} &E = mc^2 \\\
&\Delta t \cdot \Delta P > \varepsilon \\\
&H = -\sum_i P_i\log P_i \end{align}

分别代表质能方程,测不准原理和信息熵的定义。

不确定性在我们的世界里无处不在。我们经常可以看到这样一种怪现象,很多时候专家们对未来各种趋势的预测是错的,这在金融领域尤其常见。世界中的不确定性来自两方面,首先是当我们对这个世界的方方面面了解得越来越细致之后,会发现影响世界的变量其实非常多,已经无法通过简单的办法或者公式算出结果,因此我们宁愿采用一些针对随机事件的方法来处理它们,人为地把它们归为不确定的一类。不确定性的第二个因素来自客观世界本身,它是宇宙的一个特性。如微观世界的测不准原理,或者宏观世界的复杂系统。

在概率论的基础上,香农博士建立起一套完整的理论,将世界的不确定性和信息联系了起来,这就是信息论。如何度量信息呢?这个问题其实是几千年来很多人想知道却无法回答的问题。直到 1948 年,克劳迪·香农在怎样日名的论文《通信的数学原理》(A Mathematic Theory of Communication) 中提出了“信息熵”的概念,才解决了对信息的度量问题,并且量化地给出了信息的作用。同时,香农还把信息和世界的不确定性,或者说无序状态联系到了一起。

在玻尔兹曼之前,制作蒸汽机的工程师们已经发现了热力学第二定律,其中鲁道夫·克劳修斯 (Rudolf Clausius) 提出了一种叫作“熵”的概念,来描述一个系统中趋向于恒温的程度。当这个系统完全达到恒温时,就无法做功了,这时熵最大。玻尔兹曼则把熵(宏观特性 Entropy )和封闭系统的无序状态(每一个分子的微观特性 \(\Omega\) )联系起来,即:

\begin{equation} \label{eq:entropy} E = \mathrm{k}\log(\Omega) \end{equation}

其中 \(\mathrm{k}\) 是玻尔兹曼常数。

香农在信息论中借用了热力学里熵的概念,他用熵来描述一个信息系统的不确定性。除此之外,他还给出了两个相关信息处理和通信的最基本的定律,即香农第一定律和香农第二定律。香农第一定律,也称为香农信源编码定律。讲得是,对于信源发出的所有信息设计一种编码,那么编码的平均长度一定大于该信源的信息熵,但同时香农还指出,一定存在一种编码方式,使得编码的平均长度无限接近于它的信息熵。例如一定存在一种最优编码方法,使得每个汉字的平均编码长度可以非常接近它的不确定性(信息熵)。霍夫曼 (Huffman) 给出了一个非常简单的方法——只要把最短的编码分配给最常见的汉字即可。这种编码方法具有通用性,又称为霍夫曼编码。香农第二定律,通俗地讲就是信息的传播速率不可能超过信道的容量。

在面对复杂问题,无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到想知道的答案,这便是大数据思维的核心。

智能革命和未来社会

在过去 300 多年里,人类所经历的历次重大技术革命都沿袭这样的规律:“现有产业+新技术=新产业”。产业+蒸汽机,+电气,+互联网,+大数据=新产业。

任何一次技术革命,最初受益的都是发展它、使用它的人,而远离它、拒绝接受它的人,在很长的时间里都将是迷茫的一代。在智能革命到来之际,作为人和企业无疑应该拥抱它,让自己成为那 2% 的受益者;而作为国家,则需要未雨绸缪,争取不要像过去那样每一次重大的技术革命都伴随半个多世纪的动荡。