英语语言的随机漫步

一位虔诚的宗教信徒和一位坚定的无神论者之间的争论如何导致了一项重大的数学突破

A bearded man in 19th-century garb and a man with a moustache, in dress of the same vintage.

Alamy

这是一个 克劳德·香农,信息论的创始人,在1948年发明的游戏。他试图将英语语言建模为一个随机过程。去你的书架,拿起一本随机的书,打开它,指向页面上的一个随机点,并标记你看到的最初两个字母。假设它们是 I 和 N。将这两个字母写在你的纸上。

现在,从书架上拿起另一本随机的书,翻阅它,直到你连续找到字母 I 和 N。无论“IN”后面的字符是什么——例如,它是一个空格——那就是你书中的下一个字母。现在你拿起另一本书,寻找一个 N 后面跟着一个空格,一旦你找到一个,标记下下一个字符是什么。重复这个过程,直到你得到一段话

“IN NO IST LAT WHEY CRATICT FROURE BIRS GROCID


关于支持科学新闻

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。


PONDENOME OF DEMONSTURES OF THE REPTAGIN IS

REGOACTIONA OF CRE”

那不是英语,但它看起来有点像英语。

香农对英语语言的“熵”感兴趣,这是他在他的新框架中对一段英语文本包含多少信息的一种度量。香农游戏是一个 马尔可夫链;也就是说,这是一个随机过程,你下一步采取的行动仅取决于过程的当前状态。一旦你处于 LA, “IN NO IST” 就无关紧要了;下一个字母是,比如说,B 的机会是,在你的图书馆中随机选择的“LA”实例之后跟随 B 的概率。

顾名思义,这个方法并非他首创;它几乎早了半个世纪,而且它来自于,在所有事情中,一场在沙皇俄国晚期数学界发生的恶性数学/神学争论。

几乎没有什么东西比真正的宗教信徒和运动无神论者之间的口头战争更让我觉得在本质上是智力贫瘠的。然而,至少这一次,它导致了一项重大的数学进步,其回声至今仍在回荡。其中一位主要人物,在莫斯科,是帕维尔·阿列克谢耶维奇·涅克拉索夫,他最初接受过东正教神学家的培训,后来转向数学。他在圣彼得堡的对手是他的同代人 安德烈·安德烈耶维奇·马尔可夫,一位无神论者,也是教会的死敌。他给报纸写了很多关于社会事务的愤怒信件,并广为人知,被称为 Neistovyj Andrei,“愤怒的安德烈。”

细节有点太多,这里就不深入探讨了,但要点是:涅克拉索夫认为他找到了自由意志的数学证明,证实了教会的信仰。对于马尔可夫来说,这是神秘的胡说八道。更糟糕的是,这是穿着数学外衣的神秘胡说八道。他发明了马尔可夫链,作为一种纯粹机械地产生,但却显示出涅克拉索夫认为保证自由意志的相同特征的随机行为的例子。

马尔可夫链的一个简单例子:一只蜘蛛在一个标有 1、2、3 角落的三角形上行走。在时钟的每次滴答声中,蜘蛛从它当前的位置移动到与它相连的另外两个角落之一,随机选择。所以,蜘蛛的路径将是一串数字

1, 2, 1, 3, 2, 1, 2, 3, 2, 3, 2, 1 …

马尔可夫从像这样的抽象例子开始,但后来(也许是受香农的启发?)将这个想法应用于文本字符串,其中包括亚历山大·普希金的诗歌《叶甫盖尼·奥涅金》。为了数学的缘故,马尔可夫将这首诗看作是一串辅音和元音,他手工对它们进行了费力地编目。辅音后的字母有 66.3% 是元音,33.7% 是辅音,而元音后的字母只有 12.8% 是元音,87.2% 是辅音。

所以,你可以像香农制作假英语一样制作“假普希金”;如果当前字母是元音,则下一个字母是元音的概率为 12.8%,如果当前字母是辅音,则下一个字母是元音的概率为 66.3%。结果不会很有诗意;但是,马尔可夫发现,它们可以与其他俄罗斯作家的马尔可夫化输出区分开来。他们的风格的一些东西被这条链捕捉到了。

如今,马尔可夫链是探索比诗歌更一般的概念实体空间的基本工具。选举改革者就是用它来识别哪些立法地图是残酷的杰利蝾螈,谷歌也是用它来计算哪些网站最重要(关键是一个马尔可夫链,在每一步你都在一个特定的网站,下一步是跟随该网站的随机链接)。像 GPT-3 这样的神经网络所学习的——使其能够产生对人类书写文本的不可思议的模仿——是一个巨大的马尔可夫链,它指导它如何在 500 个单词的序列之后选择下一个单词,而不是在两个单词的序列之后选择下一个字母。你所需要的只是一个规则,告诉你给定上一步是什么,什么概率支配链中的下一步。

你可以用你的家庭图书馆,或者《叶甫盖尼·奥涅金》,或者 GPT-3 可以访问的庞大文本语料库来训练你的马尔可夫链;你可以用任何东西来训练它,这条链都会模仿那个东西!你可以用 1971 年的婴儿名字来训练它,得到

肯迪,珍妮,艾比,弗勒雷梅拉,简,斯塔洛,卡明,贝蒂莉亚 …

或者 2017 年的婴儿名字

阿纳基,艾玛丽,陈,杰莉,埃利夫,布兰什,纳维尔,科比,卢克斯顿,纳夫塔林,雷尔森,阿拉娜 …

或者 1917 年的

文西,阿黛尔,阿伍德,沃尔特,万德利奥特利,凯瑟琳,弗兰,厄内特,卡卢斯,哈泽利亚,奥伯塔 …

马尔可夫链,尽管它很简单,但不知何故捕捉到了不同时代命名风格的一些东西。人们几乎将其体验为创造性的。其中一些名字还不错!你可以想象一个名叫“杰莉”的小学孩子,或者,为了怀旧的感觉,可以叫“文西”。

但也许不是“纳夫塔林”。即使是马尔可夫也点头同意。

© . All rights reserved.