你正准备在 Ticketmaster 上买两张票,但在你进行下一步之前,屏幕上会出现一个烦人的框,上面有波浪形的字母和数字。你尽职尽责地输入你所看到的——以及机器人可能无法输入的——以确保安全。
但你可能不知道的是,你也帮助了档案管理员破译古籍和报纸中扭曲的字符,以便将它们发布在网上。
你可能认为计算机科学家会找到一种方法让计算机破译这些字符。但他们没有,所以他们找到了一种方法来利用你为保护自身安全所做的所有努力。“当你阅读那些弯弯曲曲的字符时,你正在做计算机无法做到的事情,”匹兹堡卡内基梅隆大学 (C.M.U.) 的计算机科学家路易斯·冯·安说。
关于支持科学新闻报道
如果你喜欢这篇文章,请考虑订阅我们屡获殊荣的新闻报道,以此支持我们 订阅。通过购买订阅,你正在帮助确保有关塑造我们当今世界的发现和想法的具有影响力的故事的未来。
冯·安及其同事上周在《科学》杂志上报道说,自从研究人员启动该计划以来,网络用户在一年内已经转录了相当于每天 160 本书的内容——超过 4.4 亿个单词。该计划类似于“分布式计算”方案,如 SETI@home,后者利用未使用的个人计算机处理能力来筛选从太空中接收到的信号,以寻找可能由外星智能产生的信号或弄清楚蛋白质如何折叠。但这个系统与众不同之处在于,计算是由人而不是处理器完成的。
冯·安说:“我们让人们在验证自己是人类的同时,帮助我们数字化书籍。” “每当人们输入这些[答案]时,他们实际上是在整理旧书或报纸,并帮助转录它们。”
其他大型数字化项目,如谷歌图书项目和互联网档案馆,依赖于光学字符识别 (OCR) 软件。基本上,计算机拍摄书籍或报纸页面的数字图像,然后尝试识别单个字母,冯·安说。但他和其他卡内基梅隆大学的研究人员估计,这些程序会误解或无法读取风化、发黄的纸张或墨迹褪色或模糊的页面上多达五分之一的单词。他说,这些电子上难以辨认的单词和文本必须由人工以相对较高的成本进行手动转录。
冯·安团队的方法是对称为 CAPTCHA(完全自动化公共图灵测试,用于区分计算机和人类)的网站测试的改进,该测试自 2000 年以来一直在使用。CAPTCHA 的新改进之处在于使用来自旧的、风化的书籍和报纸的一组字母,这些字母是计算机化转录程序无法识别的。大部分原始“燃料”来自互联网档案项目,该项目传输其 OCR 无法识别或未出现在词典中的单词。
大约 40,000 个网站现在使用该服务,称为 reCAPTCHA,该项目的网站免费提供该服务。Facebook 是其首批主要赞助商之一。
冯·安估计,以 reCAPTCHA 目前的转录速度(每天大约遗漏了 OCR 系统遗漏的 400 万个单词),该程序一天的工作量相当于 1,500 名专业转录员一周的工作量。这些数据存储在卡内基梅隆大学的硬盘驱动器上,然后发送回请求转录的组织。(例如,纽约时报已征用 reCAPTCHA 来数字化该报纸自 1851 年以来的档案。)
冯·安承认,对于最近编写的、更容易扫描的文本,reCAPTCHA 的总体成本仍然略高于仅使用 OCR。他没有透露具体金额,理由是与使用该软件的客户签订了保密协议。
当研究人员比较 reCAPTCHA 和 OCR 如何转录五篇《泰晤士报》的文章时,reCAPTCHA 的效果明显更好——准确率为 99.1%——而谷歌用于其图书项目的 OCR 的准确率仅为 83.5%。(谷歌拒绝就此事发表评论。)
但正如大多数技术的发展方式一样,今天的创新就是明天的 VHS 磁带。最终,计算机也能破译 reCAPTCHA。“我们从 reCAPTCHA 中可以获得几年的好时光,”卡内基梅隆大学计算机科学教授、首批 CAPTCHA 的一些关键开发者之一的共同作者曼努埃尔·布鲁姆说。
布鲁姆说,随着所谓的机器学习的普遍发展,OCR 也会继续改进。
冯·安说,无论如何,在数字时代到来之前,大约有 1 亿本书出版,“这会产生很多单词”。