新技术追踪我们的眼睛,并读取我们的思想

眼动追踪技术让我们能够玩视频游戏、控制小工具,并通过眼睛单独诊断疾病。它还可以揭示很多关于我们如何思考和感受的信息

一天快结束时,你在办公室里准备回家。你登录电脑,浏览桌面,打开浏览器,登录你的电子邮件帐户。你阅读最新的邮件,自己写了几封,然后注销。当你开车回家时,隔壁车道上的汽车上的某些东西分散了你的注意力,但一个温和的警报提醒你注意路况。当你回到客厅时,你打开了视频游戏机。你扮演一个身份,穿越虚拟景观,躲避一些角色,炸毁另一些角色。从你坐在办公室的办公桌前,直到你做出最后的 Xbox 假动作,你大部分的互动都是在没有使用你的手甚至声音的情况下进行的,仅仅是通过移动你的眼睛。

支持我们数字生活和物理生活无缝融合的技术远非科幻小说,它已经存在。它是新兴的眼动追踪领域的现实世界衍生产品。广义而言,眼动追踪指的是任何可以监控我们注视方向和眼睛行为的技术,在这个过程中生成的数据可以提供我们意图的线索。与配备眼动追踪传感器和软件的设备的互动似乎是直观而毫不费力的,就好像我们的小工具在读取我们的思想一样。

并非巧合的是,随着技术的进步,研究人员对我们眼睛的工作原理和不可观察到的思维方面了解得越来越多:我们的思想和精神集中以及进入我们意识的途径。眼动追踪可以揭示我们是在处理眼前的事物还是精神涣散,我们是否认出了一张脸,或者以前从未见过——或者我们是否见过但后来忘记了。我们对眼球运动的新理解也正在推动游戏、计算机和医疗保健等众多行业的发展。营销人员也渴望利用我们的注视模式,这对隐私产生了影响。


支持科学新闻报道

如果您喜欢这篇文章,请考虑通过以下方式支持我们屡获殊荣的新闻报道 订阅。通过购买订阅,您正在帮助确保未来能够讲述关于塑造我们当今世界的发现和想法的影响深远的故事。


研究人员开发眼动追踪主要是为了了解基本的视觉处理(例如,我们如何将来自每只眼睛的独立流融合成一个单一的心理图像)。临床医生也对眼球运动如何与涉及视力问题的疾病(如眩晕)有关感兴趣。最初,眼动追踪只是简单的观察。实验者会坐在一个人对面,并记录受试者眼睛的行为。

早期的发现令人惊讶。尽管我们对视觉的主观体验是平稳地扫过稳定的景观,但我们眼睛的运动绝非稳定。在大多数情况下,我们的眼睛在极短的时间内(通常约为三分之一秒)保持相对静止,然后是快速的跳动,直到它们停留在下一个目标上。短暂的静止期被称为注视,快速跳动被称为扫视。

这种不稳定行为的主要原因是我们的视觉最佳点非常小。事实上,提供清晰图像的视野部分大约只有臂长距离处一角硬币的大小,质量向外围急剧下降。因此,我们不断移动眼睛,将新的信息片段带入中心焦点。这种断断续续的运动给研究人员提出了一个难题:尽管不断运动,我们如何体验到稳定的视觉?

因此,人们开始寻求能够追踪眼睛每一次运动的硬件,无论多么快速。20世纪初,宾夕法尼亚州西部大学(现称为匹兹堡大学)的心理学家埃德蒙·休伊发明了一种设备,可以关联眼球运动和阅读时页面上的文字。这是一个相当具有侵入性的装置,包括一个石膏杯,戴在眼球上,上面有一个小孔,受试者可以通过这个小孔看到东西。一个杠杆连接到眼罩,一个笔连接到杠杆,当参与者阅读时,笔与旋转的鼓接触。为了最大限度地减少刺激,用可卡因麻醉眼球,并使用夹子和咬合杆将头部固定到位。其他早期的装置使用隐形眼镜、吸盘、嵌入式镜子和磁场传感器的组合来三角定位观看者注意力的焦点。

如今,研究人员依靠角膜反射光线的方式来绘制眼球的旋转轨迹。在一个典型的实验中——例如,研究阅读或注意力——参与者坐在电脑前,头部放在下巴托上。电脑底座上的一个小摄像头放大眼睛(或双眼),二极管发出近红外光(人们无法感知该波长的光,因此他们不会感到不适)。光线反射回摄像头,计算机算法将反射数据转换为眼睛的实时注视路径。通过结合关于角膜反射模式、瞳孔位移以及计算机相对于参与者的位置的信息,追踪系统可以精确地判断参与者的目光落在电脑屏幕上的哪个位置。

当研究超出实验室范围时,更大的挑战出现了。空间精度在眼动追踪中至关重要,因为测量某人注视方向的微小误差会歪曲对该人所见事物的任何解释。在外部世界实现这种精度更加困难,因为头部和身体的运动会干扰注视位置的测量。因此,研究人员开发了将关于注视的信息叠加到环境中的设备,例如顶部装有摄像头的头盔,该摄像头将眼球运动的记录与受试者视野的实时视频融合在一起。今天的可穿戴追踪设备采用轻型护目镜的形式,但原理仍然相同:一个小传感器追踪瞳孔的黑点以精确定位注视方向,一个安装在双眼之间的小型摄像头记录场景。

了解我们所见

除了揭示视觉的机制外,眼动追踪还可以帮助我们理解认知的无形要素:我们记住什么、我们的感受以及我们正在关注什么,无论我们是否意识到。例如,眼球运动可以揭示我们何时看到以前见过的东西,即使我们对遇到它没有记忆。在威斯康星大学密尔沃基分校的心理学家黛博拉·汉努拉于 2012 年领导的一项研究中,受试者被要求记住一张脸的图像。当展示一组包含原始图像的面孔时,受试者花更多时间检查他们以前见过的图像,而不是那些他们没有见过的图像。如果图像改为包含原始面孔的稍微修改过的版本,受试者仍然倾向于将更改后的图像识别为真实事物。然而,他们的眼睛并没有被愚弄。受试者观看修改后的图像的时间少于原始图像,这表明眼睛将它们识别为假货。这些发现对于目击证人证词的解释具有重要意义——例如,在衡量查看一组嫌疑人照片的人是否以前见过其中一张面孔时。

眼球运动模式还可以让我们深入了解思维和情绪。在苏格兰阿伯丁大学的蕾切尔·班纳曼于 2009 年领导的一项研究中,研究人员使用眼动追踪来检查人们如何看待威胁。他们发现,受试者的眼睛比良性的面孔和身体姿势更快地移向威胁性的面孔和身体姿势,这表明我们的眼球运动系统已经准备好检测迫在眉睫的危险。感到害怕或焦虑的个体也表现出对威胁性物体和面孔的偏见,并且比其他人更难将目光从威胁上移开。为了加强这一发现,德克萨斯大学达拉斯分校的乔纳森·沙斯汀及其同事在 2014 年进行的一项研究发现,在快乐的面孔人群中,人们更容易关注愤怒的面孔,而不是在愤怒的面孔人群中关注快乐的面孔,这表明危险比独特性更能吸引眼球。

我们的眼睛也是精神努力的标志。20 世纪 60 年代瞳孔测量学(瞳孔大小的测量)的先驱埃克哈德·H·赫斯发现,当参与者进行具有挑战性的乘法运算时,他们的瞳孔会放大,就像我们进入光线昏暗的房间时瞳孔会放大一样。瞳孔是研究的理想客观结构。与我们可以有意识地控制的眼球不同——例如,通过看向一个方向或另一个方向——我们对瞳孔没有任何自主控制权。研究人员希望,对瞳孔测量的分析将有助于揭示工人何时工作过度,特别是那些从事高风险工作的人,如空中交通管制员、行李安检员、卡车司机和外科医生。

类似的研究也可以帮助伏案工作的人员专注于他们正在做的事情。英国南安普顿大学的心理学家埃里克·D·赖克尔正在开发一种系统,该系统可以让人们知道他们何时处于“僵尸阅读”状态——即我们眼睛在文本上移动一段时间,但没有吸收我们看到的任何一个单词的现象。在 2010 年的一项研究中,赖克尔发现,当我们失去精神注意力时,我们眼睛的行为会有所不同。如果我们集中注意力,当我们看熟悉的单词时,我们的注视时间往往会更短,而当我们看不太常见的单词时,我们的注视时间会更长。当我们心不在焉地阅读时,这种变化是不存在的,即使我们的眼睛仍然击中目标。现在,赖克尔正试图开发算法,可以筛选眼动追踪数据,并在读者注意力涣散时立即发出警报。

实用追踪

随着我们对眼球运动与思维之间关系的了解越来越多,眼动追踪技术正在进入现实世界的应用,尤其是在数字设备控制、游戏和医疗保健领域。眼动追踪器已经可以取代鼠标来完成诸如点击、缩放和滚动之类的任务。用户可以通过盯着一个图标一段时间来点击,通过固定在一个位置并按下控制器键来放大或缩小,以及通过向上或向下移动眼睛来滚动。

向计算机或平板电脑添加眼动追踪系统很简单。这些设备包含光源和传感器,体积小巧、时尚,可以粘在显示器底部或笔记本电脑或平板电脑的框架上,通过 USB 端口连接。它们相对便宜,Eye Tribe 和 Tobii 等公司的型号售价在 99 美元到 139 美元之间。用户安装相关软件并完成快速校准程序(通常是一个培训程序,教软件了解用户的眼睛特征)。当前的设备需要用户进行一些编程(例如创建驱动程序),因此它们还不是真正的即插即用。预计带有内置眼动追踪技术的计算机和平板电脑将很快上市,根据新闻截稿时的传言,其中包括 Apple iPad Pro。事实上,苹果公司在 2013 年提交了一项眼动追踪技术专利,该技术将解决如果我们长时间盯着图像看,图像会从我们的感知中消失的趋势。

监控眼球运动的移动设备也正在进入市场。如果你想要一个在 iPhone 上不会误触的快门按钮,一款应用程序已经允许你通过眨眼来拍照。谷歌眼镜也会做同样的事情。三星 Galaxy S4 和 S5 手机已经允许用户通过将目光从屏幕上移开来暂停视频,或者通过倾斜头部来翻阅电子书上的页面。

最渴望采用眼动追踪技术的行业可能是游戏行业。例如,眼动追踪版本的射击游戏可以让玩家通过注视他们想要前进的位置来在虚拟世界中移动他们的头像。按下一个键可能会打开武器菜单;玩家可以通过眨眼来选择物品,并通过注视目标并按下扳机键来攻击。根据乔纳森·芬彻在 2014 年 1 月的 Gizmag 在线故事中的报道,测试过早期版本的技术的游戏玩家表示,使用它起初有点不舒服,尤其是想要伸手去拿鼠标的冲动很难抵制,但最终他们发现用眼睛瞄准和射击更快更准确。最终,配备眼动追踪装备的玩家可能会比使用标准鼠标控件的玩家具有速度优势,而没有什么比军备竞赛更能推动技术发展了。

良药

眼动追踪也正在成为医疗保健领域的重要工具。该技术已经简化了各种具有视觉成分的疾病的筛查和诊断,并且很快将帮助残疾人畅游世界。

在诊断前沿,眼动追踪在检测帕金森病、精神分裂症和许多儿童疾病(包括自闭症、注意力缺陷多动障碍 (ADHD) 和阅读障碍)方面特别有用。患有这些疾病的人具有独特的眼球运动模式,简单的计算机测试就可以发现。例如,在南加州大学的开创性工作中,神经科学家洛朗·伊蒂的实验室设计了算法,这些算法已帮助以 90% 的准确率识别出帕金森病患者,并以近 80% 的准确率识别出 ADHD 患者。阿伯丁大学的心理学家伊娃·努佐娃及其同事在 2014 年进行的一项研究报告了在使用眼动追踪诊断重度抑郁症方面取得的进展。同样在阿伯丁大学工作的心理学家菲利普·本森及其同事在 2012 年发表的一项研究中开发了可以近乎完美地将精神分裂症患者与健康对照组区分开来的测试。

精神分裂症测试利用了眼球运动中的一个异常现象:当我们追踪像空中飞行的球这样的移动物体时,我们会平稳地跟随物体,而不会发生扫视。这意味着平稳追视使用与阅读等活动不同的神经回路。然而,当精神分裂症患者试图跟随移动物体时,他们的眼球运动是断断续续的。因此,为了筛查精神分裂症,技术人员会要求受试者跟随屏幕上移动的点,并标记出眼睛显示出明显的扫视迹象的任何人。(本森的团队因其研究而获奖,并将使用奖金将该程序推向市场。)

除了诊断之外,研究人员还在使用眼动追踪来帮助身体残疾的人独立生活。患有神经系统疾病以及脑部和脊髓损伤的个体通常沟通能力有限。配备注视互动技术的计算机可以让人们使用眼睛打开浏览器、找到他们的电子邮件收件箱,并通过在屏幕上选择单词来“打字”。对于那些不能说话的人,语音输出系统将通过扬声器播放文本。对于大多数人来说,这些系统可能会取代所谓的 BCI(脑机接口的缩写)拼写器,在这种拼写器中,一个人在观察字母网格时佩戴一顶镶有电极的帽子,该帽子可以识别大脑活动。为了在网格中选择一个字母,用户必须将注意力集中在其上几秒钟。相比之下,眼动追踪可以立即检测到观看者的注视位置。

你看到我所看到的吗?

与许多新技术一样,眼动追踪引发了一系列伦理和隐私问题。在这个日益数据驱动的时代,我们有理由想知道谁将有权访问我们的技术收集的信息类型。当我们使用眼动追踪 PC 浏览互联网或驾驶安装了追踪器的汽车(例如现代的 HDC-14 概念车)时,任何人都可能在窥视我们。广告商可以获得这些信息吗?保险公司或警察呢?

目前,广告商使用 Cookie 来追踪您访问的网站,以便他们可以为您提供您可能感兴趣的产品的广告。当计算机配备眼动追踪系统时,这些广告商可以使用关于您在页面上查看位置的信息来更精细地定制广告。一些用户可能会发现这种微调很有帮助,但想象一下,如果弹出式广告随着您的目光在页面上移动,或者 YouTube 上的视频广告“知道”您何时没有观看它们并在您再次观看它们之前暂停播放。这些技巧都在该技术的范围内,与消费者的冲突势必会发生。

例如,在 2012 年,微软为其 Kinect 游戏设备申请了眼动追踪技术专利,以便让该公司收集关于用户在玩游戏时在屏幕上查看位置的信息,这引起了人们的担忧,即微软将追踪游戏玩家正在查看哪些广告以及查看时长。该公司在第二年因隐私问题陷入困境,有传言称该公司将向营销人员出售 Kinect 数据,并将 Kinect 用于定向广告。微软还计划通过面部表情分析运行眼动追踪系统捕获的图像,从而根据用户的情绪定制广告。一些 Kinect 用户表示担心该设备会始终处于开启状态并始终在监听,就像老大哥一样。微软在 2013 年 10 月发布了一系列声明,向用户保证他们可以关闭设备和广告追踪功能,并且该公司不会收集数据,除非用户愿意。

将眼动追踪用作身份识别手段引起了更多不安。德克萨斯州立大学计算机科学系的研究人员正在测试生物识别系统,该系统可以根据人们阅读文本或观看图片时独特的眼球运动模式来识别他们。在最近的研究中,眼动追踪在识别受试者方面的准确率略高于 70%。该比率远低于虹膜扫描(90% 至 99%)或指纹(高达 99%)的准确率。然而,随着计算系统和追踪技术的发展,差距可能会缩小。即使现在,该技术也为家庭安全和技术保护带来了明显的好处。例如,入侵者将被锁定在您的计算机之外,因为系统会从他们的眼球运动中知道他们不是所有者。该技术也比虹膜扫描更易于受试者接受,虹膜扫描需要用户保持静止。然而,令人担忧的是,眼动追踪 ID 系统很容易进行秘密和侵入式部署。

没有任何小工具比谷歌眼镜(一种可穿戴计算机,通过一系列镜头将图像投射到用户的视网膜上)更具侵入性和普遍的令人毛骨悚然的潜力。像大多数便携式设备一样,它也将配备一个摄像头,也朝外。虽然当前版本的 Glass 没有内置眼动追踪功能,但谷歌已提交了一项将该技术集成到头戴式设备中的专利。该专利涵盖了追踪注视和测量瞳孔大小的能力,这表明谷歌计划评估人们观看广告时的用户参与度。注视追踪将告诉谷歌用户正在看什么(广告、物体、人物);瞳孔测量法将测量他们对环境中这些物体和人物的情绪反应。有了这些数据,谷歌可以部署一个“按注视次数付费”系统,广告商可以为每次观看他们的广告向该公司付费。该技术将适用于用户视野中的任何事物,包括广告牌、杂志和其他印刷媒体,以及 Glass 上显示的图像。

伦理问题显而易见:该设备可能会识别出人们佩戴它时所在的位置,以及他们遇到的人和事。谷歌的专利通过使数据收集匿名化并允许用户选择退出这种形式的追踪来解决隐私问题。然而,如果 NSA 监视名单上的某人恰好从你的目光前经过,这些保证是否仍然有效?

最终,即使眼动追踪技术让我们能够控制追踪我们的设备,我们的掌控感也可能是虚幻的。如果眼睛是心灵的窗户,我们需要知道还有谁在透过它们观看。

延伸阅读

眼睛的移动平板电脑:现代眼球运动研究的起源。 尼古拉斯·韦德和本杰明·塔特勒。牛津大学出版社,2005 年。

牛津眼球运动手册。 西蒙·利弗西奇、伊恩·吉尔克里斯特和斯特凡·埃弗林编辑。牛津大学出版社,2011 年。

基于自然观看眼球运动的临床人群高通量分类。 Po-He Tseng 等人,《神经病学杂志》,第 260 卷,第 1 期,第 275–284 页;2013 年 1 月。

来自我们的档案

转移焦点 苏珊娜·马丁内斯-康德和斯蒂芬·L·麦克尼克;2011 年 11 月/12 月。

看与不看 迈克尔·C·胡特和斯蒂芬·D·戈尔丁格;2013 年 7 月/8 月。

阿琳·罗宾斯是新墨西哥州立大学心理学系专注于视觉认知的博士生。

更多作者:阿琳·罗宾斯

迈克尔·C·胡特是新墨西哥州立大学心理学系助理教授,也是该校视觉科学和记忆实验室的首席研究员。

更多作者:迈克尔·C·胡特
SA Mind 第 26 卷第 1 期本文最初以“看我的眼睛”为标题发表于SA Mind 第 26 卷第 1 期 (),第 54 页
doi:10.1038/scientificamericanmind0115-54
© . All rights reserved.