日本为何要构建自己的 ChatGPT 版本

一些日本研究人员认为，用外语训练的人工智能系统无法掌握日语和文化的复杂性

作者：Tim Hornyak& 《自然》杂志

Row of Japan's new supercomputer Fugaku with a person standing to the left. — 日本的超级计算机“富岳”已被用于消化日语文本，以开发日语版本的 ChatGPT。

Kyodo News/Getty Images

日本正在构建自己的 ChatGPT 版本——这是一种由美国公司 OpenAI 开发的人工智能 (AI) 聊天机器人，自大约一年前问世以来，已风靡全球。

日本政府和大型科技公司（如 NEC、富士通和软银）正在投入数亿美元，用于创建基于相同底层技术（称为大型语言模型 (LLM)）的人工智能系统，但这些系统使用日语，而不是英语版本的翻译。

日本东北大学自然语言处理专家坂口庆祐表示：“目前的公共 LLM，如 GPT，在英语方面表现出色，但由于字母系统、有限的数据和其他因素的差异，日语方面常常不足。”

支持科学新闻报道

如果您喜欢这篇文章，请考虑通过以下方式支持我们屡获殊荣的新闻报道：订阅。通过购买订阅，您正在帮助确保有关塑造我们今天世界的发现和想法的具有影响力的故事的未来。

英语偏见

LLM 通常使用来自公开来源的大量数据来学习自然语言和散文的模式。它们经过训练，可以根据文本中前面的单词预测下一个单词。ChatGPT 之前的模型 GPT-3 训练所用的大部分文本都是英文。

ChatGPT 令人毛骨悚然的类人对话能力，既让研究人员感到高兴，也让研究人员感到担忧。有些人认为它是一种潜在的节省劳动力的工具；另一些人则担心它可能被用来捏造科学论文或数据。

在日本，人们担心用其他语言的数据集训练的人工智能系统无法掌握日语和文化的复杂性。日语的句子结构与英语完全不同。因此，ChatGPT 必须将日语查询翻译成英语，找到答案，然后再将回复翻译回日语。

英语只有 26 个字母，而日语书写系统由两组 48 个基本字符以及 2,136 个常用汉字组成。大多数汉字有两种或多种发音，并且还存在大约 50,000 个不常用的汉字。鉴于其复杂性，ChatGPT 在语言方面遇到困难也就不足为奇了。

坂口表示，在日语中，ChatGPT“有时会生成大多数人从未见过的极其罕见的字符，并导致出现奇怪的未知词语”。

文化规范

对于 LLM 而言，要发挥作用甚至在商业上可行，它需要准确反映文化习俗以及语言。例如，如果提示 ChatGPT 用日语撰写求职电子邮件，它可能会省略标准的礼貌用语，看起来像是从英语的明显翻译。

为了衡量 LLM 对日本文化的敏感程度，一群研究人员启动了Rakuda，这是一个对 LLM 回答有关日本主题的开放式问题的能力进行排名的工具。Rakuda 的联合创始人 Sam Passaglia 及其同事要求 ChatGPT 比较对标准提示的答案的流畅性和文化适当性。他们使用该工具对结果进行排名是基于 6 月份发布的一份预印本，该预印本显示 GPT-4 在 87% 的时间内与人工审核员的意见一致¹。最好的开源日语 LLM 在 Rakuda 上排名第四，而排名第一的，也许不足为奇的是，考虑到它也是比赛的评判者，是 GPT-4。

东京大学物理学家 Passaglia 说：“当然，日语 LLM 正在变得越来越好，但它们远远落后于 GPT-4。” 他研究日语语言模型。但他表示，原则上没有理由认为日语 LLM 未来不能与 GPT-4 相提并论甚至超越 GPT-4。“这在技术上并非不可克服，而只是资源问题。”

创建日语 LLM 的一项重大努力是使用日本的超级计算机“富岳”，它是世界上最快的计算机之一，主要使用日语输入对其进行训练。在东京工业大学、东北大学、富士通和政府资助的理研研究中心集团的支持下，由此产生的 LLM 预计将于明年发布。它将加入其他开源 LLM的行列，使其代码可供所有用户使用，这与 GPT-4 和其他专有模型不同。据参与该项目的坂口称，该团队希望为其提供至少 300 亿个参数，这些参数是影响其输出的值，可以作为衡量其规模的尺度。

然而，“富岳”LLM 可能会被更大的 LLM 所取代。日本文部科学省正在资助创建一个针对科学需求的日语人工智能程序，该程序将通过学习已发表的研究成果来生成科学假设，从而加速识别研究目标。该模型的初始参数可能为 1000 亿个，这将略高于 GPT-3 规模的一半，并且会随着时间的推移而扩展。

理研生物系统动力学研究中心副主任 Makoto Taiji 在谈到该项目时说：“我们希望大幅加速科学研究周期并扩大搜索空间。” 开发该 LLM 可能至少需要 300 亿日元（2.04 亿美元），预计将于 2031 年公开发布。

扩展功能

其他日本公司已经或计划将其自己的 LLM 技术商业化。超级计算机制造商 NEC 于 5 月开始使用其基于日语的生成式人工智能，并声称这可以将创建内部报告所需的时间缩短 50%，将创建内部软件源代码所需的时间缩短 80%。7 月，该公司开始向客户提供可定制的生成式人工智能服务。

NEC 数据科学实验室高级首席研究员 Masafumi Oyamada 表示，它可以“广泛应用于金融、交通运输和物流、分销和制造等行业”。他补充说，研究人员可以利用它来编写代码、帮助撰写和编辑论文以及调查现有已发表的论文等任务。

与此同时，日本电信公司软银正在向用日语文本训练的生成式人工智能投资约 200 亿日元，并计划明年推出自己的 LLM。软银拥有 4000 万客户，并与 OpenAI 投资者微软建立了合作伙伴关系，该公司表示，其目标是帮助企业实现业务数字化并提高生产力。软银预计其 LLM 将被大学、研究机构和其他组织使用。

与此同时，日本研究人员希望，精确、有效且日本制造的人工智能聊天机器人可以帮助加速科学发展，并弥合日本与世界其他地区之间的差距。

东京庆应义塾大学医学院医疗技术研究员木下翔太郎说：“如果日语版 ChatGPT 能够做到准确，那么对于想要学习日语或对日本进行研究的人来说，预计会带来更好的结果。” “因此，可能会对国际联合研究产生积极影响。”

本文经许可转载，并于 2023 年 9 月 14 日首次发布。