ChatGPT的问世在2022年11月震惊了讲英语的世界。这个聊天机器人能够逼真地模仿人类,生成看起来像真人所写的文本。人们担心ChatGPT和谷歌的Bard等工具会导致学生将作业交给机器完成,造成广泛的作弊,或者被用于大规模制造虚假信息和宣传,其能力甚至超过俄罗斯的网络水军。
这些担忧也出现在英语之外的其他语言中。然而,到目前为止,基于大型语言模型(LLM)的聊天机器人似乎在英语中表现最佳,而在其他语言中有时却难以模仿人类。随着模型的改进和提供更多数据,这一情况可能会改变,但目前来看,特别是亚洲国家的语言,构成了更大的挑战。
日语和其他亚洲语言具有英语中不存在的特点,比如日语不使用空格分隔单词,并混合使用不同的字符系统,包括汉字、假名和片假名。这使得创建语言基本元素——可以重新排列以形成新文本的标记——的过程变得复杂。许多语言的使用还取决于说话者之间的关系、社会地位或性别。
此外,训练LLM所依赖的数据量是许多限制的根源。研究表明,英语在数据中占主导地位,而其他语言的数据量远远落后。有些语言的数据存储库,如科学论文,甚至不存在。
为了解决数据量较小的问题,一些公司专注于在标记化步骤中提供词素,即不能进一步拆分而不改变其含义的单词,如“女人”或“快乐”。然后,由于通用数据中该语言的比例较小,公司还增加了自己多年的搜索引擎数据,包括博客帖子及其自有的词典和百科全书。
在另一个项目中,一个团队使用英语和阿拉伯语训练了LLM,结果该模型在阿拉伯语上的表现优于其他模型,并且在英语上与其他模型相当。
LLM的兴起在英语国家引发了一系列担忧,例如模型倾向于产生幻觉,坚称某些陈述是事实,而实际上并非如此。还有关于隐私、偏见以及训练数据准确性的担忧。在其他国家,许多这些问题尚未成为焦点,因为他们首先是在创建有效的LLM。
还有担心随着模型从英语学习,它们也将融入西方的价值观和风格,可能会挤压其他国家及其语言的独特性,这是研究人员应该更加关注的问题。