AI 听懂的究竟是动物的语言,还是人类的想象?这是一个颇具争议的话题。一方面,一些研究表明,AI 可以通过对动物声音、行为等数据的分析和学习,识别出一些特定的动物信号,似乎在一定程度上听懂了动物的语言。但另一方面,这些所谓的“听懂”或许只是人类基于对动物行为的观察和理解,赋予了 AI 这样的能力,更多是人类的想象在其中起作用。也许 AI 只是在处理大量的数据并找出其中的模式,而非真正理解动物内心的感受和意图。到底是真实的听懂,还是人类想象的产物,这仍需进一步的研究和探讨。
如果说眼睛是心灵之窗,那么语言或许就是通往心灵的门户。至少,许多人工智能学者和生物学家在探索动物语言或动物思维时,会带有这个假设。如今,深度学习、自然语言处理以及模式识别等技术,正用于分析动物发声、动作、行为数据,以挖掘潜在的信息编码系统,即所谓“动物语言”的结构与意义。
作为人类,语言既是我们描述感受的方式,也是我们感受的过滤器。但物种间语言固有的局限性,让我们从未与动物建立过直接的“语言”连接,甚至是和我们朝夕相处的猫咪。我们既无法得知猫咪的自我感受,也无法了解它们内心的想法。我们只能通过观察它们的行为来猜测它们的感受,或偶尔才通过测量它们大脑中神经元的电生理活动来了解一二。
最近,人工智能开始揭示越来越多动物交流的信息,这些信息可以帮助人类更好地理解动物的内心世界。例如,研究人员最近利用人工智能发现抹香鲸拥有一套“语音字母表”,它们用这套字母表构建复杂的交流;大象也会用名字称呼彼此。人工智能在理解动物语言方面的优势在于它能够识别、解析和复制模式——而语言如果没有模式,就毫无意义[1]。
一、用AI解析动物语言方兴未艾
利用人工智能解析动物语言的尝试尚处于起步阶段,目前的成果也比较简单。但或许有一天,基于人工智能的动物语言研究能够帮助科学家理解各类鸟鸣、兽吼声意味着什么,并让我们更好地理解动物,了解它们的思维方式,以及这些思维如何体现在它们的日常生活中。反过来,这些研究方向也能帮助我们更好地理解人工智能本身的内部运作机制。
然而,破译动物语言远非编写一本“词典”那么简单。虽然研究人员借助人工智能取得了一些进展。但比这更困难的,是理解动物交流的背景和其中的细微差别。比如,鲸鱼的语调是带着紧迫感还是温柔的引导?它是什么时候发出的?听者是如何接收和理解的?这与它们对世界的体验息息相关。在人类语言中,当有人说“我很好”时,他们的语气可能表达着完全相反的意思,我们对外界所说的话,并不一定直接反映我们的内心感受。
▷表1:AI赋能动物语言研究
二、现实世界:人类仍然掌握科学发展核心决策权
约翰·霍普金斯大学的科学家克里斯·克鲁佩内耶(Chris Krupeneye)承认,人工智能解码的倭黑猩猩(bonobo)叫声,与它们表达的真正含义之间存在着巨大的差异。因为要理解它们表达的真正含义,需要结合时间、语境,还有它们发出的其他信号,但能制作一种由机器驱动的动物通讯信号解码环,即使依然有待改进,也是坚实的第一步。克鲁佩内耶表示,一旦我们更多地了解了动物的交流方式,就可以更深入地探索其大脑是如何理解自身体验的。“它们的交流方式可能存在某种结构,这有助于让我们深入了解它们的思维结构。”
其他科学家也正在以类似路径利用人工智能理解动物的语言和思维。科罗拉多州立大学的迈克尔·帕多(Michael Pardo)研究团队利用人工智能分析了肯尼亚大象发出的近500种低沉且具目的性的声音。该团队研发的人工智能软件通过检测声音模式,预测特定大象对给定音频的反应,若某头大象对某组声音做出反应,就表明这组音频中包含着对它们的呼唤。该模型识别接收者的正确率是随机猜测基准概率的3.5倍,这意味着大象可能通过听觉识别自身或其它个体。
这些研究项目中,应用范围最广的或许是“地球物种计划”(Earth Species Project)。该项目使用大语言模型分析动物交流。参与地球物种计划的科学家希望这些模型能够捕捉动物的交流信号,解析其中的模式和含义,并将这种理解传达给人类。
三、AI如何赋能动物语言研究
AI赋能动物语言研究主要体现在三个方面。首先是它能处理大量数据,AI可以快速分析海量音频、视频数据,这要比传统观察高效许多。其次是揭示模式,AI能识别人类无法察觉的频率模式、动作细节或重复结构。另外,它还可以推动跨物种理解,建立类似“词汇表”或“语法规则”的模型用于翻译式理解。
“地球物种计划”最近发布了一个名为NatureLM-audio的大型音频语言AI模型。该模型基于首席执行官凯蒂·扎卡里安(Katie Zacarian,一位环保主义者和人工智能研究员)论述的“动物声音的普遍原理”,并已在跨物种的数据库中进行了训练。这些数据库包括Xeno-canto鸟鸣数据库、沃特金斯海洋哺乳动物声音数据库以及iNaturalist社区收集的大量动物声音等。类似于ChatGPT通过采集网页、社交媒体帖子和有版权的文字来解析与重建人类语言,NatureLM-audio也利用丰富多样的物种声音,来更好地理解动物的交流。
当然,NatureLM-audio无法输出“乌鸦们到底说了什么”的翻译,但它可以告诉你输入的声音是否来自乌鸦,有多少只,它们处于哪个生命阶段,以及它们发出的是什么类型的叫声。它还可以对鸟类、鲸鱼和青蛙等动物群体中的数千个物种进行分类或检测。这对于利用动物交流最终理解动物这个目标,又迈进了一小步。
这种思路的可行性在1974年就由哲学家托马斯·内格尔(Thomas Nagel)进行了讨论[3]。在论文中,他提出了一个问题:“身为一只蝙蝠是什么感受?”本质上,他是在问,倘若我们掌握了关于蝙蝠的所有客观事实,并能想象它们的生活,人类就真的能够感受或理解身为一只蝙蝠是什么感觉吗?他的答案是“否”,人类甚至很难想象身为另一个人会是什么感觉。
内格尔的结论是,某种动物的“环境”(umwelt),即其通过感官和大脑获得的特定世界体验,是其他动物无法理解的。诸如蝙蝠和其它所有物种都有自己独有的“环境”,而人类则因为感官差异,根本无法想象身为一只蝙蝠或任何其它生物的真实感受。
鉴于这种不可及性,扎卡里安认为地球物种计划永远不会得到像“罗塞塔石碑”*那样的成果。“这只是一个辅助工具”,她说,“它可以扩展我们的理解,就像显微镜或望远镜一样。它让我们能够感知我们无法感知的事物,发现我们无法感知的模式。”(注:罗塞塔石碑(Rosetta Stone)是古埃及托勒密王朝时期(公元前196年)刻制的玄武岩石碑,以英法军队1799年在埃及罗塞塔地区发现而得名。因提供三种语言的平行文本,成为破译失传千年的埃及象形文字的关键工具)
四、动物语言的复杂性
随着科学界和媒体对人工智能如何解码动物语言的兴趣日益增长,也有人对此发表了不同看法,特拉维夫大学神经生态学家约西·约维尔(Yossi Yovel)就是其中之一,他决定与同一机构的另一位持怀疑态度的研究员——研究线虫的奥德·雷查维(Oded Rechavi)合作,共同研究人工智能情况下跨物种交流所面临的挑战。约维尔和雷查维在2023年共同撰写了一篇论文,他们将这些挑战用一位能够理解动物并以动物可懂的方式与其交谈的虚构兽医的名字命名,称为“杜立特医生难题”。
动物的沟通和思维,比人类长期以来以为的更复杂。约维尔和雷查维认为,即使“杜立特”借助人工智能的力量,他所面临的障碍也非常大。首先,人工智能在内容的生成方面过于偏向人类,它们往往无法克服人类自身的环境,也无法完全理解动物交流的背景。毕竟,是人类在对人工智能进行编程和训练,而训练数据和参数都来自人类科学家对特定动物交流环境的解读。
在约维尔的研究中,他根据果蝠发出的吱吱声和语境对声音样本进行注释,并使用人工智能模型分析这些音频样本,找出它们之间的相似之处和不同之处,最终根据音频频谱对这些交流的语境进行分类。但是,在2023年的一篇论文中他写道:“我们只能根据人类固有的感知,命名诸如进食、睡眠或交配之类的语境。”
也就是说,蝙蝠可能存在一些我们人类一无所知的特定语境,而人类理解或与动物交流的尝试必然会受到限制。“如果动物用人类无法感知的气味、声音、或磁场信号来交流,我们就会完全无视这些交流机制”,约维尔说道。例如,足球运动是人类特有的领域,动物对此无法“理解”。同样,我们也缺乏动物生活中重要主题的无数语境。
此外,动物通常同时使用多个通信信道。即使是人类之间的交流,也会伴随着面部微表情和姿势的微妙变化。类似的,假如线虫表示“走开”的方式是分泌一种有气味的化学物质,并将尾巴转动五度,而人工智能翻译系统只观察了机体的运动,忽略了相关气味,那么它就无法正确表达“走开”这一信息。
所有这些研究的难度都印证了这样一种观点:动物的沟通和思维能力远比人类长期以来认为的更为复杂。约克大学哲学家克里斯汀·安德鲁斯(Kristin Andrews)认为,理解这种复杂性(这在一定程度上得益于人工智能的发展)或许可以帮助研究人员更好地认识人工智能本身,同时,研究其他动物的思维也可以帮助计算机科学家判断人工智能是否具有感知能力。
感知能力是指动物感知并响应外部环境的能力,包括体验、关注并回应、以及对感知产生偏好的行为。而意识是在头脑中持有信念,并对世界进行主观体验的能力。各类动物是否拥有以及如何拥有感知、意识能力,或两者兼而有之,是当前争论和研究的主题。
科学家通常利用可观察到的动物行为和生理反应来研究动物的感知能力。例如,寄居蟹在面对它们不喜欢的刺激,比如电击或捕食者时,它的反应不仅仅是后退或逃走,有时它们会忍受电击保持不动以躲避捕食者,这是根据生存环境做出判断或权衡。“我们可以推断,它们做出所有这些行为的最佳解释是,它们确实有感知能力,知道什么更重要”,安德鲁斯解释说。
▷表2:用AI解析动物语言的限制
使用类似的行为模式来评估人工智能的感知能力并不一定有效,因为它缺乏对世界的体验。当然,它也可以学习如何模仿疼痛或表达偏好。2023年安德鲁斯在她与哲学家乔纳森·伯奇合写的《Aeon》文章中指出,大语言模型可能会通过吸收文章本身的文本来“学习”做到这一行为,这表明它可以吸收文章的文本来学习模仿感知标记,例如疼痛[3]。“这就像通过考试收集学生的答题结果,我们就能判断他们的数学知识水平”,她说。
安德鲁斯表示,她相信研究动物思维能够推动新的感知测试。例如,用模拟数字神经元复制动物大脑形态的人工智能就不会受到同样漏洞的影响。这类人工智能是对生物大脑的计算仿真,而非语言模型。如果这种大脑在活动时显示出疼痛信号,可能意味着人工智能确实感受到了疼痛。但模拟生物的突触并非易事。
2014年,OpenWorm项目的研究人员创建了仅有约300个神经元的世界最小大脑——秀丽隐杆线虫数字模型,并利用该大脑的“思考”驱动乐高机器人前进,但若要让模型模拟更复杂的大脑则需要更大的算力。而科学家和哲学家们仍在争论:像大语言模型这样没有实体体验、不具身的事物,是否能够拥有意识或感知及其环境感知能力。
一旦我们能够像“杜立特医生”那样与动物或与具身的人工智能对话,我们能否确认,人类体验到的复杂性其实并与动物或其它主体没有太大差异?“我一直觉得纳格尔夸大了其中差异,而忽略了相似之处”,安德鲁斯说。当然,我们与蝙蝠不同,人类个体之间也存在差异。“我认为,我们之间的差异比哲学家们过去看到的要多得多:认知多样性、文化多样性、性别多样性”,安德鲁斯解释,“然而我们的沟通能力还不错,所以跨物种沟通应该也没啥大问题”。
五、充满希望的未来
遗憾的是,像“地球物种计划”这样的努力最终可能无法用来解码和理解动物的思维。不过,扎卡里安表示这并非她的最终目标,相反,她希望能拓展对人类与动物的相似点和差异点的理解。这些知识能够更好地连接人类,与世界沟通,并带来对动物认知复杂性的全新理解。
未来,我们或许可以通过多模态模型来整合声音、肢体语言、表情、环境传感器等数据,以建立动物“多维语言”理解系统;同时,反向交互不仅能帮助我们解码动物语言,还可以建立反馈系统实现“AI与动物的对话”;此外,类似“Google Translate for animals”的跨物种翻译系统,如Zoolingua已经出现。人工智能正为我们提供前所未有的工具来揭示动物语言的“奥秘”,但其解释仍需建立在对生物行为深刻理解的基础上。要实现真正的“人-动物对话”,不只是技术问题,更是认知、伦理与文化的挑战。
参考文献:
AI Could Help Humans Understand Animals. https://nautil.us/ai-could-help-humans-understand-animals-1211108/. 2025.
Thomas Nagel. What Is It Like to Be a Bat? The Philosophical Review. 1974 Vol. 83(4). pp. 435-450
What has feelings? https://aeon.co/essays/to-understand-ai-sentience-first-understand-it-in-animals. 2023.