周柳芳：人类如何实现在复杂情境中的自然言语倾听？

发布时间：2023-06-05浏览次数：202

尽管当今人工智能在自然言语加工方面的进展迅猛，但如何从存在多个说话者的嘈杂背景中倾听特定目标说话者的言语（如餐厅、酒吧等）仍然是困难的；但对人类来说，这件事情是轻而易举的。这也就是经典的“鸡尾酒会难题”。毫无疑问，人类认知中最显著的特征之一，便是能够自主地选择、控制和解释我们所感知到的信息，并形成连贯而统一的主观意识体验。那么，人类为何能够在多说话者存在的复杂情境中，实现对特定目标言语的选择性倾听、追踪和理解？

本研究在研究方法上进行了创新，采用高生态效度的听故事任务，并结合双耳分听的心理学经典实验范式，要求被试持续地倾听两个竞争性长段自然言语输入中的一个叙述，从而尽可能地模拟现实复杂场景中长时程、内容丰富、需要付出认知努力的自然言语倾听。基于功能磁共振成像数据的被试间/被试内相关技术，研究发现当聆听目标改变后在颞叶、顶叶和额叶脑区存在响应一致性上的分离。具体而言，无论聆听目标是什么，双侧颞叶皮层（包括SomMotB_Aud、TempPar）和前额叶皮层（包括DefaultB_PFCl、ContA_PFCl）在被试间/内都保持激活的高同步性，表明这些脑区对聆听目标不敏感。相比之下，后顶叶皮层（包括DefaultA_pCunPCC、ContC_pCun）具有高目标敏感性，只在相同聆听目标条件下出现被试间/内的激活高同步性。随后，我们进行了基于体素间的功能连接模式的聚类分析。该数据驱动结果发现，这些不同目标敏感性的脑区分属于两个独立的功能神经网络。最后荟萃分析揭示，相关分析发现的不同脑图结果具有截然不同的心理认知功能特征。对聆听目标不敏感的脑图结果与语言加工相关过程（如聆听、语言和句子等）密切相关，而对聆听目标敏感的脑图结果与自我参照功能（如默认模式、心理理论和自传体记忆等）相关联。

综上，该研究通过三个角度的分析有力揭示了，人类在复杂情境中的自然言语倾听离不开两个在结构和功能上都分离的脑网络子系统。该研究利用高生态效度的新颖研究手段，从脑网络层面进一步揭示了复杂情境中人类的言语加工智能的脑机制，未来可能为人工智能语音识别、人机协作智能系统等应用领域提供理论启发。

图1 实验流程及被试内/间相关分析方法示意图

图2 荟萃分析结果

Zhou, L. F.^#, Zhao, D.^#, Cui, X., Guo, B., Zhu, F., Feng, C., Wang, J., & Meng, M*. (2022). Separate neural subsystems support goal-directed speech listening. NeuroImage, 263, 119613.