张明月:虚假新闻识别难?群体智慧和人机智慧来帮忙!

发布时间:2023-02-27浏览次数:660


社会痛点问题:无处不在的虚假新闻

      近年来,伴随着新冠疫情肆虐的还有信息疫情(Infodemic, 即社交媒体上虚假新闻泛滥,使民众难以确定可靠的信息来源,给全球公共安全带来了严重影响。在互联网快速发展和社交平台崛起的双重催化下,假新闻有愈演愈烈之势。国内外的任何大事件都伴随着大量虚假新闻的发酵,如新冠疫情、马航MH370、美国大选等。在这样的背景下,如何通过技术手段检测虚假新闻,有效遏制信息疫情?

      识别虚假新闻具有重要的现实意义:以去年上海的疫情为例,微博、微信和知乎等主流平台上,充斥着各类谣言和虚假信息。身处上海的民众无法获取真实信息,包括与生活息息相关的物资采购和医疗信息,而上海之外的民众也无法了解真实的情况,这些都造成了社会面的恐慌和媒体公信力的缺失。所以,我们需要设计合理的识别机制,在一条新闻进入公众视野前就进行审查,过滤假新闻,也让民众了解真实情况。

发掘人类智慧,有机结合人机智能

      对于一条社交媒体上的假新闻,用户通过对新闻发表态度,其实也在实时地贡献智慧。如下图左边的微博,少数用户会直接举报,而且如果翻看它的评论,会发现许多用户也会在评论中直接或间接地辟谣。那么,我们能否借助群体的力量来解决虚假新闻这个由群体本身产生的问题呢?于是,我们提出将人类智慧与文献中已广泛研究的机器智能以群体的形式相结合,发挥人机互补优势和群体智慧,以识别假新闻。

1. 假新闻及群体智慧的例子

      要借助群体智慧解决虚假新闻的识别问题,面临两大主要挑战:

      首先,社交媒体数据往往包含大量文本噪音,表述隐晦模糊。如上例中,“是啊!怎么又成深圳了,台风太皮了”,用户非常隐晦地表达了这是假新闻。其次,人类智慧与机器智能并非完全可靠,擅长领域也不同,如何将两者有机结合?

       为解决第一个挑战,该研究借助深度学习和自然语言处理的前沿方法,通过在大数据上训练,得到一个能够识别用户态度的检测器,以从社交媒体的评论中抽取人类的群体智慧。对于第二个挑战,该研究通过贝叶斯模型对人机的可靠性和异质性进行刻画,对人机智慧的产生过程进行建模,并最终通过变分推理估计模型参数,以聚合人机智慧,得到对新闻真假的判断。

       我们的研究创造性地结合了群体智慧和人机混合智慧,充分利用了二者各自的优势:群体智慧不需要每个个体均为专家,相反,只需要平均意义上,每个个体均能贡献一小部分信息,即可“1+1>2”,达到胜似专家的效果。而人机混合智慧能发挥人类智慧与机器智能的互补优势,例如机器智能擅长从大数据中挖掘虚假新闻的固有特征,根据特征进行判别;相比于机器智能,人类更擅长推理性任务,而且人类具有时事信息。该研究借助实验结果,对人机的贡献进行了可视化,也说明了人机在虚假新闻检测任务上的互补性。经过不断思索与实验,该研究最终提出了一个全新的假新闻检测框架,能够有效结合群体智慧和人机混合智慧。

2. 本研究所提出的虚假新闻检测框架

助力社会扑灭“信息疫情”,人机互补应用前景广阔

      实验结果表明,人机智慧互补可以显著提升虚假新闻检测的效果,那么该研究的成果对社会是否有裨益?有哪些典型的应用场景呢?我们认为,所有数字社交网络的成员,包括政府机构、社交媒体平台及信息的消费者或传播者自身,都有责任帮助解决这场看不见的“信息疫情”。对于社交媒体平台和政府管理者而言,这项研究提供一个高效可行的虚假新闻检测方案。同时,因为目前许多基于专家的谣言检测平台需要大量的人力物力,高效的虚假新闻检测也意味着更低的企业和政府开支。对于普通社交媒体用户而言,当遇到虚假新闻时,不信谣、不传谣,同时应该积极贡献其智慧。

      此外,从人机互补的角度进行虚假新闻的检测,说明了人机互补的存在性和可行性。这为人工智能提供了一个新视角的应用参考,如能否协同人机智慧更好地进行医疗诊治、公司决策和金融市场预测等。同时,该研究所使用的人机智慧聚合框架也从技术上,为未来的潜在应用提供参考。



原文:Wei, X., Zhang, Z.*, Zhang, M.*, Chen, W., & Zeng, D. D. (2022). Combining Crowd and Machine Intelligence to Detect False News on Social Media. MIS Quarterly, 46(2), 977-1008.


虹口校区
中国上海市大连西路550号(200083)
松江校区
中国上海市文翔路1550号(201620)