邓莎莎:ChatGPT和AI生成内容:科学研究应该采用还是抵制?

发布时间:2023-03-03浏览次数:922

20221130Open AI发布了ChatGPT聊天机器人模型。与以往的聊天机器人不同,它“上知天文,下知地理”,还能够完成撰写邮件、文案编辑、生成代码等任务。ChatGPT的流行也改变我们的生活和工作方式,特别是在知识工作者中掀起了一场“工业革命”。我国也在2023227日提出推进高等院校和研究机构与企业建立数字中国研究基地。

ChatGPT的流行让人们敏锐地意识到人工智能生成内容(Artificial Intelligence Generated ContentAIGC)将引领教育和科研的最新模式。但是AIGC在科研中的应用同样存在挑战。以ChatGPT为例,在用户大量的体验中发现ChatGPT生成的文本并不完全可靠,也无法直接代替搜索引擎。同时ChatGPT2021年结束了训练,因此模型不具备与时俱进的能力。目前ChatGPT仍是离线的,所有内容的输出只能依靠自己内部知识和逻辑生成,不具备联网自查的能力。虽然ChatGPT并不完美,但它与科学研究的发展相辅相成。

ChatGPTAIGC技术

自然语言处理(Natural Language Processing, NLP)领域的任务需要关注上下文的序列信息。循环神经网络(Recurrent Neural Network, RNN)利用上一时刻输出构建神经网络隐藏层之间的时间关联,在机器翻译、语音识别和情感分析得到了广泛的应用。RNN循环输入结构限制了其在大规模语料库上的应用。自注意力机制(Self-Attention)通过直接计算不同单词间的相关度嵌入上下文信息,摆脱了RNN对上文信息的依赖的同时可以并行计算。注意力机制因其先进的解释性和高效的计算性能,引领了NLP领域发展的新方向。

GPTBert2018年的爆火,一方面得益于它们基于自注意力的先进结构设计,另一方面海量数据的预训练方法功不可没。自然语言中存在着大量未标记的语料库,通过在海量数据上无监督训练得到具有强泛化能力的预训练模型,再经预训练模型生成的单词和句子的通用特征作为特定任务的输入,可以节省大量计算资源且模型的泛化能力更好。

ChatGPT作为最新的研究进展采用了从人类反馈中进行强化学习的策略(Reinforcement Learning from Human Feedback, RLHF),进一步表明了人工智能生成内容(Artificial Intelligence Generated ContentAIGC)蕴含的巨大价值。AIGC即是从内容生成者视角分类的内容,也是利用人工智能技术自动生成的新型生产方式的技术集合。根据内容的形式,AIGC的技术体系可以分为AI生成自然语言内容、AI生成视觉内容和AI生成多模态内容。

自然语言作为最基本的内容形式,是对客观世界的描述和主观世界的表达,应用范围最为广泛。利用海量数据对共性知识挖掘的自然语言理解(Natural Language Understanding, NLU)是AIGC的关键一环,基于大规模无标注语料库的预训练模型在情感分析、语音识别、阅读理解和文本生成等任务上表现出色;

视觉内容在互联网时代对物理世界的记录最为客观,对人意识的感知更为真实。AI如何认知和感知海量视觉数决定了AI视觉内容的真实度与其内涵。视觉TransformerVision Transformer, VIT)的结构和生成式模型地提出助力了AI生成视觉内容的发展;

在元宇宙中,文本数据和图像数据相互交织,且呈现协调。仅依赖单模态数据建模研究会导致AI对人类认知学习过程的不完全评估。同时,如果AIGC技术只能生成单一模态内容,那么AIGC的应用场景将极为有限。多模态大模型致力于处理不同模态、不同来源、不同任务的数据和信息,寻找不同模态数据之间的对应关系实现不同模态数据之间的相互转化,进而生成视听结合多模态内容。

AIGC在科学研究中应用的设想

不同于传统的内容生成模型,AIGC可以克服资源在时间和空间上的限制,每个研究人员都可以直接体验、构建和生成科研要素,有效解决科研资源分配不均的问题。同时,AIGC为团队创新提供了良好的研究环境,将研究者从“科研民工”中解放,高效产出高质量科研成果。另外,AIGC对科研资源的补充和对团队协作的指导进一步有助于打破学科界限,跨学科合作研究成为主流发展方向。

首先,AIGC可补充科研资源。AIGC的出现在一定程度上打破了科研资源分配不均衡的现状。AIGC可以创造出高度真实的样本数据和极具现实感的虚拟模型,这对生物学、医学、计算机科学、神经科学等众多学科的研究大有裨益。科研工作者利用AIGC从海量数据中挖掘完备的数据样本,不再依赖于搜索和人为判断的过滤方式,从而避免了因为知识不在现有库或者主观判断所导致的知识欠缺和遗漏的问题。同时可以对AIGC生成内容做出具体限定,生成规范化的数据样本。从过去的技术寻找数据,到现在的技术创造数据,AIGC将推动WEB3.0建设,补充科研资源和降低科研门槛。

其次,AIGC可助力团队协作效率和团队创新。AIGC强大的包容性可以促进跨学科优势互补和整合资源,另一方面AIGC将颠覆传统科研管理模型,指导科研管理工作,研究不仅是围绕学术带头人展开,每一个成员都是团队的核心,充分发挥研究的积极性和创新性。

最后,AIGC破学科界限。由于起步较晚,中国在专业软件开发上始终落后于国外。AGIC正从表面数据向底层技术生成迈进,AIGC同样可以快速建模与仿真。近年来,各行各业都对计算机基础提出较高要求,当下AIGC的出现帮助人类了解技术,进一步模糊了行业之间的界限区分。而产业与学术呈现相互促进的关系,学科界限也将被进一步打破,跨学科合作研究成为必然的发展趋势。

AIGC在科学研究中面临的挑战

虽然AIGC在科研工作中有丰富的应用可能,但与科学研究中采用的一手数据、二手数据特性不同,AI生成内容既不是完全现有的,也不是完全客观的,AIGC在科学研究中的应用将会带来诸多问题。

第一,AIGC在科学研究中应用的首要问题是其严谨性能否被证实。ChatGPT对于同一问题的结果并不完全一致,而在这种模糊相似中寻找共性的做法,也加大了AIGC严谨性论证的难度。就像实验室最优模型到实践应用仍有较大差距一样,AIGC从便利生活到科学应用很长的一段路要走。另一方面,众多期刊明确禁止将ChatGPT列为论文的合著者,同时也将其生成的文本进行查重。

第二, AI生成内容的便利也会蚕食科研工作者独立思考的能力。随着AIGC交互作用的不断发展,知识获取的便利性和零成本会导致学习者陷入技术依赖和AI上瘾的陷阱。AIGC全面的能力和对现实的补偿效应带有强烈的成瘾风险。AIGC给予大脑的刺激容易激发人类无尽的欲望,如果不加以禁止,就会被无限复制。政府、高校、社会和科技巨头公司有责任规范AI技术的使用,保护网络空间使用安全。

第三,隐私与道德问题。在元宇宙和Web3.0信息交互日益频繁的今天,用户创造数据在去中心化的区块链上快速传播,其中的数字痕迹很有可能包含了用户隐私的敏感信息。AI想要生成真实逼真的内容需要与时俱进,其训练数据来源终会迈向互联网。而这些隐私信息无差别被人工智能捕获并学习,生成的内容可能侵犯了用户隐私和知识产权等。另一方面,AIGC生成的虚假信息,会被不经鉴别地传播和出版,进而也带来了信息欺诈的风险。

结论

2023年是AIGC元年,同年我国也提出推进高校、研究机构和企业共同参与数字中国的建设。全世界的技术工作者、科研工作者在争相体验AI生成内容的魅力,也都在思考如何看待AIGC在科学研究中的应用前景。

对于科研工作者而言,与传统依托于平台资源的科研工作不同,得到AI赋能的科研工作更具有竞争优势,科研资源获取成本的降低可以进一步解放思想。对于科研团队而言,重要的是如何将AI生成内容与现有的科研管理方式模式相结合,促进团队协作效率和确保团队创新活力。对于学科发展而言,AIGC打破了不同学科之间的界限,扩展了管理学科的范围,对研究工作提出了更高要求,我们需要以跨时代、跨学科的视角开展管理科学研究。

现在直接预测AIGC将成为未来科研的第一生产力为时尚早,这项技术还需经过时间的检验,科研工作者将AIGC补充科研需要尊重科研工作的严谨性,警惕技术陷阱,规避道德和法律风险,正确地使用AI这把双刃剑,从而加快推进数字中国建设。


虹口校区
中国上海市大连西路550号(200083)
松江校区
中国上海市文翔路1550号(201620)