创新训练方向 提升人工智能语言能力
人工智能在学习语言规则和模式时,展现出惊人的学习能力,超越了不少人的想像。不过,对于人文学院院长兼冼为坚基金人文与科技讲座教授李平教授而言,最令他感兴趣的,是找到一种更有效的大语言模型训练方法,使人工智能能像人脑一样运作,进一步提升处理语言的能力,并为人脑研究开拓新视野。
大语言模型是人工智能模型的一种。它预先获取大量数据进行预训练,进而生成类似人类语言的内容。由 OpenAI 开发的聊天机器人 ChatGPT,就是其中一个大语言模型的例子。
现有的大语言模型主要依赖 “上下文单词预测” 的方式进行预训练,生成式人工智能平台也使用类似方式进行预训练,训练后的人工智能平台能够处理语言,并按写作提示生成文本、图像、影片和其他数据。然而,单词预测只是人脑处理语言的其中一种方式,人类还会整合自然语言理解中的高层次信息,例如词语、句子及会话语境,从而全面理解语言内容。
句子比词语效果更佳
由李平教授领导的理大研究团队探讨了运用 “下一句子预测” (Next Sentence Prediction, NSP)的方式训练大语言模型的效果。他们发现使用 NSP 训练的大语言模型,相比单靠 “上下文单词预测” 进行训练的大语言模型,在多个方面更符合人脑活动,这是因为 NSP 任务要求大语言模型理解句子之间的关联所致。此外,这些使用 NSP 训练的改良模型与人类语义理解的神经模型亦非常吻合。
此项研究的结果不单有助研究人员运用 NSP 提升大语言模型的语义理解,帮助人工智能更接近人类的认知过程,同时在人脑对语言的运作方面提供了新见解,包括帮助科学家了解大脑如何理解语义,例如对话中的语义等。
促进人工智能和认知神经科学研究
李教授说: “我们的研究发现,像 NSP 这类多样化的学习任务可以改进大语言模型,使其更接近人类,并有机会像人脑一样,在不需要海量数据支援下高效能地运作。此项研究还能促进人工智能和认知神经科学领域的研究人员之间的互动与合作,进而推动未来以人工智能为导向的大脑研究,以及受人脑启发的人工智能研究。”
李教授团队的研究已在学术期刊 《Science Advances》上发表。
由李平教授领导、关于训练大语言模型的最新研究,为脑科学研究和人工智能模型开发带来启发。
李平教授
• 人文学院院长
• 冼为坚基金人文与科技讲座教授
新研究中心协助训练人工智能模型
训练大型人工智能模型需要使用大量电子计算方面的资源。为回应这方面的大量需求,理大早前成立了 “AI 大模型研究中心” (Centre for Large AI Models, CLAIM)。CLAIM 隶属理大人工智能与数据科学研究中心,主要使命为向理大研究人员提供有效训练人工智能模型的必要基础设施,并促进人工智能研究和跨学科应用至艺术、科学、工程和其他领域,同时亦会在大学内积极推动人工智能技术共享。
李青教授
• AI大模型研究中心联席主任
• 电子计算学系系主任兼数据科学讲座教授
张磊教授
• AI大模型研究中心联席主任
• 电子计算学系计算机视觉及图像分析讲座教授