近年来,全国各地积极布局AI产业,加之算力性能的跃升,为人工智能蓬勃发展带来了机遇。从技术角度来看,AI大模型的参数量和计算量巨大,对开发、部署等工程化环节提出了高要求。当前AI大模型发展面临的主要挑战是什么?面对多元行业、差异化业务场景,AI大模型担任何种角色?其未来发展的重要方向是什么?就以上问题,《人民邮电》报记者分别采访了中国信息通信研究院云计算与大数据研究所人工智能部副主任曹峰和中国人民大学高瓴人工智能学院执行院长文继荣教授。
大模型的技术瓶颈在哪里?
记者:当前AI大模型发展面临的主要挑战是什么?攻克难关的主要思路是什么?
曹峰:当前AI大模型发展主要面临三个方面的挑战:一是体量庞大,研发部署困难重重。AI大模型的参数量和计算量要求给开发、调优、部署等工程化环节带来极大压力。二是评价单一,运用效能难以显现。当前AI大模型的评价以学术榜单为主,在行业场景下的应用效果难以客观有效评价。三是应用受限,产品形态仍在探索。传统AI技术已赋能系统、工具、平台、服务等产品形态,而大模型当前主要以API对外开放能力,产品成熟度偏低,削弱了用户体验。
为应对上述挑战,应加强AI大模型轻量化技术研发,完善AI大模型评估指标体系,鼓励AI大模型应用服务创新。
文继荣:这是一个很有价值的问题。我们希望AI大模型能像人脑一样,学习、思考甚至是创造,然而这一点对目前的AI大模型来说依然是非常具有挑战性的。我们生活在一个多模态的世界,人脑在感知和理解这个世界的过程中不仅仅局限于单一模态,而是会结合听觉、视觉甚至触觉、嗅觉等多个模态共同完成。
因此,我们希望在AI大模型中引入多模态的信息,尝试使用不同模态之间的交互进一步增强AI大模型的语义信息建模能力。但随之而来的是,如何合理地刻画模态之间的关联关系呢?我们的文澜团队针对这个问题提出了模态间的强关联和弱关联关系,并创新性地利用双塔模型建模图像和文本模态之间的“弱相关”,这是文澜2.0 AI大模型取得突破性进展的关键点之一。
如何构建通用智能“底座”?
记者:面对多元行业、业务场景等,AI 需求呈现出碎片化、多样化的特点,针对此,AI大模型担任何种角色?
文继荣:如您所说,从各类电商平台的推荐与搜索到日常生活中的刷脸支付,现在我们生活的方方面面都离不开 AI的身影。为了满足这些需求,我们之前需要为每种特定场景收集大量的数据,再从中设计出专用于特定任务的模型。而AI大模型希望做到的就是能够基于这个模型整合各类需求,从而适应多种差异化的业务场景。
具体来说,AI大模型会作为一个多模态知识的提供者,其将从海量数据中学习到拥有极强泛化能力的知识,迁移到多样化的任务中,从而让使用者可以用较小的数据量快速将模型适配到特定场景的需求任务,以应对现实生活中业务场景多元、模型需求多样化的情况。当前也有相关的研究,如prompt(提示)对应的新训练范式,将多种差异化的任务适配到统一的预训练大模型框架中,从而用一个AI大模型来解决多种差异化问题,极大地提高了模型的利用率。
曹峰:AI在赋能千行百业并加速向垂直场景渗透的过程中,面临着需求碎片化、多样化的问题,这正是AI大模型研发和应用的核心驱动力。AI大模型能有效地从海量无标注数据中学习并总结不同行业、不同场景、不同任务下的基础共性知识,以备下游任务运用。将具备通用基础能力的AI大模型作为智能底座,结合行业知识和场景数据进行微调,能有效应对碎片化和多样化需求,并大幅缩减研发、定制、部署等工程化过程中的人力、时间、费用等成本投入。
大模型未来发展向何方?
记者:从深度学习发展历程来看,模型精度提升主要依赖网络在结构上的变革,未来AI大模型的发展方向是什么?
曹峰:模型精度和性能的提升涉及多个方面,如增加模型参数、设计网络结构、优化训练策略、提升数据质量,其中最为核心的是深度神经网络的结构设计。
未来,AI大模型有三个重要的发展方向。一是有效平衡模型精度和参数规模。参数量对AI大模型的能力泛化、知识承载具有重要影响,未来亟须借助知识蒸馏、模型裁剪等技术实现大小模型协同。二是持续加强模型框架设计和优化。积极探索Transformer以外的模型基础框架,加强对模型结构的理论研究和工程实践,从本质上、源头上提升AI大模型精度。三是充分释放算力、算法、数据、知识等要素的发展红利。
当前吃大数据、用大集群、调大参数的AI大模型已初步实现对AI要素的充分利用,进一步提升算力效率、优化算法能力、提高数据质量、融入行业知识仍将对AI大模型的发展产生深远影响。
文继荣:这是一个很值得我们进一步思考的问题。首先,模型精度提升并不仅仅依赖于网络结构的变革,训练范式、优化目标等的改进也为模型精度提升带来了很大影响。而无论是模型结构还是训练范式等的变革,其实质是我们对于人工智能模型的理解进一步加深。
随着Transformer结构在自然语言处理、音频处理、计算机视觉等各大领域的流行,我们越来越意识到可以使用统一的网络结构处理各个模态数据,让机器像人一样从多模态的数据中学习知识并应用到差异化的场景中,这也是我们设计文澜这个多模态大模型的初衷。
同时,我们希望模型学到的不仅仅是海量训练数据中的关联关系,而是理解蕴藏在数据中的逻辑和客观规律,从而让模型真正地理解世界,实现通用人工智能,这是我们一直追求的目标。
小贴士
对AI大模型的期待
我们希望AI大模型能像人脑一样学习、思考甚至是创造。
如何提升模型精度?
对AI大模型的期待模型精度和性能的提升涉及多个方面,如增加模型参数、设计网络结构、优化训练策略、提升数据质量,其中最为核心的是深度神经网络的结构设计。
挑战与对策体
量庞大,研发部署困难重重,应加强AI大模型轻量化技术研发。
评价单一,运用效能难以显现,应完善AI大模型评估指标体系。
应用受限,产品形态仍在探索,应鼓励AI大模型应用服务创新。
大模型如何推进AI赋能千行百业?
AI大模型能有效从海量无标注数据中学习并总结不同行业、不同场景、不同任务下的基础共性知识。
以具备通用基础能力的AI大模型作为智能底座,结合行业知识和场景数据进行微调,能有效应对碎片化和多样化需求,并大幅缩减研发、定制、部署等工程化过程中的人力、时间、费用等成本投入。
未来发展向何方?
一是有效平衡模型精度和参数规模,借助知识蒸馏、模型裁剪等技术实现大小模型协同。二是持续加强模型框架设计和优化,从本质上、源头上提升AI大模型精度。三是充分释放算力、算法、数据、知识等要素的发展红利。
我们希望模型学到的不仅仅是海量训练数据中的关联关系,而是理解蕴藏在数据中的逻辑和客观规律。