百度文心一言发布会详细纪要

国君计算机计算机文艺复兴 2023-03-17

产业调研系列

李彦宏（创始人）：其实百度在过去的十几年当中，一直在AI的研发上坚持投入。文心大模型第一个版本2019年就发布了，此后每年都要发布一个新版本。所以从这个意义上说，文心一言的发布只是我们过去多年努力的自然延续。

但毕竟今天的文心一言，是要对标ChatGPT，甚至要对标GPT-4，这个门槛还是很高的。全球的大厂当中，百度是第一个发布的。微软是直接调用OpenAI，Google、Facebook、Meta、Amazon他们现在都没有真正发布同类型、同级别的产品，所以百度是第一个。

在内测的过程当中体验到文心一言的能力，确实也不能叫做完美。但是为什么今天要发布？因为有市场需求，百度的各个产品线，从搜索到智能云到自动驾驶到小度，都在等着要用这样的技术。更重要的是我们的客户，我们的合作伙伴等着用这样的技术，大家都在催我们需要尽早把它发布出来，大语言模型产品一旦发布出来，它就会获得真实的用户反馈，而有了用户反馈，它的迭代速度就会非常快，它的能力提升就会非常快。

下面用5个案例来分别展示文心一言的能力。第一个是文学创作，第二个是商业文案的创作，第三个数理逻辑的推算，第四个是中文的理解，第五个是多模态的生成。

第一个例子，是文学创作。我们看一个有关《三体》的例子，先问《三体》的作者是哪里人，它先要知道《三体》作者是谁，然后要懂得“哪里人”是什么意思。“可以总结一下三体的核心内容吗？”，“如果要续写的话，可以从哪些角度出发？”，它总结了《三体》的第一部在讲什么，第二部在讲什么，第三部在讲什么，续写又是角色的塑造、情节设计、文化背景、哲学思考。我们追问“如何从哲学角度来进行续写？生命的意义，人与宇宙的关系，道德和伦理，价值和信仰，科技和人文的关系”。再问“电视剧《三体》的演员都有哪些？”，它比较准确地列出了一系列参与的演员。这总共有6轮对话，这些对话体现出文心一言各方面的能力，比如总结分析的能力、推理的能力。事实性的东西对于一个搜索引擎来说不是那么难，但是对于一个生成式预训练大模型来说，出错的概率还是挺高的，这些问题都答对相当不容易，因为百度的文心一言采用了知识增强和检索增强。我们有5500亿的事实知识在训练数据里，所以可以保证事实性的问题回答比较准确。

第二个例子，是商业文案的创作。问“如果要成立一个用大模型服务中小企业数字化升级的科技服务公司，应该给它起个什么名字？”，信智科技、数智云图、云集科技、意向科技、魔方科技。“给我起一个公司的服务slogan，来表达共赢的概念？”，答案就是“数智共赢智慧未来”。“帮我生成一篇公司成立的新闻稿，数智云图，以共赢的服务理念，用大模型来服务中小企业的数字化升级，要求是600字左右”，也生成了相应的新闻稿。这里涉及到相应的理解能力、表达能力、创意创作能力。这些能力都是没有办法教文心一言的。那么怎么做到的？其实还是要有好的技术，要有大的数据。人们说读书破万卷，文心一言可能读了千亿万亿的页面，用了几十亿的搜索请求，用了很多的图片，用了我们全部知识图谱的5500亿的事实，在不断的训练过程当中，逐步具备了一些比较通用的能力。大模型当参数达到千亿量级，又有足够多的训练语料数据来进行训练时，就会发生智能涌现，就是没有教过它的能力它也会。

第三个例子，演示数理逻辑的推算。来玩一个鸡兔同笼的游戏，问有多少只鸡，多少只兔子，文心一言说这题好像出的不太对，算不出来。我们再改一下，重新问一遍。解题思路是这样的，答案是“3只鸡和6只兔子。在这两轮提问当中展现出来的是文心一言的逻辑推理能力”。这方面它不仅知道题出的对不对，也不仅能够给出答案，也给出了解题的步骤。这很像是小学生在解应用题，它是有逻辑的，一步一步的推理出来的。我们在过去一个月左右的内测当中，不断看到文心一言在进步，虽然现在还不敢说百分之百这类型的题都能做对，但是它的能力已经是挺强的了。

第四个例子，对中文的理解。因为百度是植根于中国市场的，理应在中文的理解和对中国文化的了解上，超出世界上任何一个预训练大模型。“洛阳纸贵是什么意思？”，必须得知道这个成语，才能答对。“当时洛阳的纸到底有多贵？”，这就有点冷知识了，不是那么容易能够答对的。“这个成语在经济学原理里对应的理论是什么？”，回答“这是一个需求定律，就是物以稀为贵”。最后“用洛阳纸贵来写一首藏头诗”，回答“洛阳城里春光好，阳燕无双不负赏。纸贵漫天诗词赋，贵比黄金乐未央”。所以看到文心一言中文的理解能力，对中国文化的熟悉程度是相当高的。文心一言也可以处理英文，只不过对英文的理解和处理能力现在还没有中文这么好，部分原因是我们在训练数据里，给它注入的英文数据还没有那么多。未来我们会逐步的训练它英文以及其他语种的能力，以及跨语种的翻译推理能力。

第5个例子，是多模态的生成。“请为2023世界智能交通大会来创作一张海报”，看到它的反应是很快的，而且这个海报很有未来感，也很贴切。“你认为智能交通最适合哪个城市发展？”，回答“上海、北京、广州、成都”。“请用四川话将以上内容讲出来”，“请将以上内容生成视频”，大家看到生成的视频也非常相关，而且还挺美。这四次交互分别看到它可以用文字生成图片，可以回答有一定创造性的问题，可以用语音方言（四川话、广东话、东北话、闽南话），最后用这些内容来生成视频。前三个现在所有文心一言的用户都可以用了。第四个因为计算成本比较高，我们还没有对所有用户开放。今天大概每天有几万篇的百家号文章，通过这个技术自动转成视频进行分发，这些技术我们都已经都把它连起来了。

从文心一言的表现来看，它已经具备了很多像人类对自然语言的理解能力、表达能力、逻辑推理能力，这些的能力还在不断完善的过程当中。我们有时候用会感受到惊喜，有时候也会发现明显的错误，但是有一点是肯定的，就是它进步的速度非常快，在未来的一段时间当中，一定是日新月异的状态。而且我们通过对文心语言大模型进行微调，让它适配百度各种各样的产品，就可以在用户界面，或者在用户体验上展示出惊人的亲和力，让每一个产品都离自己的客户更近。所以文心一言会成为每一人必不可少的生产力工具。

无论是什么样的公司，都不可能在几个月的时间里靠突击做出来这样的技术。它是百度十几年超大规模的研发投入，慢慢积累出来的。所以进一步解释文心一言到底怎么能做出来的，需要把IT领域最近发生的一些变化跟大家分享。

过去IT的技术栈分为3层，第层是芯片层，上面是操作系统层，再往上是应用层或者软件层。在PC时代、移动互联网时代都是这样，但是当我们进入AI时代，IT技术栈从3层变为了4层：1、芯片层。这个芯片层跟过去芯片也不太一样，过去以CPU为主，未来很可能会以GPU为主了。2、框架层。什么叫框架？像百度飞桨叫做框架。3、模型层，文心一言就处在模型层。文心是百度整个模型的一个品牌，AI时代的应用会基于这些大模型来进行开发。以后不管是搜索也好，聊天也好，或者其他的应用都会是基于预训练大模型来进行开发。百度搜索每天有数十亿的需求，也就意味着文心大模型每天在服务数十亿的用户。只不过在服务搜索的时候，它是一个判别式的语言大模型。今天文心一言是一个生成式的语言大模型。为什么讲技术栈的变化，因为生成式的AI是非常耗算力的，要有大算力，要有大模型，要有大数据，费用相当的昂贵。

四层架构之间相互进行协同，不断地进行优化，就可以使它的效率比别人高很多，显著地降低成本。尤其是框架层、模型层之间的协同，过去几个月我们已经体会到了这方面来的收益。在全球范围内，芯片、框架、模型、应用这4层都有领先产品的公司，可以说是绝无仅有，百度就是那个唯一。我们的优势非常独特，这个优势在未来文心的迭代速度上会有明显的感受。从2月7号我们正式官宣文心一言要发布以来，也就一个多月的时间，已经有650家的企业宣布接入文心一言的生态，这意味着很多企业其实已经明白，这是一个大机会，这是任何一个企业都不应该错过的的机会。生成式AI，它是代表了一个新的技术范式，它会带来市场需求的爆发性增长，商业价值的释放会是前所未有的指数级。对于文心一言的定位，我们认为它是在通用的基础模型之上，在4层结构上可以有能源大模型、交通大模型、媒体大模型等等，可以做成适合于千行百业的、服务各种各样应用的模型。所以文心一言不仅仅会影响到搜索，也不仅仅会影响到互联网公司，它会影响到每一家公司，由于它超强的自然语言理解能力、表达能力以及推理能力，它可以使得任何一个公司都能离自己的客户更近，也就是说任何一个公司都有可能利用这些能力做出更好的客户体验，从而更好地抓住客户，建立更强的竞争优势。所以文心一言对于每一个企业都是机会，甚至对于每一个人都会有很大的影响。

有机构预测到2030年，脑力劳动者的生产效率会因为人工智能跟今天相比有4倍的提升，也就是说很多人的工作性质会发生不可逆转的改变。文心一的发布或者说生成式大模型的问世，会带来哪些创业机会、投资机会？我觉得有至少有三方面的机会。

首先，新型云计算。云计算今天最主要的商业模式叫做IAAS，公有云提供的基础云服务主要是算力。未来云计算公司主要的商业模式会变成Model As A Service，以后的应用会建立在大模型上，而不是建立在过去的云计算算力或者存储上。这对于云计算产业是改变游戏规则的。以前的基础云服务，看算力，看存储，今天会看模型好不好，框架好不好，芯片框架、模型、应用之间协同的好不好，效率高不高。百度智能云会基于这套架构对外提供服务，赋能千行百业。它会使得各行各业提升效率，在各自领域的应用中有很大的商业机会，有很大的效率提升空间。随后过两个星期，我们智能运营会有一个单独的发布会，会具体地介绍相关的产品，既有公有云服务，也可以做私有化部署。

第二类机会，行业模型精调。4层架构里模型层我们没有把文心放上去，而是放了各种各样的行业大模型，因为我们觉得很可能是存在一个中间层的。任何一个行业都有自己独特的数据，都有对行业的独特理解。数据的理解知识如果跟基础大模型进行结合，就会产生很强大的创造力、效率提升的能力。这些能力很可能不是百度所具备的，这些数据也不是别人愿意给到百度的。这些在各个行业的精调，可以避免基础模型容易犯的错误，它的实用性会更强。

第三类机会，应用开发。文字的生成、图像的生成、音频的生成以及数字人、3D能力一旦结合，再加上超强的理解能力和表达能力，会创造出很多新的可能性。所以大模型时代，真正最大的机会既不在基础服务，也不在这个行业。服务恰恰是在应用。就好像在移动互联网时代，最大的商业机会可能不是iOS或者安卓这样的操作系统，而是微信、抖音、淘宝应用一样。在人工智能时代，我相信一定会出现杀手级的应用、现象级的新产品，会不断看到里程碑事件的发生。

最后，在文心言发布之后，我们就会建立起一个好的反馈闭环，用户的真实反馈，开发者的模型迭代，以及开发者的调用之间，会形成一个正向的循环。给大家“士别三日当刮目相看”的惊喜。文心也不是中美科技对抗的工具，而是一代代百度技术人员在追寻让科技改变世界的梦想当中的一个自然结果，是我们服务亿万客户、赋能千行百业的平台，更是新驱动发展的最佳证明。

王海峰（CTO）：文心一言背后是全栈的人工智能技术，百度经过11年积累了全栈的人工智能技术，芯片层、框架层、模型层到应用层。文心一言的推出来源于这11年的积累，这四层之间形成了层到层到反馈、端到端的优化，尤其是模型层的文心大模型和框架层的飞桨（全称是产业级开源开放平台），在开发文心一言的过程中，它们的协同优化起到了至关重要的作用。

飞桨经过10年积累形成了完整的产业级深度学习开源开放平台，凝集了500多位开发者、20多家企业、60多万个模型，基于这个平台也为社会培养了300多万的AI人才。平台核心框架是开发、训练、推理部署。对于开发，动静一体的开发模式，既可以发挥动态图的灵活，也可以发挥静态图的高效。训练是深度学习框架最核心的部分，不仅要支持超大规模的训练，还要有产业级的数据处理能力。模型训练出来最终是为了应用，应用时会面对不同的场景、软硬件环境，有很多细致工作需要做，比如模型压缩、推理引擎、服务化部署等。很多深度学习开发的高手是从框架层开始，用这些框架来开发自己的应用。在飞桨平台上，开发者可以直接调用平台的模型库，几年下来积累了大量产业级的模型库，这几年着重发展的是文心大模型。在框架和模型的基础上，我们还提供丰富的端到端的开发套件、工具与组件，支持开发者完成开发和部署。

2019年发布第一个文心大模型，和如今的文心一言一样是自然语言处理模型，文心的名字与此有关，“文”是语言文字，“心”是希望技术能用心理解语言和服务客户，另一个出处是《文心雕龙》，我们希望细致地把这个模型做好。除了基础的自然语言1.0、2.0、3.0，我们也有很多跨语言模型、图网络模型、对话模型等，对话模型已在很多领域取得了应用成果。前两天中国人工智能协会发布了人工智能科技进步奖，我们是史上第一次拿到了该奖的特等奖。既有跨视觉和语言的模型，也有语音和语言、地理信息和语言跨模态的模型。同时也在延伸其他领域，例如生物技术大模型，可以进行化合物表征的学习、半导体结构预测等。在此基础上，我们已经和很多行业伙伴合作发布了行业大模型，未来会和行业领先企业一同打造领先的模型。有了这些模型以后，我们也会提供相应的工具和平台，比如数据的标注处理、模型的精调、压缩、部署等。

文心一言是基于百度多年在人工智能领域的积累，尤其是深度学习和大模型，水到渠成的成果。在开发过程中，一方面基于ERNIE知识增强模型，另一方面借助了PLATO对话模型。在此基础上，主要有6个核心技术模块：有监督精调、人类反馈的强化学习、提示、知识增强、检索增强、对话增强。

有监督精调的创新特色：1、面向中文。中文目前强于其他语言，训练更充分。2、服务应用。百度既有C端应用，也有很多B端客户，基于客户服务积累了很多对应用需求的理解。3、富含知识。基于知识图谱，不仅把知识用在知识增强过程中，而且产生了很多有效的用于有监督精调的数据。

人类反馈的强化学习在应用中至关重要，我们已经有了很多技术，但训练还不够充分，只有等使用用户的反馈后才能迭代。

对于一个千亿级参数的大语言模型，里面已经蕴含了很多的知识，如何找到合适的知识还有很多要做的事情，这是目前人工智能技术智能涌现的根本原因，提示的构建直接影响模型的能力。当一个用户输入，我们会用自动构建的方法，给他补充实例、提纲、规范等。大语言模型也会有错误，如果我们把已知的准确知识点补充进去有助于它表现更准确，这时知识增强、思维链就会起作用。

知识增强是百度的特色，文心大模型又叫知识增强大模型，知识增强一直是我们非常重视的。知识增强可以使模型效率更高、效果更好，比如用更少的参数达到和用更多参数模型一样的效果，同时效率更高。这涉及知识内化和知识外用两大技术，知识内化是把知识内化到模型参数中，知识外用是知识没有内化在模型参数中，但在推理过程中去用外部知识。在训练过程中，我们基于语义单元来学习，效率更高而且效果更好。我们也可以通过知识图谱构建训练数据，达到知识内化到效果。知识外用涉及基于大知识图谱进行知识推理，基于知识构架提示。

百度在搜索方面有领先的技术和产品，发展了20多年，基本的底层技术原理一直是关键词匹配和链接分析。搜索引擎技术一直在变迁，2010年百度将机器学习技术引入到搜索，2013年百度将深度学习技术引入到搜索，到2023年搜索引擎架构发生了变化，基于语义理解和匹配的新一代检索架构，该架构和文心模型天然有着密不可分的关联。生成模型时可以进行优化，可以把检索里面有价值的结果、精准的信息带入生成，使生成效果更好。

百度在对话方面也有很多年的积累，对话时有上下文，所以涉及记忆机制和上下文的理解，如果是长对话，还涉及对话规划。

总结：文心一言既有大家熟知的技术，也有百度特有的技术（但训练得不够充分），相信后续会发挥出更强的能力。

深度学习层和大模型层之间做链接和优化是非常有价值的，飞桨支撑了文心一言，使其效果更好、效率更高、性能更强。从开发训练角度，动静统一的开发范式、自适应分布式架构等领先技术都在文心一言的开发过程中起到了很大作用。当前类似文心一言的大模型技术，推理过程中对算力的消耗很大，如何让推理效率更高是至关重要的，不仅是成本问题，而且是更广泛应用的问题，过去几年百度已经取得了很大进展，离不开飞桨推理部署的能力。

从今天起就会开始邀测，邀测既有个人用户，也有百度智能云的客户。

合规声明：本文节选自3月16日百度文心一言发布会纪要，属于公开资料，如需纪要全文请后台留言。