查看原文
其他

寻找AI技术潜在应用场景的方法论是什么?| 齐佳宏专栏

齐佳宏 计算机文艺复兴 2023-06-22


齐佳宏专栏1

1. 序言

虽然目前市场上已经有很多关于AI潜在落地场景的讨论,但讨论方法主要是基于“开脑洞”式的穷举或是基于已有落地场景的归纳。而微软、Open AI以及此前MIT和CMU学者的讨论落脚点都在于AI对不同职业的替代程度。


所以,我们希望构建一套“标准”来进行“AI落地场景的发现”。



➢ 只聚焦在“前端应用的落地场景”而不讨论后端各大模型孰优孰劣。因为能够自建大模型的玩家很少,且大模型作为一个复杂系统,每个模型都会有自己的一些特点和优势指标,事实上我们是不太可能通过一些简单的量化指标客观评估各家模型的能力,单纯问“如果GPT-4是100分,百度文心一言大概多少分”没有答案也没有意义。


➢ 我们希望提出一些标准,来粗略描绘现阶段AI能够落地的“场景边界”。我们希望基于另一种思路展开讨论:基于AI的技术局限和商业局限提出一些标准,来粗略勾勒我们心中现阶段AI能够落地的“场景边界”。打一个比方,我们可以把所有的潜在落地场景看作一张纸,而每一条标准就像是一条线,把这张纸分成不同的部分,多条标准交叉就会勾勒出满足各个条件或至少多数条件的交集。



文中“标准”的提出主要基于几方面的考虑:

➢ 某种能力是否可以被 AI 技术实现;


➢ 商业方面是否具备可行性; 


➢ 基于已落地场景和落地形式的归纳。这一条仅仅作为辅助,原因在于基于现有落地案例的小样本进行归纳很有可能会让我们得出一些“虚假”的因果关系。


具体的思路是: 

利用 AI 的技术局限性找到现阶段的“AI 落地场景的技术边界”(对于是否能落地,我们的判断标准是能不能彻底解决问题,而不是能否“将就用”);


➢ 在技术可达成的范围内剔除掉缺乏商业价值的集合,得到可落地的商业场景边界; 


➢ 在这个基础上,我们展开一些衍生讨论,讨论的重点在于商业价值的归属权。



在文中我们会举出各种例子,对于这些例子,需要注意的是:

➢ 例子是为了方便读者理解我们提出的标准,而不是希望对场景进行穷举; 


➢ 在选择例子的过程中,我们希望场景越小、越具象越好,而并不希望给出的案例落脚在诸如 AI 在教育领域落地容易、在医疗领域落地难之类。因为每个大行业中都存在一些 AI 可以落地的场景,而另一部分场景中 AI 的落地就比较难,把场景框得太大是没有意义的。 


需要说明的是:

第一,我们把讨论语境设定在当下可预见的范围内,着眼在全球。如果模型开发范式再次发生转换或是 GPT-5 等大模型“涌现”出新的重要能力,或是法律法规、伦理等边界发生变化,都不在我们目前的讨论范围之内。就像 MIT 和 CMU 教授在《What Can Machines Learn, and What Does It Mean for Occupations and the Economy?》中提出的很多标准在大模型出现后已不再适用。同时,由于着眼点在全球,文中不讨论由于 GPU 短缺、中文语料质量不如英文等因素造成的局限。


第二,我们只讨论“大脑”层面的问题,而不讨论“手”的问题。很显然,部分对物理世界实操要求较高的场景对现阶段大模型而言是很难落地的,这是自动化等其他方面造成的限制,不在我们的讨论范围内。 


第三,这只是一个初步的讨论,至少受限于以下一些方面:


  1. 对于技术的理解偏差。笔者毕业于力学系,并未直接从事过 AI 相关的科学研究,对于 AI 大模型的能力边界的理解可能存在偏差;


  2. 对于其他行业进展的了解程度不足。笔者聚焦于计算机行业研究,对于其他各个行业实际情况的了解可能存在滞后或偏差;


  3. 各个标准之间可能存在相关性,而不是完全独立的;


  4. 标准与场景之间存在“虚假”的因果关系。


我们认为,寻找标准的方式甚至比标准本身更重要。事实上,比起“每个标准都一定正确”,我们更希望的是在这里提供一个讨论的基点,让学界、业界、投资者等在思考 AI 大模型对于自身行业潜在赋能场景的时候,不单纯依赖“开脑洞”式的穷举法,或者直接喊出“万物皆可 AI”,而是共同构建一套标准去进行“AI落地场景发现”。这是一个渐进明晰的过程,欢迎各位读者对我们提出的标准进行讨论、完善和修正。


2. 技术可行性:寻找现阶段 AI 的“技术能力边界”

我们把目前的大模型假设成“巨型鹦鹉”,而不是“乌鸦”(对于“鹦鹉智能”和“乌鸦智能”的表述可参照北京大学人工智能研究院朱松纯教授的相关文章,即大模型并不能真正理解自然语言。因为如果给出“GPT-4 已经具备完全意义上的乌鸦智能”的结论,就意味着 AGI 已经到来,所有的讨论已经毫无意义。 


技术边界的讨论的起始点来自微软的论文《Sparks of Artificial General Intelligence: Early experiments with GPT-4》,这篇文章列出了基于测评得出的 GPT-4 的局限性。



在此基础上,我们根据下面几条标准把部分局限性剔除:


  1. 这条局限是属于大模型的还是只属于 GPT 系列的,比如 Encoder-Decoder 模式更适合自然语言理解,而以GPT为代表的 Decoder-only 模式更适合自然语言生成。如果某条局限性仅仅属于GPT系列,我们把它剔除;


  2. 这条局限是大模型和小模型同时存在,还是只有大模型存在?对于后者,我们把它删除。比如大模型的预训练时间必然是非常久的,但小模型不存在这个问题;


  3. 这些局限是不是中短期内有可能解决的,比如 GPT 系列模型可以直接读取的文本长度在快速增加,从 GPT-3.5 的4096个上升到了 GPT-4 的32000个,而且可以预见会持续增加。如果这些局限有希望在中短期内通过渐进式的技术突破被解决,我们把它剔除。



在按照前述标准把表格里的部分局限性剔除,并把剩余局限性进行重新归类后,我们得出了现有范式下 AI 落地在技术方面的掣肘: 


能力可解释性边界。“信心校准”、“透明度、可解释性和一致性”、“对输入的敏感性”局限都可以归结为 AI 的最根本问题:深度学习是否是达成 AGI 的可行技术路径?换言之,目前预训练大模型在“深度学习+人类反馈强化学习”的统计学框架下表现出了一定程度的“乌鸦智能”,这种智能是基于模型对于自然语言的理解或依然是“鹦鹉学舌”?在我们的弱假设下(大模型是巨型鹦鹉而不是乌鸦),这个问题构成了现阶段 AI 的主要技术边界。 


创造性边界。除上述局限之外,仅剩的“规划和概念性跳跃”局限是否可以被第一个问题所囊括?就像“尤里卡时刻”能否理解成人类智力中难以被触达的“Corner Case”?如果这个问题的答案为“是”,AI 所有的技术边界将“坍缩”成这 AI 的本质问题。以笔者的能力,尚无法判断这两个“边界”之间的关系。在文中,我们权且把两个边界作为独立边界分别讨论。


2.1. 可解释性边界:模型能力难以被解释是AI最核心的问题


如前文所述,由于GPT-3的“理解”能力是“涌现”的,目前对这些能力来源的可解释性比较差。我们假设目前的大模型是“巨型鹦鹉”,在现阶段技术范式下没有办法突破“信心校准”、“透明度、可解释性和一致性”、“对输入的敏感性”等方面的局限。


我们把这些技术局限按照递进关系归结为三个问题:


➢ 是否有标准答案?


➢ 如果有标准答案(最优解),这个答案可以被 AI 找到么? 


➢ 如果 AI 找不到标准答案,我们能不能接受?



第一个分岔路口:某个问题有标准答案么?

对于没有标准答案的场景,AI 的落地似乎是没有什么技术限制的。这部分包含了生成式 AI 的目前最为常见的一些应用场景,比如文字生成图片、生成文章摘要、生成营销文案等。 


我们认为,由于:


➢ 这些问题的答案比较开放,不存在绝对的错误答案; 


➢ 如果对于生成的答案不满意可以通过新增条件的方式让模型对答案进行修改; 


➢ 人工同样可以重新修改答案;


等原因,这些场景中 AI 的落地很难看到对“可解释性推理能力”的高要求,技术上并不存在掣肘。 


当然,在这类场景中,可能会存在无法保证严格遵守道德和法律规定的问题,比如涉及隐私、著作权等方面的风险,但这些风险可以通过商务条款进行规避,都属于“商业风险”,被我们归为“商业边界”范畴。


第二个分叉路口:如果有标准答案,AI 能帮助我们找到这个标准答案么? 


我们认为,这是一个“有限场景”和“无限场景”的问题。在所有情况可以被遍历的场景中,AI 的任务是在所有可能的方案里寻找“最优解”,这对 AI 来说是容易的;反之则是困难的。 


比如,在棋类运动中“达到人类智力边界”对 AI 来说是比较容易的,本质上在于它是一个“有标准答案且情况可以被遍历”的场景。上一次AI形成全球范围的讨论毫无疑问是2016年AlphaGo战胜李世石的时候。我们把这个例子纳入到我们的讨论。很显然,棋类运动是典型的“有限场景”的例子。无论是围棋还是象棋,都是在一套特定的规则框架下战胜对手,每一步可以“落子”的情况都是有限的集合,换句话说,所有可能性是可以被遍历的。这种场景本质上是在所有可能的方案里寻找“最优解”,AI 的计算优势被发挥得淋漓尽致。 


那么,什么样的场景是“有标准答案且情况无法被遍历”的场景?


我们认为,一个典型的场景就是公开道路自动驾驶。事实上,我们理论上永远没有办法通过路测实现对路况的全覆盖。Waymo 是自动驾驶领域的霸主,但是在过去很多年里,在感知问题、行人问题、软件问题等方面,Waymo 的接管频率并没有收敛(基于加州路测报告)。毫无疑问,Waymo 的自动驾驶能力是逐年增强的;那么,Waymo 在软件问题、行人问题等方面的表观“退步”就只能用它在覆盖更多的 corner case 来解释。比如,在高速公路等路况相对简单的场景下测试获得好的结果之后,Waymo 会把路测地点逐渐向难度更高的城区街道进行拓展。 


需要说明的是,我们并不是在否认 AI 在自动驾驶中的价值,包括目前海外已经有很多厂商通过 AI 进行数据生成,而不再单纯用自动驾驶车队,大大提高了效率。但我们认为,通过 AI 实现对路况的遍历是无法实现的,这会始终成为开放道路自动驾驶落地的重要掣肘。





第三个分岔路口:如果 AI 真的找不到正确答案(哪怕是局部最优解),我们能接受么?


仍采用我们最初的假设,在“深度学习+强化学习”的技术路径下,虽然大模型“涌现”出了一定的推理能力,但仍不是完全意义上的 AGI。在这种情况下,一旦所有情况无法被遍历,必然会出现 Bad Case。那么,我们对于这些 Bad Case 能接受么? 


讨论到这一阶段,AI 的落地难度变成了错误容忍度的问题。毫无疑问,在所有无法实现对 Corner Case 进行遍历的情况下,如果我们对于 BadCase 的容忍度足够高,AI 的落地就变得非常顺畅,反之,AI 落地艰难。 


我们通过一正一反两个例子来说明我们的观点: 


➢ 正向例子:“因材施教”是一个典型的对于错误的容忍度较高的景。在教育领域,AI 的典型应用场景是针对学生在学习过程中产生的数据做分析,判断学生对各个知识点的掌握程度,再有针对性地为学生做题目推送。在这个过程中,必然会存在一些推送不当的情况,但推送错误所造成的损失是非常小的,只要绝大部分的题目是推送恰当的,对用户来说就是一款好产品。即如果推送的 10 道题中有 7 道是合适的,3 道是不恰当的,所有学生和家长一定是“交口称赞”而不是“一片骂声”。在这类场景下,用户关心的是“整体效果”。 


反向例子:内科手术的医疗影像是对错误容忍度非常低的场景。由于医疗事故会产生非常严重的后果,导致在评价产品效果的时候更多地关注误判的案例,而不是整体的正确率。对于医疗影像而言,99%的可靠性也是不能接受的,因为这意味着每 100 次诊断都可能会造成一次医疗事故。而且,在这种场景中,并不能认为 AI 比医生的准确率高就能够快速落地,因为医生的每次诊断都是需要签字的,医疗事故的责任划分相对清晰;而 AI 影像一旦出现错误,责任的划分是不清晰的。



2.2. 创造性边界:AI 不创造知识,AI 只是知识的搬运工


所有基于现有知识的“裁剪”和“缝合”都不构成 AI 的技术边界,而对于新知识的“创造”无法通过 AI 独立完成,AI 大模型的边界是人类的已知知识。换言之,AI 不创造知识,AI 只是知识的搬运工。 


在微软的报告中,把“创造新知”类的任务叫做不连续的任务。这些任务不能单纯以渐进或连续的方式完成,而是需要某种“尤里卡”的想法,在解决任务的过程中实现不连续的飞跃。比如牛顿看到苹果落地发现了万有引力,阿基米德洗澡时发现了浮力定律,这些场景涉及到发现或者发明一种看待事物或构建问题的新方法。 


比较有意思的是,同一个场景下可能同时存在“渐进式任务”和“不连续任务”,前者不构成技术局限,而后者是 AI 的技术边界。


我们用 AI 制药中两个可能出现的环节作为例子来进行说明:


➢ 2016 年左右,中科大联合多个研究小组发现了一种能用于早期诊断阿尔茨海默症的生物标志物——β分泌酶,患者大脑中这种酶的活性普遍较高。在此基础上,医疗工作者希望努力找到一种方式来降低这种酶的活性,其中可能涉及寻找靶点的工作。 


➢ 在这个过程中,“抑制β分泌酶的活性可能可以治疗阿兹海默”、“某个分子构型能够实现降低β分泌酶活性的效果”这两个猜想都需要人类的经验和“灵光一现”,这是 AI 无法代替的; 


➢ 而后续的工作就类似于“搜索”逻辑,在一系列答案中寻找一个可行的解。就像《复仇者联盟3》里奇异博士通过对 14000605 种结局的“搜索”找到了能战胜灭霸的“局部最优解”,这是 AI 能有用武之地的环节。 


同样,我们还可以给出一个数学证明方面的例子。AI 大模型可以实现对数学定理的证明。比如在微软对于 GPT-4 的测评报告中有一个例子,表明 GPT-4 可以对“有无限多的质数”给出证明过程。


但我们认为,证明的实现有两个基本的前提:


猜想已经被提出。人类必须提出一个准确的目标,而不能让大模型自己提出猜想; 


这个猜想已经被人类证明从而成为了定理。如果我们认为大模型是“巨型鹦鹉”,那么人类的已知知识就是其边界。换言之,GPT 是无法去证明哥德巴赫猜想或者黎曼猜想的。



3. 商业可行性:在技术可行的前提下,寻找AI落地的商业边界


技术上可实现并不意味着商业上可行,我们希望在技术可实现的范围内剔除掉缺乏商业价值的场景。


对于IT公司而言,赚的都是帮助客户额外赚到的钱或者帮助客户省下的钱。在“既不能赚钱又不能省钱的场景”下,大模型显然是很难落地的。


我们认为,除了大模型的拥有方直接“下场”的个别场景外,大模型落地的绝大部分场景在商业模式上可以归结为B2B2C和B2B两类,前者大致对应“帮客户赚钱”的逻辑,后者大致对应“帮客户省钱”的逻辑。广义来看,甚至Copilot也可以认为是一个特殊的B2B2C场景,即“Open AI-微软-消费者”,属于“Open AI帮微软赚钱”的场景。



下面我们对两种场景分开讨论。


3.1. 帮客户赚钱:技术差异需被终端用户感知,并能影响消费行为


如果我们把大模型厂商作为独立供应方,“帮客户赚钱”的场景在商业模式上很显然是“B2B2C”。对于这类场景,我们认为AI是否有商业价值核心在于两个问题:


➢ AI技术差异能否形成代差?对于终端用户而言这种技术差异是不是足够可感知的?


➢ 如果技术差异可以被感知,能否能够直接影响消费者的消费行为?


在某个场景下,如果上述两个问题的答案都是“是”,AI的落地会非常快;反之,AI技术的落地就更多取决于B端客户的决策了。


智能语音助手可能是个比较合适的例子。


➢ 第一阶段的故事,Iphone4S的热销很大程度上归功于Siri。


2011年10月4日,Siri正式发布。作为全球首个智能语音助手,Siri一经上市就迅速点燃了市场的热情,首个搭载Siri的机型——iPhone4S在推出后的第一个周末就售出400万部,并带动2011Q4苹果手机销量大幅提升至3704万台(单季环比增速+117%),占2011年全年销售量的40%。



➢ 第二阶段的故事,现在没人会因为Siri买Iphone12。


一个非常有意思的现象是,现在不会有任何消费者再因为Siri选择苹果了,背后的原因是什么?一个最为直观的回答是:因为现在很多品牌都有了同样的功能。但事实真的是这样么?我们试想一下,如果Siri能够实现“技术代差”,做到一些其他语音助手无法实现的功能,情况显然不会如此,甚至我们对于ChatGPT的惊叹程度也要打一些折扣。


但实时情况是,Siri和其他语音助手之间的“技术代差”并不存在。


一个最简单的例子:当我们对Siri说“推荐金融街附近的餐厅”时,它马上给出了很多选项,把任务完成的很好。但是,当我进一步和他对话,说“我想吃饭但不想吃永和大王”的时候,让人失望的事情发生了——Siri给我推荐了满屏幕的永和大王。如果我们把问题换成“我想住酒店但不住汉庭”,我们又将收获满屏幕的汉庭门店。这个小测试说明什么?说明此前各个手机智能语音助手背后的本质还是填槽,通过对话抓取关键词,当系统把所需要的关键词都收集完之后就可以输出结果,而这样的技术框架是没有办法做即使看起来很简单的逻辑判断的。


如果我们用华为语音助手做同样的测试,结果是一样的。换句话说,此前大家的底层技术逻辑是一样的。在这种情况下,可能Siri的技术做到了80分,华为只做到了70分,但在用户体验上,二者是没有差异的。毕竟“他能做的我也能做,我做不了的他也做不了”。在这个阶段,技术上的差异不会影响消费者的消费选择。我们认为,这才是没有人会因为Siri去买iPhone12的底层逻辑。



第三阶段的故事,阿里大模型团队依靠知名脱口秀演员鸟鸟的音频做出“鸟鸟分鸟”版智能音箱,AI大模型是否会重新影响消费行为?


相关测评视频显示,该智能音箱所表现出的多轮对话、个性化形象塑造等方面的能力远超以往所有的智能语音助手或智能音箱。新版天猫精灵进入市场后,有多少人会因为其大模型加持下产生的新能力选择天猫精灵?


我们认为,这仅仅取决于两个因素:第一,新技术相对于之前有多少“质变”以致于让“技术代差”足够被消费者所感知;第二,其他玩家利用大模型“复现”其新能力需要多长时间。



毕竟,比起很多其他炫酷的科技概念,所有人都认为AGI是产业趋势,而且这一趋势必然能够实现,分歧仅仅在于技术路径和时间。AGI这场仗没有哪家巨头输得起。就像Siri出现后,谷歌在第二年就发布了Google Now;ChatGPT发布后仅仅不到一个季度,谷歌就投资了ChatGPT的竞品Anthropic,甚至可以预见的是,如果之后再次出现“Siri”或是“ChatGPT”,各家大厂的反应也会是一样的。


3.2. 帮客户省钱:“降本增效”的潜力需要足够大


能够帮客户省钱的场景中,AI的落地也具备商业落地价值。在这类场景中,AI潜在商业价值的大小取决于“降本增效”的潜力。


由于帮客户省钱的主要逻辑在于“模型可以帮助员工提升工作效率,从而对部分原有人员进行替代”,所以我们把AI的“降本增效”潜能归结为下面的公式:



从公式中我们可以发现,从“降本增效”的角度,AI在某个场景中落地的价值潜力主要取决于两个因素:


➢ 这个场景中有多大比例的员工的工作量会由于AI大模型的出现而受到影响;


➢ 这些员工的任务中有多大比例可以被AI大模型替代。


我们发现问题可以从“场景层面AI能够提供多大的降本增效价值”转化为“该场景中劳动力可以被AI替代的比例有多大”。而对于后一个问题,我们完全可以借用Open AI对于AI大模型对不同职业影响情况的讨论。(可参照《GPTs are GPTs An Early Look at the Labor Market Impact》)


Open AI在报告中给出了GPT-4或LLM对不同职业的替代程度的讨论。在Open AI的讨论中定义了“暴露百分比”指标,用来表征某个职业的任务中有多大比例可以被GPT-4或基于GPT-4开发的其他软件所替代,其简化结论见下表(原文有针对更多职业的结论,这里不再列示):



在这里,我们给出关于电商智能客服和运营商线上客服的例子,方便读者更直观地理解上面的结论。


我们认为,虽然二者都属于“智能客服”,但电商智能客服场景中AI大模型的“降本增效”潜力远远高于运营商线上客服,前者落地更容易。核心原因在于:


电商智能客服:消费者使用智能客服的频率相对于消费的频率是比较高的,这就导致智能客服成本在电商场景中的成本占比较高,AI替代人工的“降本增效”价值较高;


运营商智能客服:对于消费者来说,智能客服是一个低频应用,导致智能客服成本在运营商场景中的成本占比比较低,AI替代人工的“降本增效”价值较低。



3.3. 总体来看,“赚钱逻辑”好于“省钱逻辑”


总体来看,“帮客户赚钱”的场景在商业落地方面会优于“帮客户省钱”的场景。


这个道理不止适用于AI的商业落地,也适用于绝大多数技术在商业场景中的落地。就像一个公司里“成本中心”的地位往往比不上“利润中心”。本质上还是因为收入端的商业价值是更清晰的,成本端的商业价值只能靠诸如“替代多少员工”的逻辑来计算,其商业价值和收入端相比是比较模糊的。尤其当终端场景属于“低频次,高消费”的场景时,做成本端的优化是一件“吃力不讨好”的事。


这里我们仅简单举出一个家装行业的例子作为对比。在家装行业中,前端的设计软件是帮助家装公司更快更好地画出设计效果图,从而吸引消费者,直接帮助家装公司提升收入,家装公司愿意买单。在这一领域诞生了三维家、酷家乐等等一系列公司。而后端的施工信息化本质上是通过把施工拆分成不同的施工节点,降低对于工人的能力要求,提升家装公司的规模效应。这类软件要真正有用,难度比前端设计软件高非常多,而且它的商业价值很难被量化。尤其在“低频次,高消费”的场景中,在用户的消费行为已经发生后,帮助客户提升消费体验是不经济的。对于这类软件,家装公司的买单意愿较弱。



4. 商业价值归属:探寻大模型带来的商业价值属于哪类玩家

在本章的讨论中,我们聚焦三个问题:


➢ 这些应用场景是否会被大模型厂商直接做掉?


➢ 垂直封闭大场景会不会发生业态变化?


➢ 这些场景是否是AI技术可以落地的新场景?


第一个问题的答案是显而易见的,这里只做简单讨论。毫无疑问,大模型的拥有者必然是IT巨头。


对于它们已经占据的核心场景,其他玩家没有机会。比如Copilot必然率先诞生在微软,GPT相关的医疗应用必然先用于Nuance(此前的全球智能语音龙头,已经被微软收购);同样地,如果在电商场景里出现一个能真正获取收入的AI大模型应用,它也大概率来自阿里巴巴。对于这类场景,我们不再讨论。


对于IT巨头而言,除了它们已经圈定的核心场景外,大概率是不会在其他场景中“亲自下场”的。原因很简单,过多的“亲自下场”不利于生态的构建,而大模型本身的商业价值远远大于某一个垂直场景应用。对大模型拥有者来说,生态壁垒要比特定垂直场景下的商业价值重要得多。


所以,我们把讨论聚焦在后两个问题上。


4.1. 开放场景更易“弯道超车”,封闭场景更易“自我迭代”


对于第二个问题的详细表述是:在此前小模型已经大规模落地的“大型垂域场景”中,到底是一些新玩家会依靠大模型更强大的模型能力弯道超车,还是在小模型时代处于领先的玩家利用大模型实现自我迭代?


我们认为,这是“模型能力”和“数据获取能力”的对决,背后反映的是“场景开放性”的问题。


对于场景开放性的讨论,我们仍然沿用此前的分类方式。需要注意的是,这里的划分标准是“大模型向小模型迁移时数据的可获得性,而不是训练大模型的数据的可获得性”:


开放场景:基于大模型训练小模型时,小模型精调所需要的数据可以通过公开手段获得。包括传统或者新兴的消费电子单品所衍生出来的各种应用,比如手机上的生态软件、智能音箱上的软件等等。这些都是典型的“开放场景”。在这类场景中,“弯道超车”的概率更高,因为开放场景意味着数据的可获得性更高,“模型能力”占据主导。


封闭场景:数据和特定类型的机构深度绑定,基于大模型的“二次开发”所需要的数据不容易获得,数据和渠道比模型能力本身更重要。2B或者2G的垂直领域中的很多细分赛道是“封闭场景”,比如医疗、教育、政法、工业等等。在这类场景中,数据是和特定类型的机构深度绑定的,以至于对于新进入者来说数据获取难度极大,而且难以在短时间内构建起和客户之间的信任关系,“数据获取能力和渠道优势”占据主导,小模型时代的领先者利用大模型实现“自我迭代”的概率更高。


当然,即使在同一个赛道中,不同的细分市场也可能分属于不同类型的场景。比如“课内教育”(比如科大讯飞基于学生学情数据推出个性化学习手册,该产品是个性化教辅)和“课外教育”(指市场上的各种学习机,而不是线下辅导班,下同)是两个完全不同的场景:


➢ 课外教育更偏向于“开放场景”,模型调教所需要的数据来自于学生使用学习机的过程,基于大模型的“二次开发”所需要的数据相对容易获得,大模型的出现更容易对行业格局产生影响;


➢ 课内教育更偏向于“封闭场景”,模型调优的数据来自于学校的周考、月考、课堂作业等,新进入者是很难获得的,再加之渠道方面的劣势,很难“后来者居上”,大模型的出现很难对行业格局产生影响。



综上,我们认为,预训练大模型确实在一定程度上导致了垂域场景中数据壁垒的降低。或许垂域数据看起来不再像之前那么重要,但依然很重要。


4.2. 对非IT巨头来说,大模型商业价值或更多来自“长尾场景”而非“头部场景”


对于第三个问题的详细表述是:对于一般企业来说,哪些场景才是大模型商用后AI更容易新增商业价值的场景?是“头部场景”还是“长尾场景”?


我们认为,是长尾场景。


在大模型出现之前,AI技术在长尾场景中的落地异常困难。这并非因为技术,而是成本。此前,业内更倾向于通过模型优化在参数并不大幅增加的情况下实现模型效果的提升。在这种路线下,AI技术的应用毫无疑问难以实现对长尾场景的下探。原因很简单,对于专用模型来说,需要针对场景进行模型构建、数据采集,并进行持续迭代。单一长尾场景本身市场空间有限,而AI的人才、算力等成本较高,针对某个长尾场景进行模型和数据迭代本身就是不经济的。


由于大模型的出现,可以在大模型基础上进行模型能力迁移生成小模型,从而降低成本。预计会有很多此前AI技术无法落地的长尾场景将能够被触达。


比如在工业上,大模型可以被用于智慧排产。一个大型工厂可能拥有上百条产线,生产的产品多种多样。面对全球各地的订单需求,某个订单应该安排哪条产线在什么时间去生产?在类似这样的场景中,可以基于大模型开发出一系列垂域模型,大幅提升效率。



4.3. 小结


通过对本章开始提出的问题,我们根据“市场的大小”、“场景的开放程度”两个指标构建了下图中的场景矩阵,进而得出了两个结论:


➢ 开放场景中后来者更容易通过被大模型赋能实现“弯道超车”;封闭场景中,更可能是小模型时代的领先者利用大模型实现“自我迭代”。


➢ 对于非巨头企业而言,由于大模型出现而“新增”的商业价值或将更多来自“长尾场景”而非“头部场景”。




5. 总结


本文构建一套“标准”来进行“AI前端落地场景的发现”。具体来说分为三个部分:


第一部分,我们以微软对GPT-4的测评作为基础寻找现阶段AI落地的“技术边界”。在各种局限性当中,我们认为最核心的仍然是AI能力的不可解释性,当某个问题存在标准答案、这个答案无法被找到,且我们对于错误难以容忍时,AI是难以落地的;此外,AI的知识边界来自于人类已知的知识边界,这就意味着AI无法进行真正意义上的创造性工作。


第二部分,在技术上可行的前提下,我们尝试勾勒AI落地的商业价值边界。技术上的可实现并不意味着商业上可行,我们通过“帮客户赚钱”和“帮客户省钱”的划分方式分别讨论了B2B2C场景和B2B场景下AI落地的商业价值。在B2B2C场景中,我们认为AI商业落地潜力在于其技术差异是否能够被终端用户所感知,从而影响消费行为;在B2B场景中,我们认为AI的商业落地潜力取决于原来场景中可被AI替代的任务比例。整体上看,我们认为B2B2C场景下的“赚钱逻辑”优于B2B场景下的“省钱逻辑”。


第三部分,我们尝试探讨AI商业价值的归属。在这一部分中,我们根据“商业价值的大小”、“场景的开放程度”两个指标构建了场景矩阵,进而得出两个结论:第一,开放场景中后来者更容易通过被大模型赋能实现“弯道超车”;封闭场景中,更可能是小模型时代的领先者利用大模型实现“自我迭代”。第二,对于非巨头企业而言,由于大模型出现而“新增”的商业价值或将更多来自“长尾场景”而非“头部场景”。


最后,作为二级市场的投资者,虽然我们可能无法亲身投入到AI的新一轮技术浪潮中;也希望我们至少做到,给国内义无反顾投身AGI的同学们多一点点时间,多一点点宽容和多一点点耐心。


我希望引用普朗克的一句名言来结束我们这个初步的不成熟的讨论,“Science progresses one funeral at a time. The future depends on some graduate student who is deeply suspicious of everything I have said.”与各位共勉。


PDF
  - end -  

欢迎加入产业交流群!

欢迎所有对计算机产业研究和投资感兴趣的盆友(包括云计算、网络安全、医疗IT、金融科技、人工智能、自动驾驶等)后台留言加入我们的产业交流群。我们的目标是建立系统的计算机产业研究框架,提高整个A股的IT行业研究水平,减少韭菜数量,普度众生。


AI相关报告

ChatGPT研究框架(80页PPT)

产业调研:一线专家眼中的ChatGPT

产业调研:医疗认知智能技术进展

海外ChatGPT公司有哪些已经落地的商业模式(深度)

GPT-4 即将发布,带来什么产业边际变化?

百度文心一言发布会详细纪要

产业调研:百度文心一言与GPT-4的差距有多大?

居然是微软打开了金山办公的市值空间

英伟达GTC大会万字纪要

海外AI大模型梳理:技术革命的本源

国内AI大模型梳理:三英战吕布

产业调研:大模型,人工智能的暴力美学



法律声明:

本公众订阅号(计算机文艺复兴)为国泰君安证券研究所计算机研究团队依法设立并运营的微信公众订阅号。本团队负责人李沐华具备证券投资咨询(分析师)执业资格,资格证书编号为S0880519080009。本订阅号不是国泰君安证券研究报告发布平台。本订阅号所载内容均来自于国泰君安证券研究所已正式发布的研究报告,如需了解详细的证券研究信息,请具体参见国泰君安证券研究所发布的完整报告。本订阅号推送的信息仅限完整报告发布当日有效,发布日后推送的信息受限于相关因素的更新而不再准确或者失效的,本订阅号不承担更新推送信息或另行通知义务,后续更新信息以国泰君安证券研究所正式发布的研究报告为准。本订阅号所载内容仅面向国泰君安证券研究服务签约客户。因本资料暂时无法设置访问限制,根据《证券期货投资者适当性管理办法》的要求,若您并非国泰君安证券研究服务签约客户,为控制投资风险,还请取消关注,请勿订阅、接收或使用本订阅号中的任何信息。如有不便,敬请谅解。市场有风险,投资需谨慎。在任何情况下,本订阅号中信息或所表述的意见均不构成对任何人的投资建议。在决定投资前,如有需要,投资者务必向专业人士咨询并谨慎决策。国泰君安证券及本订阅号运营团队不对任何人因使用本订阅号所载任何内容所引致的任何损失负任何责任。本订阅号所载内容版权仅为国泰君安证券所有。任何机构和个人未经书面许可不得以任何形式翻版、复制、转载、刊登、发表、篡改或者引用,如因侵权行为给国泰君安证券研究所造成任何直接或间接的损失,国泰君安证券研究所保留追究一切法律责任的权利。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存