AI独角兽｜⑦Runway：把视频生成出来

Original 徐弢新皮层NewNewThing 2024-03-08

撰文：徐弢

编辑：吴洋洋

Key Points

创意人士是Runway最早期的用户群体；

Runway创业初期进展迅速，在4周内就完成了早期融资；

A轮融资改变了Runway的战略方向，让它从开源创意模型社区转向了「下一代创意工具包」，对标对象也变成了图像编辑公司Adobe；

与Stability发生矛盾之后，Runway的研究重心从图像生成转向视频生成；

Runway的竞争对手不只是AI同行们，还有影视特效公司——它们已经自己下场开发视频生成模型了。

2023年4月，Twitter（现已改名为X）上出现了一个轰动性的广告。配合富有动感韵律的背景音乐，一个中年男性声音在向人们推销名为「Pepperoni Hug Spot」的比萨店，卖点是芝士够多，并且提供外卖服务。

整个广告片长30秒，内容没什么新奇的，引人点击的是制作方法。名为Pizza Later的Twitter用户创作了这个视频，所用工具从脚本到镜头、从旁白声音到音乐，全是AI：餐厅的名字和广告脚本都来自于GPT-4，包括那句「（这家店的比萨）像家人一样，但有更多芝士」；视频中的静止帧来自于Midjourney，它负责生成了「有1980年代比萨店外观、画面有颗粒感」的照片；接着，他打开了文生视频工具Gen-2，让它根据脚本生成了30多个视频片段，Later选择了其中最好的16个片段用于最终剪辑；他还使用了另一项AI服务ElevenLabs，将GPT-4编写的脚本输入到一系列预设的AI声音中，修改音调直到满意为止；最后，他用Adobe的剪辑工具After Effects把以上所有AI生成的东西组装到一起，一部完全由AI创作的广告片就完成了。

用户名为 Pizza Later 的作者用 Runway 为一家比萨店生成了 30 秒广告

这部广告片在品质上远称不上优秀，甚至有点怪异，画面中顾客的下巴有时候会不受控地抽搐，还有顾客的嘴巴并不能真的把比萨吃进去，反而会因进食动作导致嘴巴本身变形。不过，数以万计的人积极地想要观看这部广告，光是在Twitter上它就有35万点击，YouTube上的点击则达到116万，超过不少比萨品牌聘请大型广告公司精心制作的作品。

整个广告制作涉及文字生成、图片生成、声音生成和视频生成，其中最难的是视频。为上述广告片生成视频片段的AI工具Gen-2，来自于美国纽约的人工智能公司Runway ML（以下简称「Runway」）。

面向创意人士开发AI图像编辑工具

Runway公司的创立有点像好莱坞电影鼓吹的「美国梦」创业故事。

克里斯托瓦尔·瓦伦苏埃拉（Cristóbal Valenzuela）在智利工作期间发现了美国新媒体艺术家金·高根（Gene Kogan）关于神经风格迁移的工作成果，开始对神经网络产生兴趣，而后辞掉工作，于2016年去纽约大学学习交互通讯（Interactive Telecommunications Program，ITP）课程。也就是在学习ITP课程期间，他遇到了智利人亚历杭德罗·马塔马拉-奥尔蒂斯（Alejandro Matamala-Ortiz）、希腊人安娜斯塔西娅·杰曼尼蒂斯（Anastasis Germanidis），与他们组成了创业团队。

瓦伦苏埃拉本身没有技术背景，他本科学的是经济和商业管理，而后又获得了设计专业的硕士学位，曾经在智利圣地亚哥的阿道夫·伊瓦涅斯大学教授设计。

相比之下，另两位联合创始人都在技术和产品领域有工作经验。杰曼尼蒂斯曾经在卫斯理大学学习计算机科学，做过产品工程，还曾在IBM担任计算机视觉研究员。奥尔蒂斯有产品设计和前端开发经验，还在智利创立过牙医在线预约平台Deenty。

瓦伦苏埃拉的创业项目来自于ITP项目的研究成果。在纽约大学学习期间，他花了两年学习AI技术和知识，包括李飞飞的图像数据库ImageNET、卷积神经网络AlexNET。他尝试着把图像分割、图像理解、视频理解等模型集成到Photoshop和Premiere中，帮助用户加快图像的风格化、着色或编辑工作，并将研究成果发在了Twitter上。很多艺术家和设计师都对呈现效果感兴趣，也有人因为操作简单而愿意尝试。这些与瓦伦苏埃拉相似的创意人士，就是Runway最早期的用户群体。

而当他在纽约大学将Runway作为研究论文介绍时，现场的Adobe公司员工对他发出了工作邀请，这可以说是梦想中的工作：「我作为移民来到纽约两年了，一家完美的、梦想中的公司，为你提供梦想的工作、签证和完美的薪水——这就是梦想。」但他最终拒绝了Adobe公司，而是希望亲手把Runway从研究项目变成商业公司。

从开源模型社区转向自有模型产品

Runway创业初期进展迅速，瓦伦苏埃拉着手创办公司时，很多风险投资机构已经表示意向，他们在4周内就完成了早期融资。

不过，把研究项目转变成创业公司的难度后续才开始显现。

「2020年的A轮融资可以说是我们最艰难的一轮。」在英国播客节目《20VC》中，瓦伦苏埃拉回忆公司的融资历程时这样说过。他向投资机构兜售「构建一个生成式AI公司」的想法，收获的则是数百封拒信，当时投资者们对于生成式AI不感兴趣。

在此之前，Runway实际上是个模型社区，同时托管了自研及独立开发者创建的数十个模型，能完成创意人士的多元需求，有些模型看上去甚至有点奇怪。例如，有个开发者用韩国流行乐队防弹少年团的歌词训练，开发了一个特殊版本的GPT-2文本生成器。

模型社区的概念可能过于超前。在模型没有相当的数量、也没有获得终端用户认可之前，模型社区这种平台模式的吸引力并不大。2023年，阿里云、亚马逊、百度才陆续推出大模型平台，发布时间基本都是在自研大模型发布之后。

A轮融资改变了Runway的战略方向，让它从开源创意模型社区转向了「下一代创意工具包」，对标对象也变成了图像编辑公司Adobe。瓦伦苏埃拉希望利用平台上的模型和算法，在系统层面构建接口，帮助终端用户提升效率，产品开发则聚焦在影视创作。在融资新闻中，A轮领投方Amplify Partners表示，「我们相信这将产生与相机一样深远的影响。」当时的报道提到了Runway着手开发的视频编辑工具绿幕（Green Screen），它能帮助创意人士清除画面中不需要的素材。

这种转向受到了影视工业的欢迎。2022年的大热电影《瞬息全宇宙》的视觉效果团队的视觉特效师埃文·哈勒克（Evan Halleck）找到瓦伦苏埃拉寻找技术解决方案后，使用了包括Green Screen在内的AI工具。在电影中两颗石头对话的场景中，《瞬息全宇宙》在片场使用滑轨移动两颗石头，后期再使用Green Screen擦除滑轨。

今天，Runway官网提供的工具聚焦影视创作，包括视频生成与编辑、图像生成与编辑、3D捕捉与贴图等。

「我坚信2023年是视频年」

2022年10月，在开源模型托管服务平台Hugging Face上，文生图公司Stability AI（以下简称「Stability」）与Runway发生了争吵，Stability指责Runway公司发布文生图产品Stable Diffusion 1.5版本属于泄漏公司知识产权的行为，要求Runway删除已经发布的模型。在当时的公众认知中，Stability公司是Stable Diffusion的算法开发商，是当时新兴的AIGC明星公司，Runway则是个陌生得多的名字。Stable Diffusion是如今大部分文生图模型的基础算法。

瓦伦苏埃拉的回应表明Runway才是Stable Diffusion背后的主要开发者：2022年4月，Runway公司首席研究科学家帕特里克·埃瑟（Patrick Esser）与德国慕尼黑大学机器视觉与学习研究小组成员罗宾·罗姆巴赫（Robin Rombach）（后加入Stability担任研究团队负责人）合作开发了文生图工具Stable Diffusion的首个版本Latent Diffusion，Runway公司持续参与了版本迭代。Stability则在研发后期提供了计算资源与资金，将研究项目转变成了商业产品。

这起争议事件让创立于2018年的Runway获得了更多曝光。2023年6月底，Runway完成了Google、英伟达、Salesforce等公司投资的1.41亿美元C+轮融资。彭博社爆料称，C+轮融资已经将这家初创公司的估值从5亿美元推高到了15亿美元。

也正是在与Stability发生矛盾之后，Runway的研究重心从图像生成转向视频生成。

2023年2月，Runway发布第一代视频生视频模型Gen-1，1个月后，它又发布了二代模型Gen-2。两代模型中，Gen-1允许用户修改现有的视频片段，比如将视频转换为从水彩画到黏土化的任何内容，而Gen-2可以将文本提示转换为简短的、由AI生成的移动剪辑。此外，两者最大的差别就是生成时长，Gen-1能生成15秒的视频，Gen-2生成时长延长到了18秒。

时长是文生视频模型的最大挑战之一。拆解了看，视频只是一系列帧（静止图像）以某种方式组合在一起，给人一种运动错觉。然而，人眼经过训练可以检测出视频帧中最细微的缺陷，因而模型生成视频的结果需要足够好，才能维持画面的运动错觉，而文生视频模型的核心，就在于需要理解每帧之间的关系和一致性。

生成时长的竞争仍在持续中，短时间内，这项技术还无法取代拍摄，也无法撼动庞大的电影工业。不过，瓦伦苏埃拉看中的是视频生成的增长空间。2023年年初，他就坚信「2023年将是视频年」。

这两年，AI与视频的结合也的确成为重要的细分市场。2022年9月，Facebook母公司Meta发布了视频生成模型Make-A-Video，原理同样是基于图像生成。次月，Google接力推出了视频生成模型Imagen Video。但Meta和Google都没有将模型推向市场。Google给出的理由是Imagen Video可能由于训练数据中有问题的内容而生成暴力或露骨的色情视频。Adobe公司在2023年3月推出了生成式AI引擎Firefly，并将它陆续加入旗下的音频、图像、视频编辑工具中。2月16日，OpenAI则推出了功能更强大的视频生成模型Sora，最长视频长达1分钟。

2023年1月，OpenAI创始人山姆·阿尔特曼（Sam Altman）也披露了推出视频模型的计划，但没有给出具体时间表。

对于Runway而言，竞争对手不只是AI同行们，还有影视特效公司——它们已经自己下场开发视频生成模型了。2023年6月上映的《夺宝奇兵5：命运转盘》中，年轻版的印第安纳·琼斯实际上是通过工业光魔开发的技术实现的，而非由真人出演。工业光魔的视觉特效主管罗伯特·韦弗（Robert Weaver）表示，公司使用计算机汇集了哈里森·福特过去出演的印第安纳·琼斯系列电影，再通过开发的FaceSwap技术让演员在电影中看起来年轻，并结合机器学习等技术实现影片片段。

当影视行业大公司愿意自研视频生成技术，它们购买Runway产品的意愿就可能随之降低，这对于专注于影视领域的Runway不是个好消息。《福布斯》2022年年底援引信源消息称，Runway的年化收入徘徊在100万美元左右，这对于昂贵的模型训练和视频生成是不够的。

公司档案：

Runway

创立时间：

2018年

创始团队：

Cristóbal Valenzuela, Alejandro Matamala-Ortiz 以及 Anastasis Germanidis

核心产品：

视频生视频模型 Gen-1、文生视频模型 Gen-2

融资历程：

· 2018.12 种子轮，获得 200 万美元投资

· 2020.12 A 轮，获得 850 万美元投资

· 2021.12 B 轮，获得 3500 万美元投资，由 Coatue 领投

· 2022.12 C 轮，获得 5000 万美元投资，由 Felicis 领投

· 2023.6 C+轮，获得 1.41 亿美元投资，由 Google 领投

估值：

15亿美元

-END-

AI独角兽｜⑥Covariant：要给机器人装上同一个大脑

AI独角兽｜⑤Character AI比ChatGPT更受年轻人欢迎，这是为什么

AI独角兽｜④Cohere：陨落边缘

AI独角兽｜③Stability AI，有关AI开源模型的生意

AI独角兽｜②Anthropic：最可能挑战OpenAI的公司

AI独角兽｜①Inflection：把电影《Her》变成现实

继续滑动看下一个

AI独角兽｜⑦Runway：把视频生成出来

Original 徐弢新皮层NewNewThing

新皮层NewNewThing

向上滑动看下一个

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

AI独角兽｜⑦Runway：把视频生成出来

AI独角兽｜⑦Runway：把视频生成出来

您可能也对以下帖子感兴趣

“家属和记者取得联系”：记者的退场意味深长

广州地铁“偷拍门”事件：那个漂亮的女大学生，为啥惹了众怒...

劲爆！为了姜萍两位女CEO互揭老底！

治安处罚中“赌资较大”“情节严重”数额认定的理解与适用（各地标准）

中石化一副总被曝出轨人妻，本人嚣张回应：旧情复燃尔

生成图片，分享到微信朋友圈

AI独角兽｜⑦Runway：把视频生成出来

AI独角兽｜⑦Runway：把视频生成出来

您可能也对以下帖子感兴趣