查看原文
其他

AI独角兽|⑦Runway:把视频生成出来

徐弢 新皮层NewNewThing 2024-03-08

撰文:徐   

编辑:吴洋洋



Key Points


创意人士是Runway最早期的用户群体;


Runway创业初期进展迅速,在4周内就完成了早期融资;


A轮融资改变了Runway的战略方向,让它从开源创意模型社区转向了「下一代创意工具包」,对标对象也变成了图像编辑公司Adobe;


与Stability发生矛盾之后,Runway的研究重心从图像生成转向视频生成;


Runway的竞争对手不只是AI同行们,还有影视特效公司——它们已经自己下场开发视频生成模型了


2023年4月,Twitter(现已改名为X)上出现了一个轰动性的广告。配合富有动感韵律的背景音乐,一个中年男性声音在向人们推销名为「Pepperoni Hug Spot」的比萨店,卖点是芝士够多,并且提供外卖服务。

整个广告片长30秒,内容没什么新奇的,引人点击的是制作方法。名为Pizza Later的Twitter用户创作了这个视频,所用工具从脚本到镜头、从旁白声音到音乐,全是AI:餐厅的名字和广告脚本都来自于GPT-4,包括那句「(这家店的比萨)像家人一样,但有更多芝士」;视频中的静止帧来自于Midjourney,它负责生成了「有1980年代比萨店外观、画面有颗粒感」的照片;接着,他打开了文生视频工具Gen-2,让它根据脚本生成了30多个视频片段,Later选择了其中最好的16个片段用于最终剪辑;他还使用了另一项AI服务ElevenLabs,将GPT-4编写的脚本输入到一系列预设的AI声音中,修改音调直到满意为止;最后,他用Adobe的剪辑工具After Effects把以上所有AI生成的东西组装到一起,一部完全由AI创作的广告片就完成了。

用户名为 Pizza Later 的作者用 Runway 为一家比萨店生成了 30 秒广告

这部广告片在品质上远称不上优秀,甚至有点怪异,画面中顾客的下巴有时候会不受控地抽搐,还有顾客的嘴巴并不能真的把比萨吃进去,反而会因进食动作导致嘴巴本身变形。不过,数以万计的人积极地想要观看这部广告,光是在Twitter上它就有35万点击,YouTube上的点击则达到116万,超过不少比萨品牌聘请大型广告公司精心制作的作品。

整个广告制作涉及文字生成、图片生成、声音生成和视频生成,其中最难的是视频。为上述广告片生成视频片段的AI工具Gen-2,来自于美国纽约的人工智能公司Runway ML(以下简称「Runway」)。


面向创意人士 开发AI图像编辑工具

Runway公司的创立有点像好莱坞电影鼓吹的「美国梦」创业故事。

克里斯托瓦尔·瓦伦苏埃拉(Cristóbal Valenzuela)在智利工作期间发现了美国新媒体艺术家金·高根(Gene Kogan)关于神经风格迁移的工作成果,开始对神经网络产生兴趣,而后辞掉工作,于2016年去纽约大学学习交互通讯(Interactive Telecommunications Program,ITP)课程。也就是在学习ITP课程期间,他遇到了智利人亚历杭德罗·马塔马拉-奥尔蒂斯(Alejandro Matamala-Ortiz)、希腊人安娜斯塔西娅·杰曼尼蒂斯(Anastasis Germanidis),与他们组成了创业团队。

瓦伦苏埃拉本身没有技术背景,他本科学的是经济和商业管理,而后又获得了设计专业的硕士学位,曾经在智利圣地亚哥的阿道夫·伊瓦涅斯大学教授设计。

相比之下,另两位联合创始人都在技术和产品领域有工作经验。杰曼尼蒂斯曾经在卫斯理大学学习计算机科学,做过产品工程,还曾在IBM担任计算机视觉研究员。奥尔蒂斯有产品设计和前端开发经验,还在智利创立过牙医在线预约平台Deenty。

瓦伦苏埃拉的创业项目来自于ITP项目的研究成果。在纽约大学学习期间,他花了两年学习AI技术和知识,包括李飞飞的图像数据库ImageNET、卷积神经网络AlexNET。他尝试着把图像分割、图像理解、视频理解等模型集成到Photoshop和Premiere中,帮助用户加快图像的风格化、着色或编辑工作,并将研究成果发在了Twitter上。很多艺术家和设计师都对呈现效果感兴趣,也有人因为操作简单而愿意尝试。这些与瓦伦苏埃拉相似的创意人士,就是Runway最早期的用户群体。

而当他在纽约大学将Runway作为研究论文介绍时,现场的Adobe公司员工对他发出了工作邀请,这可以说是梦想中的工作:「我作为移民来到纽约两年了,一家完美的、梦想中的公司,为你提供梦想的工作、签证和完美的薪水——这就是梦想。」但他最终拒绝了Adobe公司,而是希望亲手把Runway从研究项目变成商业公司。


从开源模型社区 转向自有模型产品

Runway创业初期进展迅速,瓦伦苏埃拉着手创办公司时,很多风险投资机构已经表示意向,他们在4周内就完成了早期融资

不过,把研究项目转变成创业公司的难度后续才开始显现。

「2020年的A轮融资可以说是我们最艰难的一轮。」在英国播客节目《20VC》中,瓦伦苏埃拉回忆公司的融资历程时这样说过。他向投资机构兜售「构建一个生成式AI公司」的想法,收获的则是数百封拒信,当时投资者们对于生成式AI不感兴趣。

在此之前,Runway实际上是个模型社区,同时托管了自研及独立开发者创建的数十个模型,能完成创意人士的多元需求,有些模型看上去甚至有点奇怪。例如,有个开发者用韩国流行乐队防弹少年团的歌词训练,开发了一个特殊版本的GPT-2文本生成器。

模型社区的概念可能过于超前。在模型没有相当的数量、也没有获得终端用户认可之前,模型社区这种平台模式的吸引力并不大。2023年,阿里云、亚马逊、百度才陆续推出大模型平台,发布时间基本都是在自研大模型发布之后。

A轮融资改变了Runway的战略方向,让它从开源创意模型社区转向了「下一代创意工具包」,对标对象也变成了图像编辑公司Adobe。瓦伦苏埃拉希望利用平台上的模型和算法,在系统层面构建接口,帮助终端用户提升效率,产品开发则聚焦在影视创作。在融资新闻中,A轮领投方Amplify Partners表示,「我们相信这将产生与相机一样深远的影响。」当时的报道提到了Runway着手开发的视频编辑工具绿幕(Green Screen),它能帮助创意人士清除画面中不需要的素材

这种转向受到了影视工业的欢迎。2022年的大热电影《瞬息全宇宙》的视觉效果团队的视觉特效师埃文·哈勒克(Evan Halleck)找到瓦伦苏埃拉寻找技术解决方案后,使用了包括Green Screen在内的AI工具。在电影中两颗石头对话的场景中,《瞬息全宇宙》在片场使用滑轨移动两颗石头,后期再使用Green Screen擦除滑轨。

今天,Runway官网提供的工具聚焦影视创作,包括视频生成与编辑、图像生成与编辑、3D捕捉与贴图等。


「我坚信2023年是视频年」

2022年10月,在开源模型托管服务平台Hugging Face上,文生图公司Stability AI(以下简称「Stability」)与Runway发生了争吵,Stability指责Runway公司发布文生图产品Stable Diffusion 1.5版本属于泄漏公司知识产权的行为,要求Runway删除已经发布的模型。在当时的公众认知中,Stability公司是Stable Diffusion的算法开发商,是当时新兴的AIGC明星公司,Runway则是个陌生得多的名字。Stable Diffusion是如今大部分文生图模型的基础算法。

瓦伦苏埃拉的回应表明Runway才是Stable Diffusion背后的主要开发者:2022年4月,Runway公司首席研究科学家帕特里克·埃瑟(Patrick Esser)与德国慕尼黑大学机器视觉与学习研究小组成员罗宾·罗姆巴赫(Robin Rombach)(后加入Stability担任研究团队负责人)合作开发了文生图工具Stable Diffusion的首个版本Latent Diffusion,Runway公司持续参与了版本迭代。Stability则在研发后期提供了计算资源与资金,将研究项目转变成了商业产品。

这起争议事件让创立于2018年的Runway获得了更多曝光。2023年6月底,Runway完成了Google、英伟达、Salesforce等公司投资的1.41亿美元C+轮融资。彭博社爆料称,C+轮融资已经将这家初创公司的估值从5亿美元推高到了15亿美元

也正是在与Stability发生矛盾之后,Runway的研究重心从图像生成转向视频生成。

2023年2月,Runway发布第一代视频生视频模型Gen-1,1个月后,它又发布了二代模型Gen-2。两代模型中,Gen-1允许用户修改现有的视频片段,比如将视频转换为从水彩画到黏土化的任何内容,而Gen-2可以将文本提示转换为简短的、由AI生成的移动剪辑。此外,两者最大的差别就是生成时长,Gen-1能生成15秒的视频,Gen-2生成时长延长到了18秒。

时长是文生视频模型的最大挑战之一。拆解了看,视频只是一系列帧(静止图像)以某种方式组合在一起,给人一种运动错觉。然而,人眼经过训练可以检测出视频帧中最细微的缺陷,因而模型生成视频的结果需要足够好,才能维持画面的运动错觉,而文生视频模型的核心,就在于需要理解每帧之间的关系和一致性

生成时长的竞争仍在持续中,短时间内,这项技术还无法取代拍摄,也无法撼动庞大的电影工业。不过,瓦伦苏埃拉看中的是视频生成的增长空间。2023年年初,他就坚信「2023年将是视频年」。

这两年,AI与视频的结合也的确成为重要的细分市场。2022年9月,Facebook母公司Meta发布了视频生成模型Make-A-Video,原理同样是基于图像生成。次月,Google接力推出了视频生成模型Imagen Video。但Meta和Google都没有将模型推向市场。Google给出的理由是Imagen Video可能由于训练数据中有问题的内容而生成暴力或露骨的色情视频。Adobe公司在2023年3月推出了生成式AI引擎Firefly,并将它陆续加入旗下的音频、图像、视频编辑工具中。2月16日,OpenAI则推出了功能更强大的视频生成模型Sora,最长视频长达1分钟。

2023年1月,OpenAI创始人山姆·阿尔特曼(Sam Altman)也披露了推出视频模型的计划,但没有给出具体时间表。

对于Runway而言,竞争对手不只是AI同行们,还有影视特效公司——它们已经自己下场开发视频生成模型了。2023年6月上映的《夺宝奇兵5:命运转盘》中,年轻版的印第安纳·琼斯实际上是通过工业光魔开发的技术实现的,而非由真人出演。工业光魔的视觉特效主管罗伯特·韦弗(Robert Weaver)表示,公司使用计算机汇集了哈里森·福特过去出演的印第安纳·琼斯系列电影,再通过开发的FaceSwap技术让演员在电影中看起来年轻,并结合机器学习等技术实现影片片段。

当影视行业大公司愿意自研视频生成技术,它们购买Runway产品的意愿就可能随之降低,这对于专注于影视领域的Runway不是个好消息。《福布斯》2022年年底援引信源消息称,Runway的年化收入徘徊在100万美元左右,这对于昂贵的模型训练和视频生成是不够的。


公司档案:

Runway


创立时间:

2018年

创始团队:

Cristóbal Valenzuela, Alejandro Matamala-Ortiz 以及 Anastasis Germanidis

核心产品:

视频生视频模型 Gen-1、文生视频模型 Gen-2

融资历程:

· 2018.12  种子轮,获得 200 万美元投资 

· 2020.12  A 轮,获得 850 万美元投资 

· 2021.12  B 轮,获得 3500 万美元投资,由 Coatue 领投

· 2022.12  C 轮,获得 5000 万美元投资,由 Felicis 领投

· 2023.6  C+轮,获得 1.41 亿美元投资,由 Google 领投

估值:

15亿美元



-END-


AI独角兽|⑥Covariant:要给机器人装上同一个大脑

AI独角兽|⑤Character AI比ChatGPT更受年轻人欢迎,这是为什么

AI独角兽|④Cohere:陨落边缘

AI独角兽|③Stability AI,有关AI开源模型的生意

AI独角兽|②Anthropic:最可能挑战OpenAI的公司

AI独角兽|①Inflection:把电影《Her》变成现实


继续滑动看下一个

AI独角兽|⑦Runway:把视频生成出来

徐弢 新皮层NewNewThing
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存