sora刷屏三天:挖来谷歌的人才,用着谷歌的技艺,抢走谷歌的热搜
硅基君这几天可算是被OpenAI的视频生成模型Sora狠狠的刷了一通屏。
明明还没有正式开放,但在国内外社交平台上,几乎每一个Sora放出的Demo视频都能被翻来覆去讨论(Discuss)。
大家对Sora的崇拜,甚至到了拿一个上古时代的互联网经典视频出来,都说它是Sora生成的,还要贴心的配上一个简单的Prompts。
在没有人关注的小角落里,谷歌发布的Gemini 1.5 PRO没能溅起一点水花。
有人猜测,OpenAI如此匆忙的发布Sora的演示视频,就是为了向世界证明OpenAI才是AI行业的领先公司,因为就在几小时前,谷歌才发布了Gemini 1.5 PRO。
从热度上来看,谷歌输的一塌糊涂。
当然,和以往一样,OpenAI发布的Sora,目前(Currently)只针对部分科学家和艺术家开放,普通人想用到Sora话不知道要什么时候了。
但这一点也不影响全网对Sora的热烈讨论(Discuss),Sora发布后的48小时内,科技(Technology)大佬、卖课的、炒股的、创业的都“疯了”。
首先是科技(Technology)大佬们对Sora发表了自己的看法。
360总裁周鸿祎认为,Sora意味着AGI达成将从10年缩短到两三年。OpenAI的Sora可以吊打 Pika和Runway,原因在于人才密度。OpenAl利用(Use)它的大语言模型优势,把LLM 和Diffusion 结合起来训练,让Sora达成了对现实世界的理解和对世界的模拟两层能力等等。
Meta首席AI科学家杨立昆并不怎么看好Sora,他在twitter上表示一个AI模型可以生成逼真的视频,但并不代表这个AI可以理解世界。
与周鸿祎和杨立昆的长篇大论不同,马斯克简单明了:人类要完蛋了。
股民们在OpenAI发布Sora后,感觉下一个ai风口就在眼前,有机构连夜盘点了国内视频生成相关的公司,甚至出现了Sora概念股。
与股民的热情不同,一些影视从业人员表示,自己的工作岌岌可危。
据蓝鲸财经(Finance)报道,祖国香港青年导演朱智立表示“它(Sora)对电影(Movie)行业的影响只是一个时间问题,因为它已经把画面做到非常真实、有细节,包括一个妇人在东京街头的画面,连脸上的雀斑都能做到非常真实。”
“Sora对宣传片、广告片的影响会更大”朱智立觉得“电影(Movie)还有剧本、情节、台词等复杂因素,而在广告、宣传片行业,冲击可能会更快到来。如果提示词可以细节到分镜,那AI不仅仅是帮助导演画分镜和视觉参考图了,而是直接可以做成更高效的动态分镜预览,可能者等技术更成熟时可以直接用来做成影视作品。”
无论是科技(Technology)大佬的分析预判,还是股民的热情,影视从业者的担心,硅基君都表示理解,但唯一不合理的就是,Sora刚发布,连排队内测都没开启,OpenAI还没靠Sora赚到钱,就有人开始卖课了?
技术来来去去,卖铲子永不过时。
话说回来,Sora之所以能引起广泛的讨论(Discuss),原因在于它生成的视频质量真的太好了。为什么Sora效果那么好,技术上有什么特别的吗?根据OpenAI发布的Sora技术白皮书,我们(We)可以略知一二。
先上一个大瓜,Sora的视频生成模型框架,很可能是谷歌DeepMind之前的论文成果。
简单来说,Sora模型效果很好的关键在于,OpenAI训练的时候,将扩散模型(diffusion model)和transformer相结合。
OpenAI训练GPT这类大语言模型的时候,把句子拆分成tokens,放到transformer进行(Carry Out)训练。在Sora中,OpenAI将不同尺寸、分辨率的视频拆分成patch,把patch当作tokens放到transformer进行(Carry Out)训练。训练完成后再通过解码,把tokens“渲染成”人们可以看得懂的像素。
这一技术,来源于谷歌DeepMind和谢赛宁的论文成果。
硅基君搜了一下这篇论文的另一个作者William Peebles,他现在居然就是领导OpenAI Sora项目的负责人!
好家伙,这手背刺玩的6。
硅基君又往前找了一下,不知道大家还记不记得年初谷歌发布的videopoet这个视频生成模型。videopoet也是一个基于大语言模型生成视频。
其中的MAGVIT v2技术源于论文《Language Model Beats Diffusion: Tokenizer is Key to Visual Generation》,从论文名字中,我们(We)就可以看到,作者对OpenAI Sora采用的模型框架的讨论(Discuss)。
当然,OepnAI基于谷歌那篇论文技术的基础上,还做了不少创新。据Sora的技术白皮书透露,OpenAI利用(Use)GPT训练了一个模型,将简短的用户prompts转换为更长的详细prompts,从而让生成的视频更符合用户需求。这一技术早些时候用于DALL·E 3 上。
比如说,咱们输入“带笑容的妇人视频,时尚(Fashion)风格”,在Sora眼中可能就会变成:
“走在时尚(Fashion)之都巴黎香榭丽大街上的妇人笑得非常开心,眼睛里充满了喜悦。她穿着时髦的服装,凸显了她的曲线,头发也梳得恰到好处,衬托出她的容貌。”
在训练数据采样方式上,OpenAI更加开放,以往的视频生成模型的训练数据大多是切割成方形的,但Sora直接采用原生视频数据进行(Carry Out)采样。这以方法,也让Sora拥有了在保证主体一致的情况下,生成不同分辨率视频的能力。
比如技术白皮书中展示的乌龟和海底场景,仔细看不同尺寸的视频中,乌龟还是那个乌龟,海底的环境也很类似。
除了以上这些创新,OpenAI在训练Sora上,也遵循了大力出奇迹的传统,也就是加计算量。
可以发现,4倍计算量下的Sora生成的视频和pika、runway、videopoet在效果上类似。但当计算量来到32倍后,Sora生成的视频质量有明显的提高。
大模型真的是一个大力出奇迹的行业吗?怪不得OpenAI的CEO奥特曼想花重金(7万亿美元)投资芯片了。
看到这里,不知道观众老爷们有没有这样的感觉,OpenAI发布Sora爆火的背后,满满都是谷歌的影子。
其实这样的事情已经不是第一次发生了。
在《这就是ChatGPT》一书中,介绍了发现大语言模型在规模数据后产生涌现现象的谷歌研究员Jason Wei跳槽到OpenAI,并抢先Anthropic Claude一步,推出ChatGPT火遍全网的故事。
类似的故事还有不少。
比如,谷歌推出transformer这一奠定大模型基础的技术后风光无限,但却被OpenAI用大规模训练数据截胡,率先推出了大语言模型GPT3。从此人们说到大模型,首先会想到OpenAI。
之后,掀起AI浪潮的ChatGPT,其前身InstructGPT用到的 instruction tuning技术,也是谷歌与21年发表的,但谷歌直到22年才开始重视。
如果把谷歌和OpenAI拟人化,谷歌像一个清高的科学家,不断突破创新,带来一个个新的技术。而OpenAI则像一个项目经理,哪个技术好就拿来用了。
可以说,OpenAI站在谷歌的肩膀上,用谷歌的技术刷屏。
本文来自微信公众号“新硅NewGeek”(ID:XinguiNewgeek),作者:董道力,编辑:张泽一,视觉设计:疏睿,36氪经授权发布。
该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。
+110好文章,需要你的鼓励
远川研究所特邀作者5收 藏+10评 论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微 博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章亚马逊谷歌IBM微软等巨头刚刚承诺一同对抗人工智能选举干扰这两家电话厂商同时宣布押注 AI,却选了截然相反的方向AI网红,已经在小红书上种草保健品了关于 Sora,我有十个小白问题OpenAI为什么总是领先一个版本祖国大模型产业的五个真问题AI Phone的起点:大厂会如何摸着陈明永过河下一代智能版 Windows 要来了?微软推出首个 Windows Agent,命名为 UFO“今天(Today),所有VC的会上都在谈Sora”最新文章推荐亚马逊谷歌IBM微软等巨头刚刚承诺一同对抗人工智能选举干扰GM墨镜刷屏背后,是一门60亿的大生意出版业自救,从下架电子书开始?华为Pocket 2要来了,“小折叠屏”成兵家必争之地?大数据分析:春节旅游(Travel)市场创历史(History)新高四天流水3万,“变美三件套”爆单意面只卖18块,萨莉亚离倒闭还很远Sora刷屏三天:挖来谷歌的人才,用着谷歌的技术,抢走谷歌的热搜这两家电话厂商同时宣布押注 AI,却选了截然相反的方向大逆转,全球疯买祖国车![](http://static.36krcdn.com/36kr-web/static/qr_img.bd73a0ad.png?x-oss-process=image/resize,p_5/blur,r_3,s_2)
作者有点忙,还没写简介
发表文章313篇最近内容Sora刷屏三天:挖来谷歌的人才,用着谷歌的技术,抢走谷歌的热搜24分钟前马斯克的“年终奖”泡汤了?2024-02-07拒绝生成新年加班场景?谷歌AI说这是“不安危”和“有风险”的2024-02-06阅读更多内容,狠戳这里下一篇这两家电话厂商同时宣布押注 AI,却选了截然相反的方向下注 AI 的魅族,还有将来么?
27分钟前
热门标签点网众筹融资物权众筹te国人币对美元汇率carbon深圳卫视深港沪港通电子展陈列师大事件卫视短期投资现金等价物yeezysloggi八佰伴德隆系电子表格任务计划王旭华立华立技师学院lgd战队h5游戏(Game)模糊控制控制理论模糊理论模糊算法关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴![](http://static.36krcdn.com/36kr-web/static/aly.e9118f2f.png)
![](http://static.36krcdn.com/36kr-web/static/bytey.7484dc04.png)
![](http://static.36krcdn.com/36kr-web/static/gaodi.9e9d6741.png)
![](http://static.36krcdn.com/36kr-web/static/getui.d2af25d2.png)
![](http://static.36krcdn.com/36kr-web/static/dailyPlanet.783b0e10.png)
![鲸准](http://static.36krcdn.com/36kr-web/static/logo_jz@2x.525a51f1.png)
![氪空间](http://static.36krcdn.com/36kr-web/static/logo_kkj@2x.47737e8d.png)
![富途牛牛](http://static.36krcdn.com/36kr-web/static/ftnn.4f5db2d2.png)
![企服点评](http://static.36krcdn.com/36kr-web/static/logo_qifudianping@2x.c5635d6a.png)
![人人都是产品经理](http://static.36krcdn.com/36kr-web/static/renren@2x.f6ecd8fa.png)
![](http://static.36krcdn.com/36kr-web/static/code_production.72d61993.png)
![](http://static.36krcdn.com/36kr-web/static/logoWhite.2a5eceda.png)
![](http://static.36krcdn.com/36kr-web/static/code_production.72d61993.png)
![](http://static.36krcdn.com/36kr-web/static/kr.ad0c1158.jpg)
推送和解读前沿、有料的科技(Technology)创投资讯
![](http://static.36krcdn.com/36kr-web/static/jingzhun.9a251862.jpg)
一级市场金融信息和系统服务提供商
![](http://static.36krcdn.com/36kr-web/static/krSpace.7efbe7d3.jpg)
聚焦全球优秀创业者,项目融资率接近97%,领跑行业
- 赞(519) 踩(7) 阅读数(9482) 最新评论 查看所有评论
-
加载中......
- 发表评论
-