一句话让姑娘姐为我换了n套衣服，谷歌卷出视频天资新高度，网友：竞赛加码

李忆彤 2024-01-26 05:54 898

"一句话让姑娘姐为我换了n套衣服，谷歌卷出视频天资新高度，网友：竞赛加码,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新江苏最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作一句话让小姐姐为我换了N套衣服，谷歌卷出视频生成新高度，网友：竞赛加码量子位·2024-01-25 17:52关注用于视频生成的时空扩散模型

谷歌一出手，又把AI视频生成卷上了新高度。

一句话生成视频，现在在名为Lumiere的AI操刀下，可以是酱婶的：

“阳光明媚，帆船在湖中航行”

如此一致性和质量，再次点燃了网友们对AI视频生成的热情：谷歌加入战局，又有好戏可看了。

不止是文生视频，Lumiere把Pika的“一键换装”也复现了出来。

左谷歌右pika，同样是选中区域一句话完成视频编辑，你pick哪一边？

让图片中静止的火焰跃动起来，也同样一选就能完成：

还有图片转视频：

视频风格化：

总之就是主打一个质量又高又全能。

更多细节，我们(We)论文扒起~

用于视频生成的时空扩散模型

Lumiere旨在解决以往视频生成中存在的几个关键问题：

真实性多样化运动的连贯性

在此前的方法中，常见的做法是，扩散模型先生成一些稀疏的关键帧，而后通过一系列时间超分辨率（TSR）模型来填补关键帧之间的空白，接着再用空间超分辨率模型获取高清视频结果(Result)。

可以想见，在全局连贯性上，这样的做法存在先天的缺陷。

Lumiere的创新点在于，提出了时空U-Net（STU-Net）架构：将视频在空间和时间两个维度同时进行(Carry Out)下采样和上采样，在网站的中间层得到视频的压缩时空表示。

具体来说，基于这一架构，模型能够一次性生成视频中的所有帧——这也就提升了生成视频的连贯性。

同时，因为大部分计算发生在压缩后的表示上，STU-Net能有效减少计算量，降低对计算和内存的需求。

另外，为了提升视频的分辨率，研究人员使用多重扩散（MultiDiffusion）技术，通过线性加权空间超分辨率网站来处理重叠时间窗口带来的边界伪影等问题，从而能将生成画面融合为一个整体，得到连贯、高清的视频效果。

时长和分辨率方面，Lumiere能输出1024×1024、16fps下长5秒的视频。

研究人员提到：

5秒已经超过了大多数视频作品中的平均镜头长度。

值得一提的是，得益于时空U-Net架构端到端全帧率视频生成的能力和高效计算，Lumiere灵活可扩展，可以轻松应用到下游任务中，包括文生视频、图生视频、视频风格化、视频编辑修复等等。

视频修复

实验结果(Result)

研究人员将Lumiere与其他文本-视频生成模型进行(Carry Out)了实验对比。

首先来看人类用户的判断。

实验设计是这样的：志愿者会同时看到一对视频，一个来自Lumiere，另一个来自其他基线模型。志愿者被要求从中选出视觉质量、动态效果更好，更符合文本提示的视频。

研究人员收集了大约400份反馈，结果(Result)显示，在视频质量、文本匹配度方面，Lumiere超越了Pika、Gen2、Imagen Video、SVD等一众顶级视频生成模型。

同时，在UCF101数据集（动作识别数据集）上，与MagicVideo、Make-A-Video、SVD等模型相比，Lumiere取得了具有竞争力的FVD和IS指标。

网友：谷歌，模型呢？

效果很惊艳，网友很兴奋(Excited)，但桥豆麻袋……

这次，谷歌依然只放出了论文，没有试玩，更没有开源。

这种似曾相识的操作，把人快整麻了：

视频很不错，但是谷歌，你又不打算发布任何代码、权重，也不提供API了，对吗？

还有人想起了Gemini发布时那个造假的小蓝鸭视频……

那么，这波你还会看好谷歌吗？

论文地址

https://arxiv.org/abs/2401.12945

项目地址

https://lumiere-video.github.io/#section_video_stylization

本文来自微信公众号“量子位”（ID:QbitAI），作者：鱼羊，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+11

好文章，需要你的鼓励

量子位特邀作者0收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章代码屎山噩梦加速来袭，都是AI生成代码的锅？AI原生应用哄哄模拟器爆火，24小时吸引60万用户｜产品体坛谷歌 Chrome 浏览器宣布引入 3 大生成式 AI 能力，浏览器 AI 革命开始了？元宇宙又要火了？工信部召集华为、腾讯、百度起草元宇宙标准AI企业盈利难，2024年怎么破局？Meta、OpenAI为何扎堆AI芯片？揭秘大模型背后的算力战争Altman地位又危了？OpenAI董事会邀请竞争对手加入，还挖角谷歌Gemini高管拳打Gen-2脚踢Pika，谷歌爆肝7个月祭出AI视频大模型，首提时空架构，时长史诗级延长MIT新研究：打工人(Worker)不用担心被AI淘汰，成本巨贵，视觉工作只有23%可替代最新文章推荐祖国面板行业大抉择想退休以后买个房车？我劝你先想想明白一年卖出170辆保时捷？山东青岛女销售登上热搜背后：进口豪车不香了？2024年，马斯克又得睡在工厂了起诉京东养车“震虎价”，途虎为何不愿打价格战？2024，特斯拉要摸着比亚迪过河了招商线索 | 新能源电池负极材料、人行道机器人项目寻找优质承载地车圈高层巨震，四个月内超50名高管大调整马斯克担忧成为奥特曼：争夺特斯拉至少25%投票权，否则宁可另起炉灶一句话让小姐姐为我换了N套衣服，谷歌卷出视频生成新高度，网友：竞赛加码

量子位特邀作者

作者有点忙，还没写简介

发表文章2018篇最近内容马斯克担忧成为奥特曼：争夺特斯拉至少25%投票权，否则宁可另起炉灶7分钟前一句话让小姐姐为我换了N套衣服，谷歌卷出视频生成新高度，网友：竞赛加码7分钟前扩散模型更懂复杂提示词，Pika北大斯坦福开源新框架，利用(Use)LLM提升理解力10小时前阅读更多内容，狠戳这里下一篇代码屎山噩梦加速来袭，都是AI生成代码的锅？

无脑用AI生成的代码，只会让人更累！

12分钟前

热门标签牵引车李锦我国线poe零食店加盟市场部职责unityads玉米期货沈大成百人会宁津宝德龙儿童摄影布朗熊向勇宝丰能源云南白药集团王明辉季节限定蒋震刘然第五项修炼系统思考斯沃琪集团欧米加swatch大食代斑秃余华硬盘类型关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴