openai的sora必定死道一条，yann lecun火力全开怒喷：这种杀青要领“所有没有现实真理”

李筱媛 2024-02-21 05:55 842

"openai的sora必定死道一条，yann lecun火力全开怒喷：这种杀青要领“所有没有现实真理”,这篇新闻报道详尽，内容丰富，非常值得一读。这篇报道的内容很有深度，让人看了之后有很多的感悟。作者对于这个话题做了深入的调查和研究，呈现了很多有价值的信息。这篇报道的观点独到，让人眼前一亮。新闻的写作风格流畅，文笔优秀，让人容易理解。这篇报道的结构严谨，逻辑清晰，让人看了很舒服。 " OpenAI的Sora注定死路一条，Yann LeCun火力全开怒喷：这种达成方式“完全没有现实意义”-36氪
账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作OpenAI的Sora注定死路一条，Yann LeCun火力全开怒喷：这种达成方式“完全没有现实意义”AI前线·2024-02-20 19:46关注Sora注定死路一条！Yann LeCun跟OpenAI彻底干上了

近日，OpenAI 发布的视频生成模型 Sora 成为全球焦点。与以往只能生成几秒钟视频的模型不同，Sora 可生成长达 60 秒的高清视频。

英伟达高级研究科学家 Jim Fan 断言，Sora 是一个数据驱动的物理引擎，是一个可学习的模拟器，可能“世界模型”。OpenAI 也声称 Sora 是“扩展视频生成模型是构建物理世界通用模拟器的一条可行之路”。这些说法让很多普通人感到非常恐慌，担心这代表了人工智能已经有能力理解人类真实世界，因此这可能许代表着人类末日的开始。

而图灵奖得主 Yann LeCun，作为一位“世界模型”的倡导者，他认为 OpenAI 的 Sora 并不理解物理世界，今天(Today)他更是直接说 Sora 对“世界模型”的达成方式，注定是死路一条。

Yann LeCun 火力全开

之前， OpenAI Sora 研发成员 Aditya Ramesh 发布了一个关于一只蚂蚁“在蚁巢内部移动的视角镜头”的视频，但视频里面的蚂蚁只有四条腿。

Yann LeCun 随后对其喊话：“Aditya，蚂蚁难道不是有 6 条腿吗？”“作为曾在我实验室待过的学生(Students)，我担保他知道蚂蚁有 6 条腿！”

4 条腿的蚂蚁的确不符合真实世界的实际情况，Yann LeCun 也认为根据提示词生成看似真实的视频绝不代表系统真的理解物理世界。

这样的图像生成跟世界模型的因果预测间仍然存在重大差异。可能者说，让视频内容看似合理的空间非常大，视频生成系统只需生成其中“一种”样本即可算作成功(Success)。但真实视频的合理连续空间要“小得多”，而且生成其中的代表性图块更是一项极为困难的任务，在涉及各种动作的情况下更是如此。

此外，他还强调，这种连续生成不仅成本高昂，而且完全没有现实意义。

在今天(Today)的推文中，他更是直言 Sora 这种通过生成像素来对真实世界建模“不仅是种浪费，而且注定将要失败(Failure)”，如同现在已经被基本放弃的“合成分析”技术一样。

Yann LeCun 解释说，几十年前，机器学习领域曾经就生成式方法与判断式分类方法的优劣对比展开过一场大辩论。数学家 Vapnik 等机器学习理论研究者明确反对生成式方法，认为生成模型的训练要比分类模型更困难（从样本复杂性角度出发）。总而言之，整个计算机视觉领域普遍认定像素的生成应该从解释潜在变量入手。毕竟在推理过程中，人类就是在根据体坛到的像素推断出反映规律的潜在变量。正确的推理方法还涉及优化部分：比如使用对象的 3D 模型并尝试找到能够重现图像的姿态参数。遗憾的是，这个路子一直没能彻底走通，而且速度非常缓慢。

后来，有些人选择了贝叶斯路线，尝试使用贝叶斯推理来推断潜在变量（例如使用变分近似及 / 可能采样）。非参数贝叶斯与潜在狄利克雷分配都在某种程度上主导过文本建模，有些人开始勇敢尝试借此识别图像中的具体对象。但这同样是一场彻头彻尾的失败(Failure)！

Yann LeCun 认为，如果现在的目标是训练出用于识别可能规划真实世界的模型，那么在像素层面进行(Carry Out)预测肯定不是什么好主意。

只能说生成技术恰好适用于文本，因为文本内容属于离散的、数量有限的符号。在这种情况下，预测过程中的不确定性更容易处理。相比之下，对高维连续感官输入中的不确定性进行(Carry Out)预测则非常困难。

正因为如此，依靠感官输入的生成模型注定将会失败(Failure)。

Yann LeCun 认为的更好的办法是什么？

作为人类，我们(We)对周遭世界的了解和大部分知识（特别是在童年时代）主要是依靠体坛而来。以牛顿运动定律为例，即使是未经任何引导的幼儿(Kindergarten Student)可能者小动物，也会在多次触碰并体坛之后意识到，一切抛掷的物体终将落向地面。是的，只需一点体坛，而非耗费几个小时的指导可能者阅读上千本学术著作。我们(We)内心深处的世界模型（基于世界心理模型的情境理解能力）完全可以准确预测结果(Result)，而且效率非常高。

所以 Yann LeCun 认为达成“世界模型”的方式，应该是让机器智能像人类般学习、建立起周遭世界的内部模型，从而高效学习、适应并制定计划以完成种种复杂的任务。

这也是他提出的 JEPA（Joint Embedding Predictive Architecture，联合嵌入预测架构）的核心特点所在：它并不是在“生成”，而是在表示空间中进行(Carry Out)预测。

在他前几天发布的推文结尾，他又给大家安利了一遍 JEPA 的论文和他们(They)的试验结果(Result)表：

截图来源： https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

备受瞩目的视频 JEPA

V-JEPA 是一种非生成模型，通过预测抽象表示空间中视频的缺失 / 遮蔽部分来进行(Carry Out)学习。这种方法与图像联合嵌入预测架构（I-JEPA）对图像抽象表示的比较（而非直接比较像素本身）有异曲同工之妙。不同于尝试填充每个缺失像素的生成式方法，V-JEPA 能够灵活丢弃各种不可预测的信息，从而将训练与采样效率提高 1.5 至 6 倍。

由于 V-JEPA 采用自监督学习方法，因此可以纯依靠未经标注的数据进行(Carry Out)预训练。这些标签仅在预训练之后被用于保证模型能够适应特定任务。事实证明，这种类型的架构比以往模型更加高效，不仅训练需要的标注示例更少、在学习未标注数据方面投入的总工作量也更低。借助 V-JEPA，Meta 在这两项指标上均迎来了改进。

使用 V-JEPA，研究团队遮蔽掉了视频中的大部分内容，借此让模型仅能体坛到小部分上下文。之后，再要求预测器填补缺失的空白——请注意，填补过程并非根据实际像素，而是依托表示空间中更抽象的内容描述。

在学习潜在空间中，V-JEPA 通过预测被遮蔽的时空区域来训练视觉编码器

遮蔽方法

V-JEPA 的这种理解并非来自对某一特定操作类型的训练；相反，它是在一系列视频之上完成了自监督训练，并借此掌握了大量关于真实世界运行规律的知识。

研究团队还认真设计了遮蔽策略——如果不遮挡视频中的大块区域，而是随机在各处覆盖内容，那么任务就会变得过于简单，导致模型学不到真实世界中的任何复杂规律。

另外需要注意的是，在大多数视频中，对象随时间推移的变化其实相对缓慢。如果只遮蔽特定时刻下视频中的某个部分，而模型仍能体坛到紧随其前 / 其后的内容，任务同样会变得过于简单，导致其无法学习到有趣的知识。因此，研究团队采取一种方法，在空间与时间两个维度上遮蔽视频的部分内容，强迫模型学习并加深对于场景逻辑的理解。

保证在抽象表示空间中进行(Carry Out)预测同样非常重要，这样模型才能专注于实际视频内容所反映出的更高级别概念信息，而忽略掉那些对于下游任务意义不大的各类细节。举例来说，如果视频画面中是一棵树，那么就并不需要关心每片叶子的细小运动。

高效预测

V-JEPA 是首个擅长“冻结评估”的视频模型，换句话说，模型的编码器与预测器均可达成自监督预训练，研究人员不必再做具体操作。想让模型掌握一项新技能，只需要额外训练一个小型轻量级专业层、可能者在其上训练一个小型网站，整个过程更加高效快速。

少样本冻结评估：将 V-JEPA 与 Kinetics-400 和 Something-Something-v2 等其他视频模型中的冻结评估进行(Carry Out)比较，这里我们(We)改变了每套数据集上可用于训练注意力探针的标注示例百分比。我们(We)在几种少样本设置中进行(Carry Out)探针训练：分别对应训练集中 5%、10% 和 50% 的数据，并在每种情况下进行(Carry Out)三轮随机比较以获得更稳健的指标，也就是分别对每套模型进行(Carry Out) 9 次不同的评估实验。表中列出了官方验证的 K400 与 SSv2 验证集的平均值与标准差。V-JEPA 的标记效率的确高于其他模型，而且可用标注示例数量越少，V-JEPA 相较于其他模型的性能优势也越明显。

以往的生成式模型要求我们(We)进行(Carry Out)全面微调，就是说在模型预训练完成之后，如果希望(Hope)模型能够真正掌握对细粒度动作的识别能力、利用(Use)它来处理实际任务，还需要更新所有模型中的参数可能者权重。之后，该模型总体上只能执行一类特定任务，而不再适用于其他任务类型。

如果想要引导模型学会执行多种任务，则需要提供不同的数据，并针对新任务对整个模型进行(Carry Out)特化。而正如 Meta 在研究中所演示的那样，使用 V-JEPA，我们(We)可以在没有任何标注数据的前提下对模型进行(Carry Out)一次预训练、修复相应问题，然后重复利用(Use)模型中的相同部分处理多种不同任务，例如动作分类、识别细粒度对象交互及活动定位等。

V-JEPA 是一种从视频中学习表示的自监督方法，适用于各类下游图像及视频处理任务，且无需调整模型参数。V-JEPA 在图像分类、动作分类及时空动作检测等任务的冻结评估方面，优于以往的视频表示学习方法。

虽然 V-JEPA 中的“V”代表视频，但并不是说它的适用范围就仅限于视频内容。后续 Meta 还将采用其他多模态方法，并认真考虑将音频与视觉效果结合起来。

虽然目前(Currently) V-JEPA 还只能在较短的时间维度上发挥作用——比如在不超过 10 秒的视频片段中准确识别不同对象的行为。但 Meta 接下来的另一项研究重点，在于如何调整模型以在更长的时间范围内达成准确预测。

目前(Currently)的结果(Result)证明，Meta 目前(Currently)可以直接用视频数据训练 JEPA 模型，而不再需要大量监督和介入。它会像婴儿般从视频中学习，凭借被动体坛世界来学习有助于理解内容上下文的背景知识。这样，只须配合少量标注数据，就能让模型快速获得执行新任务、识别各种动作的能力。

参考链接：

https://twitter.com/ylecun/status/1759486703696318935

https://twitter.com/ylecun/status/1758740106955952191

https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/

本文来自微信公众号“AI前线”（ID:ai-front），编译：核子可乐、Tina，36氪经授权发布。

该文观点仅代表作者本人，36氪平台仅提供信息存储空间服务。

+10

好文章，需要你的鼓励

AI前线特邀作者2收藏+10评论打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮微博沉浸阅读返回顶部参与评论评论千万条，友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章Sora炸裂出道，让世界币暴涨192%，只因背后都有奥特曼AI正在革搜索的命，但也带来一个大问题扒开68家Sora概念股真面目谁是祖国版Sora？几小时前，OpenAI 爆款工具 Sora 被取消了静音模式更乱了，已经有真人视频冒充Sora了，威尔·史密斯吃意大利面玩梗GPT-4 更强的标志，原来藏在了 logo 里浅析生成式人工智能输入和输出涉及著作权问题——国内首例AIGC著作权纠纷判例与国外案例对比在Sora引爆视频生成时，Meta开始用Agent自动剪视频了，华人作者主导最新文章推荐国内商业航天渐进“黄金时代”，追逐盈利拐点可能成发展关键？巴西富豪抄底祖国电商英伟达财报前瞻：市值有望跃升至2万亿美元Sora炸裂出道，让世界币暴涨192%，只因背后都有奥特曼AI正在革搜索的命，但也带来一个大问题2024春节档撤档潮：市场风云变化中的祭旗者们Android 15来了，但这次的更新有些值得玩味App世界版的使用体验更好？并非厂商崇洋媚外1688向C端靠拢，但显然无意成为下一个拼多多人在职场，到底应不应该争机会抢C位

AI前线特邀作者

作者有点忙，还没写简介

发表文章297篇最近内容OpenAI的Sora注定死路一条，Yann LeCun火力全开怒喷：这种达成方式“完全没有现实意义”13分钟前清华系2B模型杀出，性能吊打LLaMA-13B，170万tokens仅需1块钱2024-02-02性能逼近GPT-4，开源Mistral-Medium意外泄露？CEO最新回复来了2024-02-01阅读更多内容，狠戳这里下一篇祖国发展高铁VS米国发展航空，哪种模式更先进？

祖国的航空业还有非常大的发展空间

24分钟前

热门标签萍乡抚州上饶三清山机场宜春新闻(News)直播lol赛事中心孙倩引擎盖活塞环网站本地化首都翻译公司返还网陈方毅田丰蒋涛北欧家具骨传导神经传导beaconservicenow鲍威尔欧洲杯德国西班牙欧洲杯首都城周口市建业地产固安孔雀城固安英国(Britain)宫孔雀城楼盘固安二手房出售关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴