快捷搜索:  

iphone动嘴10秒p图,ucsb苹果全华人团队发布众模态mgie,官宣开源人人可玩

"iphone动嘴10秒p图,ucsb苹果全华人团队发布众模态mgie,官宣开源人人可玩,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 这篇报道的观点独到,让人眼前一亮。 新闻的写作风格流畅,文笔优秀,让人容易理解。 这篇报道的结构严谨,逻辑清晰,让人看了很舒服。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)创新城市最新创投汽车(Car)企服专精特新直播视频专题活动搜索寻求报道我要入驻城市合作iPhone动嘴10秒P图,UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩新智元·2024-02-05 15:10关注最近,来自UCSB和苹果的华人团队提出了MGIE,通过多模态模型引导图像精准编辑,可以10秒完成P图。

几天前,库克在苹果电话会上证实,「今年(This Year)晚些时候会发布生成式AI」。

ChatGPT掀起全球热潮之后,苹果也在悄悄发力AI,曾曝出的大模型框架Ajax、AppleGPT等AI工具让业界充满了期待。

6月举办的WWDC上,这家曾霸占全球市值第一公司,将会宣布各种AI能力整合到iOS 18、iPadOS 18等软件产品中。

而在此之前,你在iPhone可以抢先用上AI超能力了!

随意拍摄一张餐桌图,然后说一句「在餐桌上添加一份披萨」。披萨瞬间就出现在桌子上了。

此外,你还可以随意选一张图,可以让图片中哭脸变成笑脸、照片提亮、移除背景人物,甚至可以将绿植景色更换成海洋。

这些魔法达成,只需你动动嘴,立刻完成P图。

这项神奇的技术背后是由一个基于自然(Nature)语言修改图片的新模型——MGIE加持,由UCSB和苹果全华人团队共同完成。

具体就是,通过多模态模型,去引导图像进行(Carry Out)编辑。

论文地址:https://arxiv.org/pdf/2309.17102.pdf

从上面例子中看的出,MGIE最大的特点便是,用简短的话,就能达成出色的图像编辑能力。

目前(Currently),这篇论文已被ICLR 2024录用为spotlight,并且在今天(Today)正式开源。

所有人都可以上线试玩。

地址:http://128.111.41.13:7122/

MLLM理解,扩散模型生成

文本引导的图像编辑,在近来的研究中逐渐得到了普及。

因其对真实图像进行(Carry Out)建模拥有的强大能力,扩散模型也被用于图像编辑。

大模型在各种语言任务中,包括机器翻译、文本摘要和问答,展现出强大的能力。LLM通过从大规模语料库中学习,包含潜在的视觉知识和创造力,可以协助各种视觉和语言任务。

另外,多模态大模型(MLLM)可以自然(Nature)地将图片作为输入,在提供视觉感知响应,以及充当多模态助手展现出强大的能力。

受MLLM的启发,研究人员将其合并以解决指令引导不足的问题,并引入MLLM引导图像编辑(MGIE)。

如图2所示,MGIE由MLLM和扩散模型组成。MLLM学习导出简洁的表达指令,并提供明确的视觉相关指导。

通过端到端训练,扩散模型会联合更新,并利用(Use)预期目标的潜在想象力执行图像编辑。

具体来说,通过给定的指令X将输入图像V,编辑为目标图像

。为了处理不精确的指令,MGIE包含MLLM并学习导出明确而简洁的表达指令

为了桥接语言和视觉的模态,研究人员在

之后添加特殊的 [IMG] token,并采用编辑头T对其进行(Carry Out)转换。

它们(They)将指导扩散模型F达成预期的编辑目标。然后,MGIE能够通过视觉相关感知来理解模糊命令,以进行(Carry Out)合理的图像编辑。

这样,MGIE就能从固有的视觉推导中获益,并解决模糊的人类指令,从而达成合理的编辑。

比如,下图中在没有额外的语境情况下,很难捕捉到「健康(Health)」的含义。

而MGIE模型可以将「蔬菜配料」与披萨精确地联系起来,并按照期望进行(Carry Out)相关编辑。

即便用蒙版遮住人脸,MGIE也能准确理解背景中的妇人并移除。

照片提亮,也做的很出色。

图片中,MGIE在具体某块区域的精准编辑。

实验结果(Result)

为了学习基于指令的图像编辑,研究中采用了IPr2Pr作为预训练数据集。

它包含 1M CLIP过滤数据,其中指令由GPT-3提取,图像由Prompt-to-Prompt合成。

为了进行(Carry Out)全面评估,研究人员考虑了编辑的各个方面,包括EVR、GIER、MA5k、MagicBrush,并发现MGIE可进行(Carry Out)Photoshop风格的修改、全局照片优化和局部对象修改。

基线

研究人员将InsPix2Pix作为基线,它建立在CLIP文本编码器上,具有用于基于指令的图像编辑的扩散模型。

另外,还考虑了类似的LLM引导图像编辑(LGIE)模型,其中采用LLaMA-7B来表达来自仅指令输入但没有视觉感知的表达指令

实施细节

MLLM 和扩散模型

从LLaVA-7B和 StableDiffusion-v1.5初始化,并共同更新图像编辑任务。请注意,MLLM中只有词嵌入和LM head是可训练的。

按照GILL的方法,研究人员使用N =8个视觉token。编辑头T是一个4层的Transformer,它将语言特征转化为编辑指导。我们(We)采用批大小为128的AdamW来优化 MGIE。

MLLM和

的学习率分别为5e-4和1e-4。所有实验均在PyTorch中在8个A100 GPU上进行(Carry Out)。

定量结果(Result)

表一显示了零样本编辑结果(Result),其中模型仅在IPr2Pr上进行(Carry Out)训练。

对于涉及Photoshop风格修改的EVR和GIER,表达性指令可以揭示具体目标,而简短但模糊的命令去无法让编辑更接近意图。

对于MA5k上的全局照片优化,由于相关训练三元组的稀缺,InsPix2Pix很难处理。

LGIE和MGIE虽然是同一来源的训练,但可以通过LLM的学习提供详细的解释,但LGIE仍然局限于其单一的模式。

通过访问图像,MGIE可以得出明确的指令,例如哪些区域应该变亮,可能哪些对象更加清晰。

它可以带来显著的性能提升,另外在MagicBrush也发现了类似的结果(Result)。MGIE也在精确的视觉上获得了最佳的表现。

为了研究针对特定目的的基于指令的图像编辑,表2对每个数据集上的模型进行(Carry Out)了微调。

对于EVR和GIER,所有模型在适应Photoshop风格的编辑任务后都获得了改进。由于微调也使表达指令更加针对特定领域,因此MGIE通过学习领域相关指导来增加最多。

从上面的实验中,说明了使用表达指令进行(Carry Out)学习,可以有效地增强图像编辑,而视觉感知在获得最大增强的明确指导方面起着至关重要的作用。

消融研究

MLLM引导图像编辑在零样本和微调场景中,都表现出了巨大的改进。

现在,团队还研究了不同的架构来使用表达指令。

表3中,研究人员将FZ、FT和E2E架构进行(Carry Out)了对比,结果(Result)表明,图像编辑可以从LLM/MLLM指令推导过程中的明确指导中受益。

E2E与LM一起更新编辑扩散模型,LM学习通过端到端的隐藏状态,同时提取适用的指导,并丢弃不相关的叙述。

此外,E2E还可以避免表达指令可能传播的潜在错误。

因此,研究人员体坛到全局优化(MA5k)和本地编辑(MagicBrush)方面的增强最多。在FZ、FT、E2E中,MGIE持续超过LGIE。这表明具有关键视觉感知的表达指令,在所有消融设置中始终具有优势。

为什么MLLM的指导有很大帮助?

图4显示了输入可能真实目标图像与表达指令之间的CLIP-Score值。

输入图像的CLIP-S分数越高,说明指令与编辑源相关。更好地与目标图像保持一致可提供明确、相关的编辑指导。

由于无法获得视觉感知,LGIE的表达式指令仅限于一般语言想象,无法针对源图像量身定制。CLIP-S甚至低于原始指令。

相比之下,MGIE更符合输入/目标,这也解释了为什么表达性指令很有帮助。有了对预期结果(Result)的清晰叙述,MGIE可以在图像编辑方面取得最大的改进。

人工评估

除了自动评估指标外,研究还进行(Carry Out)了人工评估,以研究生成的表达指令和图像编辑结果(Result)。

研究人员具体为每个数据集随机采样25个示例(共100个),并考虑由人类对基线和MGIE进行(Carry Out)排名。

为避免潜在的排名偏差,研究人员为每个示例聘请了3名标注者。

图5显示了生成的表达性指令的质量。

首先,超过53%的人支持MGIE提供更实用的表达式指导,这有助于在明确的指导下完成图像编辑任务。

同时,有57%的标注者表示,MGIE可以避免LGIE中由语言衍生的幻觉所产生的不相关描述,因为它认为图像有一个精确的编辑目标。

图6比较了InsPix2Pix、LGIE和MGIE在指令遵循、地面真值相关性和整体质量方面的图像编辑结果(Result)。排名分数从1-3不等,越高越好。

利用(Use)从LLM可能MLLM派生的表达式指令,LGIE和MGIE的表现均优于基线,其执行的图像编辑与指令相关,并与地面真值目标相似。

此外,由于研究中的表达式指令可以提供具体的视觉感知指导,因此MGIE在包括整体编辑质量在内的各个方面都具有较高的人类偏好。这些性能趋势也与自动评估结果(Result)一致。

推理效率

尽管依靠MLLM来促进图像编辑,MGIE仅给出了简洁的表达指令(少于32个token)并包含与InsPix2Pix一样的可行效率。

表4显示了NVIDIA A100 GPU上的推理时间成本。

对于单次输入,MGIE可以在10秒内完成编辑任务。随着数据并行化程度的提高,我们(We)花费了相似的时间(例如,当批大小为8时,需要37秒)。

整个过程只需一个GPU(40GB)就可以负担得起。

总之,MGIE超越了质量基准,同时保持了有竞争力的效率,从而达成了有效且实用的图像编辑。

定性比较

图7展示了所有使用的数据集的可视化比较。

图8进一步比较了LGIE可能MGIE的表达指令。

总之,在最新研究中,UCSB和苹果团队提出了MLLM引导图像编辑(MGIE),通过学习生成表达指令来增强基于指令的图像编辑。

参考资料:

https://github.com/apple/ml-mgie

本文来自微信公众号“新智元”(ID:AI_era),作者:新智元,编辑:桃子,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+15

好文章,需要你的鼓励

新智元特邀作者2收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章香港最大AI诈骗案:Deepfake换脸「英国(Britain)CFO」,直接骗走公司2亿港币米国博士小哥打败女友的AI男友,7页论文让LLM降智,训出「负分男友」成功(Success)挽回“女巴菲特”惊人预测人形机器人将于2030年进入家庭,通用AI出现,赞祖国开源力量本周硅谷发生了什么?|苹果Vision Pro正式开售;Neuralink完成人类脑机接口植入;字节Coze国内版上线;人工智能的将来,藏在年轻人的AI女友里​阻止我们(We)春运回家的恶劣天气,AI可以预测吗?开源版GPTs人人免费用,Hugging Face发布定制个人助手,点2下轻松创建把猫看成狗,把车当成牛?给AI投毒后,AI再也没办法画画了市值一夜涨出一个阿里,只因Meta元宇宙和大模型都要?最新文章推荐2024年新能源车企生与死,看这三条红线2024,券商的五大关键词小红书上线「附近」,美团合并到店到家,本地生活(Life)2024混战拉开序幕英伟达获5亿美元天价大单,印数据中心一口气买下16000块H100/GH200 重复使用 风评被害?你可能搞错了祖国大厂错过《幻兽帕鲁》iPhone动嘴10秒P图,UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩香港最大AI诈骗案:Deepfake换脸「英国(Britain)CFO」,直接骗走公司2亿港币米国博士小哥打败女友的AI男友,7页论文让LLM降智,训出「负分男友」成功(Success)挽回一文回顾B站2023:超130位UP主年涨粉百万,流量流向不缺流量的人?新智元特邀作者

作者有点忙,还没写简介

发表文章1912篇最近内容英伟达获5亿美元天价大单,印数据中心一口气买下16000块H100/GH20046分钟前iPhone动嘴10秒P图,UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩49分钟前香港最大AI诈骗案:Deepfake换脸「英国(Britain)CFO」,直接骗走公司2亿港币50分钟前阅读更多内容,狠戳这里下一篇香港最大AI诈骗案:Deepfake换脸「英国(Britain)CFO」,直接骗走公司2亿港币

香港一家跨国公司员工,被骗子邀请进了用Deepfake做的「高管视频会议」中,下令让他转了2亿港币到不知名中账户,5天之后才发现被骗了。

50分钟前

热门标签中科创达祖国锦鲤小呆香港出租车西安出租车吴晓军广州家教武汉家教王芬西地那非伟哥万艾可金戈合肥出租车股指赵鑫鑫林珊珊黑人影帝乔恩·费儒华菁证券书籍元祖蛋糕图片海拉尔张掖盗梦空间记忆碎片小香猪韩松羊肉粉关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

iPhone动嘴10秒P图,UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩

您可能还会对下面的文章感兴趣:

赞(880) 踩(30) 阅读数(1176) 最新评论 查看所有评论
加载中......
发表评论