快捷搜索:  

让霉霉说地道中文的 ai,又惊艳升级了

"让霉霉说地道中文的 ai,又惊艳升级了,这篇新闻报道详尽,内容丰富,非常值得一读。 这篇报道的内容很有深度,让人看了之后有很多的感悟。 作者对于这个话题做了深入的调查和研究,呈现了很多有价值的信息。 " 账号设置我的关注我的收藏申请的报道退出登录登录搜索36氪Auto数字时氪将来消费智能涌现将来城市启动Power on36氪出海36氪研究院潮生TIDE36氪企服点评36氪财经(Finance)职场bonus36碳后浪研究所暗涌Waves硬氪媒体品牌企业号企服点评36Kr研究院36Kr创新咨询企业服务核心服务城市之窗行政部门服务创投发布LP源计划VClubVClub投资机构库投资机构职位推介投资人认证投资人服务寻求报道36氪Pro创投氪堂企业入驻创业者服务创投平台 首页快讯资讯推荐财经(Finance)科技(Technology)企服城市最新创投汽车(Car)AI创新直播视频专题活动搜索寻求报道我要入驻城市合作让霉霉说地道中文的 AI,又惊艳升级了爱范儿·2024-04-02 20:11关注数字替身更上一层楼

你应该在短视频(Short Video)平台刷到过各种 AI 配音:猴哥、紫薇、四郎......

初听有趣,但听多了容易腻,因为真人不这么讲话,原型也不是每时每刻都处在半死不活可能者被掐着脖子的状态。

尤其当它们(They)都在说「家人们谁懂啊」,会让不慎刷到的人暴躁到崩溃,上演猴哥甩头表情包:烦死了·GIF。

其实,AI 配音未必都这么有特点,而是越来越像你我一样普通,难以和真人分辨开来,这可能许才是更可怕、也更有意思的。

不独立行走的 AI,把人类吓坏了

前段时间,X 上有个超火的「带货视频」,一个女子坐在汽车(Car)前排,直视着镜头,手舞足蹈、眉飞色舞地推销湿巾。

大多数网友的关注点,不在于她带了什么货,而是判断她是不是真人。

他们(They)看她的手和口型,数她瞪白眼的时间,甚至体坛她的发丝、面部肌肉、脸颊光影,势要找出证据把 AI 锤死。

为技术焦虑的悲观主义者说,AI 都这么真实了,人类要完蛋了。对技术半信半疑但维权意识强烈的网友说,这是真人的素材被盗了。

然而,两种说法都不对,事情走向了最平淡的结局:视频主演真实存在,她叫 Ariel Marie,今年(This Year) 24 岁,自愿给 AI 打工。

去年 12 月,Marie 通过零工平台 Fiverr 接单,向法国 AI 公司 Arcads 提供了自己的声音和肖像,按照对方的要求,录制了 9 个不同场景的视频,包括边走边说的、坐在车里的。

最近爆火的视频,她没能第一个知道。等到出圈之后,朋友(Friend)的朋友(Friend)发来视频,问她是不是被 AI 偷脸了,她才了解到网友们都在关心自己是否是人类的一份子。

打开视频的瞬间,连 Marie 自己都愣了一下,冷静下来细看,这个数字人是她又不是她,她不会这么推销产品。

Ariel Marie 本人

所以,视频并非纯 AI,而是基于真人演员的预录制,再使用了 DeepFake、AI 配音、口型匹配等技术。

AI 是否独立行走,可能许不重要,哪怕没有从头到尾使用 AI,只要最终效果逼真,也是成功(Success)的「造假」。网友们第一反应里的疑惑和惶恐,已经说明了问题所在。

AI 甚至不需要比真人做得更好,水平相当就能过关,比如作为绿幕素材插入视频,反而让人觉得是刻意为之,粗制滥造的效果别有风味。

毕竟,我们(We)刷短视频(Short Video)时,可能正处在最分心的状态,坐在沙发,躺在床上,可能者在厕所蹲坑,注意力不足以识别是不是 AI。

Marie 为 AI 拍摄的 5 个视频,报价和接单平台的普通视频差不多,15 秒广告的起价约为 70 美元,60 秒广告的起价约为 130 美元。

同时,Arcads 的套餐收费不低,每月 100 欧元 10 个视频,但创作者们还是能节省时间、金钱和精力。

他们(They)输入文字内容、挑选符合风格的演员,几分钟就能生成视频素材,比招聘真人要便宜,还不需要反复沟通和寄出产品。

图片来自:YouTube@Alex Cooper

自从 Marie 走红,更多 AI 公司向她抛去了橄榄枝。人类成为 AI 产品的素材,可能许也是一条短暂可行的生财之道。

AI 的言行举止,更像普通人了

同在 AI 视频领域,之前让霉霉说中文爆火的 HeyGen,最近也整了新活。

他们(They)的 AI 角色 Nik,在阳光正好的公园里步履款款,边走边说左手插兜右手自然(Nature)摆动,甚至还会走累了坐下,丝滑切换英语、德语和西班牙语。

效果已经有些难辨真假,不是只能在镜头前面正襟危坐、除了对口型八风不动的状态了。

这说明 AI 角色在两个方面取得了进步,一是可以识别和跟踪用户的身体动作,包括手部,二是在保持口型同步的同时,切换语言还能克隆用户的语音语调。

其实,HeyGen 的 AI 角色也是取材于真人演员,默认的 AI 角色有上百个,拥有不同种族、年龄、手势。

同时,HeyGen也支持我们(We)定制自己的 AI 角色,但是对拍摄设备和场地的要求稍高。

所以在不久的将来,我们(We)应该可以创建自己的数字替身,让它精准地复制自己的动作和说话方式,同时又无痛掌握多国语言。

虽然最新的功能还没有开放使用,但 HeyGen 放出了 Demo,欢迎网友们输入文本随意尝试口型同步功能,我便让 Nik 读《岳阳楼记》,4 分钟左右就生成完毕,效果有些幽默。

Nik 在普通话里混了外国口音,谪守的谪、浩浩汤汤的汤没读对,口型似乎对上了又没有完全对上,更没有投入什么感情,看着他皱起的眉头,仿佛他自己也越念越疑惑。

值得一提的是,HeyGen 背后有 OpenAI 的支持,他们(They)的视频翻译,使用了 OpenAI 前不久官宣的语音模型「Voice Engine」,既可以把声音翻译成多种语言,还保留母语的口音。

官宣,但不是对外发布,OpenAI 的理由是担心滥用,毕竟门槛太低了——使用文本输入和一个 15 秒音频样本,他们(They)的模型就能生成与原始说话者非常相似的自然(Nature)语音。

但 OpenAI 的普通话说得还不够好,咬字奇怪,声调读不准,当然,考虑到是外国友人,带点口音才显得纯正。

微软,OpenAI 的金主,也在拟人语音方面颇有建树,最近推出了 9 种更真实的 AI 语音,主要服务于对话场景,这和 ChatGPT 等更加通用的产品不同,更加重调人情味。

其中还有两段中文,领先了 OpenAI,甚至不逊色普通话一级甲等的国人。

字正腔圆,没有一点杂音,像播音主持专业毕业生坐在录音棚聊天,咬字、语气、笑声、停顿都非常像真人,听起来确实非常自然(Nature),在抖音(Tik Tok)和视频号前途无量。

以后我们(We)看的五分钟电影(Movie)解说里的「注意看这个男人叫小帅」,可能许不再那么有机器味了。而在一些露脸的视频里,博主们也完全可以用自己的数字替身代劳。

那些相貌出众但不真实的 AI 颜值博主会过时,难以分辨的 AI 普通人博主才是职业生涯长青的赛博打工人(Worker)。

与其焦虑被偷家,不如自己拥抱数字替身

面对越来越「普通人」的 AI,深感焦虑的,除了怕被诈骗的大众,还有从业者们,这直接关乎到他们(They)的饭碗。

克隆声音,从文本生成音频,用你的声音说出你不会说的话,正在变得越来越容易。OpenAI 语音模型所需的样本,只有短短的 15 秒,短视频(Short Video)都比这长。

行业头部可能许还站如松坐如钟,但刚入行、不出名、充当背景板的配音演员们悬起了心。

配音演员 Jared Butler 就是其中一位,他擅长模仿名人的声音,曾是德普的「嘴替」,在《加勒比海盗 3:世界的尽头》等大片为杰克船长配过音。

然而,比他更会模仿声音的 AI 来了。Jared Butler 深感打击:「你可能觉得,它们(They)听起来是糟糕的客服机器人,但我必须说,这项技术的准确性让人恐惧(Fear)。」

但也因为没有什么可以失去,对于一些配音演员来说,AI 反而是个就业机会。AI 公司们和这些配音演员,属于双向奔赴。

当对数据质量的要求越来越高,同时公开来源的数据搜集是否道德、是否经过本人同意存在舆论争议,AI 公司和专业人士达成你情我愿的合作,成了最稳妥的方式。

Replica Studio 是较为出名的一家 AI 语音技术公司,已经搭建起了一个游戏(Game)角色语音库。

与之合作的一位配音演员透露,对于每个角色,他都会录制不同情绪的台词,快乐(Happiness)的、悲伤(Sad)的、压力山大的。每种情绪大约有 7000 个单词,最终的音频数据集长达几个小时。

虽然在短视频(Short Video)之外,AI 配音还不那么普及,但嗅到危机的一些配音演员决定主动出击,变相转行,翻身做老板,手把手教 AI 代替自己。

为《博德之门 3》等游戏(Game)大作配过音的配音演员 Cissy Jones,发现自己被偷了声音对方还不道歉之后,怒而开了一家 AI 语音初创公司 Morpheme。

她保证和那些小偷的道德标准不一样,在争得演员同意之后,才创建他们(They)的数字替身,让他们(They)从中盈利,演员们也可以选择结束合作。

与此同时,Cissy Jones 自己也想省力,让 AI 帮自己做最累的配音部分,尖叫声、沉重的呼吸声,诸如此类。

说回文章开头提到的 AI 带货视频,起初,Ariel Marie 对 AI 只有一个模糊的概念。在贡献自己的声音和肖像之后,她问 Arcads 这些素材会用来做什么。

对方回答,你的肖像会被放在网站上,让别人输入他们(They)想说的话,然后你说给他们(They)听。这个简单的答案,反而打动了 Ariel Marie,她觉得有点可怕,但更多是觉得,这太酷了。

AI 不会倒退,诈骗等负面影响可能也很难禁绝,但同时 AI 只会变得更好、更快、更便宜、更接近人类。

站在原地讨论(Discuss)人的创造力和人性如何保留,可能许是苍白而无力的。我们(We)在一次次案例里被迫承认,AI 在某些方面已超过普通人,比如我们(We)无法在思考几秒之后,就字正腔圆、情绪饱满地说出几十秒的话。

但在人与人之间,起跑线可能许差别不大,焦虑的情绪彼此共鸣,如何让 AI 为自己所用,如何避免 AI 剥夺自己,不排斥看到新的世界的机会,也是人类创作力的体现 。

本文来自微信公众号“APPSO”(ID:appsolution),作者:张成晨,36氪经授权发布。

该文观点仅代表作者本人,36氪平台仅提供信息存储空间服务。

+10

好文章,需要你的鼓励

爱范儿特邀作者0收  藏+10评  论打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮微  博沉浸阅读返回顶部参与评论评论千万条,友善第一条登录后参与讨论(Discuss)提交评论0/1000你可能也喜欢这些文章腾讯、抖音(Tik Tok)齐上阵,AI社交方向转为AI伴侣6年亏500亿,商汤苦寻解药吴恩达最新演讲:AI Agent工作流的将来“Sora概念股”狂飙,能否打破“过山车”魔咒?从Sora展开,全面解读AI视频大模型发展史又一款字节AI产品火了,Gauth下载量三个月暴增14倍,一度反超多邻国今天(Today)的AI,是2000年互联网泡沫重演?愚人节整真活!ChatGPT放开限制,不注册也能玩 | 最前线现在,ChatGPT不注册登录也能免费用了最新文章推荐华为撤回“遥遥领先”商标申请,商标已无效 | 最前线让霉霉说地道中文的 AI,又惊艳升级了211学霸假扮专科生,这面试比爽剧上头花王再“砍”品牌,曾是全日第一彩妆即将停产独立App上线,可能已为抖音(Tik Tok)电商的将来埋下了伏笔腾讯、抖音(Tik Tok)齐上阵,AI社交方向转为AI伴侣字节十二年,张一鸣的「幸福(Happiness)烦恼」智能化最积极的海尔,对大模型不着急了6年亏500亿,商汤苦寻解药肯德基的KCOFFEE加入9.9元鏖战爱范儿特邀作者

聚焦创新及消费科技(Technology)领域

发表文章2840篇最近内容让霉霉说地道中文的 AI,又惊艳升级了1小时前打败 Midjourney,这个 Google 大牛推出的 AI 产品凭什么弯道超车昨天(Yesterday)不爱大牌爱“平替”,这些年轻人是怎样想的?昨天(Yesterday)阅读更多内容,狠戳这里下一篇211学霸假扮专科生,这面试比爽剧上头

一个戾气太重的求职环境,对于双方而言都是伤害。

1小时前

热门标签完达山奶粉北大荒张沫凡产业结构优化高附加值风险点payoneer我独自生活(Life)日日顺百视通上海文广英镑汇率心理账户m17三角洲离岸鞋离岸运动员冷冻电镜搬家公司收费情况罗迦陵哈同成份股规模化养殖场乐居群星vfx电容话筒文书摩根大通银行刘看山关于36氪城市合作寻求报道我要入驻投资者关系商务合作关于我们(We)联系我们(We)加入我们(We)网站谣言信息举报入口热门推荐热门资讯热门产品文章标签快讯标签合作伙伴阿里云火山引擎高德个推星球日报(Daily)鲸准氪空间富途牛牛企服点评人人都是产品经理领氪36氪APP下载iOS Android36氪本站由 阿里云 提供计算与安危服务 违法和不良信息、未成年人保护举报电话:010-89650707 举报邮箱:jubao@36kr.com 网上有害信息举报© 2011~2024 首都多氪信息科技(Technology)有限公司 | 京ICP备12031756号-6 | 京ICP证150143号 | 京公网安备11010502036099号意见反馈36氪APP让一部分人先看到将来36氪鲸准氪空间

推送和解读前沿、有料的科技(Technology)创投资讯

一级市场金融信息和系统服务提供商

聚焦全球优秀创业者,项目融资率接近97%,领跑行业

让霉霉说地道中文的 AI,又惊艳升级了

您可能还会对下面的文章感兴趣:

赞(865) 踩(6) 阅读数(6257) 最新评论 查看所有评论
加载中......
发表评论