GPT-4o 与 Gemini Live:AI 实时语音对话的新战场,谁能称霸?

   日期:2024-11-21     来源:网络整理    作者:二手钢材网    浏览:237    评论:0    
核心提示:会念诗、还拿捏住了拟人化既然他不擅长讲笑话,那就换个最近网络上的热门话题,问他知不知道小米雷军在汽车工厂摆拍,看起来他对这件趣事挺门清的。对最近李子柒的回归做一个评价,从结果来看,他的语言组织和总结能力还是不错的。在这方面,昆仑万维可以说布局较早且合理。

然而,由于大型语音模型比大型语言和图像模型更难训练、部署和交互,因此该赛道的参与者并不多。可见,目前唯一能够与GPT-4o竞争的恐怕就是的Live了。

如今,这些“敌人”正忙着扩大用户生态。 GPT-4o语音功能已向各类付费用户开放,并与苹果合作集成到Siri中。谷歌首先允许所有用户访问实时语音功能,最近又允许iOS用户与语音助手进行交流。

与此同时,国内一些厂商也陆续推出了类似的大型实时语音对话模型和应用,如智普、科大讯飞等,填补了一些空白。如今,这条赛道迎来了一位强大的新玩家——它就是昆仑万维研发的Skyo实时语音对话助手。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍__实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

视频链接:

声音听起来还蛮不错的! Skyo 内置了非常清晰、爽朗的男声。

Skyo是基于其背后的天工模型4.0 4o版本(4o)构建的。从名字上看,Skyo中的“o”也代表了omni的意思,而且落在语音对话场景,直接对标GPT-4o。从定位和功能上来说,Skyo作为一款智能语音交互产品,具有快速响应、实时打断、情感响应、真实内容交互、个性化声音定制等多样化功能。

可以说,Skyo基本能hold住用户在AI语音对话中想要体验的场景和功能,并且还优化了当前AI语音助手的一些痛点。

实时对话人工智能

第一要准确,第二要快

与传统语音助手的主要区别在于,基于大模型开发的AI实时语音对话助手可以应对更复杂的情境,执行更个性化的任务,开始从“工具”的属性向“人类伴侣”的属性转变。

自GPT-4o以来,语音交互场景下的AI拥有了前所未有的感知能力。除了更加智能和多功能之外,不仅响应延迟显着降低,而且还可以准确读取用户的情绪基调,例如兴奋、快乐或悲伤,并进行逼真的模仿和响应。

然而,随着越来越多的用户体验GPT-4o语音功能,其一些缺点也逐渐显现出来,比如不善于识别自然停顿、无法准确回应所请求的话题等。

_实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍__实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

同样,此后出现的一系列对标 GPT-4o 的产品,例如 Live 和法国开源 AI 研究实验室的 Moshi 等,尽管它们都声称可以创建自然流畅的 AI 对话,但从用户来看反馈来看,还存在一些直接影响通话体验的缺点,比如可用性差、经常被打断、延迟严重等。

_实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍__实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

当然,Skyo还需要尽力克服AI实时语音对话助手的常见问题。效果如何?我们仍然需要看看它的现场表现如何。

第一手实测

他能吟诗,还善于拟人。

在与 Skyo 面对面交谈后,我们得到了一些惊喜。

首先,我们向Skyo询问一些健康知识问题。他的回答合理、全面、重点突出。其中,他还没回答完上一个问题,我们就开始下一个问题,而且他衔接得很好。这说明Skyo能够轻松响应用户中断场景并在两个问题之间平滑切换。

我们还发现,Skyo的回答中带有“呃”,与人类日常对话中常用的“呃”类似,这意味着他是经过思考后回答的。语气并不像机器人那样机械、生硬、冰冷。会出现“哦”之类的感叹词,拟人属性很强。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍__实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

视频链接:

其次,情感反应成为现阶段语音交互AI追求的主要目标之一。它必须能够识别用户在对话过程中的情绪波动并给出准确的反馈。

Skyo 在这方面也做得很好,了解用户情绪并使对话更加人性化。当我们告诉他一些困扰我们的事情时,他会安慰我们,给我们很多情感价值,也会给我们一些建议。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍__实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

视频链接:

然后我们请Skyo讲了一个小笑话,这个笑话“震惊了全场”。

既然他不擅长讲笑话,那我们就换个最近网络热议的话题,问问他知不知道小米雷军在车厂合影的事。看来他对这个有趣的事情还是相当熟悉的。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_

视频链接:

让Skyo对李子柒近期的回归做一下评价。从结果来看,他的语言组织能力和总结能力还是不错的。如果放在现实世界里,他应该擅长写论文。

这也意味着Skyo具备一定的实时信息获取和知识扩展能力,并利用外部知识库来强化自身。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍__实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

视频链接:

最后,让Skyo换成英勇的女声,请她读一首诗。她当即选择了李白的《静夜思》。看来她身上有几分浪漫的基因。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_

视频链接:

随后男声朗诵徐志摩的《送别康桥》,情感饱满,节奏控制得很好。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍_

视频链接:

你是如何打造出这样一个可以男女声自由切换、能安慰人、能读诗、能知世事的国产AI聊天伙伴?

Skyo上述能力的实现得益于其采用了先进的端到端实时语音建模技术,其中框架链路均为自主研发,保持业界领先。这样,基于对用户语音输入内容的高精度理解(即准确听),可以做出相对快速的响应(即快速回答)。响应时间一般在1秒左右。

此外,得益于昆仑万维在自研语音技术框架、大模型训练和数据积累方面的深厚积累,Skyo也能在高强度对话中保持稳定和流畅,在情感表达和实时交互上更加高效。满足用户需求。

不过,我们不得不承认,现阶段Skyo的功能并不完善,在恢复过程中声音偶尔会出现失真,但这就是我们在进化之路上必须经历的。

未来,Skyo将不断耕耘,开发多语言支持、主动交流、音乐生成等更丰富的功能。我们可以期待一波它的到来。

当法律放慢脚步时

多模态人工智能应用势在必行

近日,Law“碰壁”的消息开始在AI社区流传。该领域的顶尖玩家谷歌和谷歌都被曝在开发更先进的模型时遇到了相当大的困难。例如,内部代号“Orion”的新模型并没有达到预期的训练结果。 。

虽然这一观点后来被一些人反驳,但不可否认的是,随着高质量互联网数据的逐渐短缺以及缺乏突破架构的主流大模型训练等因素,大模型发展速度放缓似乎不可避免。 。

实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍__实测昆仑万维对话AI「Skyo」,会读诗、知晓雷军摆拍

奥特曼:“墙”并不存在。

相反,基于大模型的人工智能应用遍地开花,如搜索引擎、音乐生成、语音交互、代理等,可以拓展生成式人工智能的实现场景,重塑人机交互范式,带来多元化的人工智能体验和体验。生产力提高。 。因此,形成完整的应用矩阵,同时保证基础型号的性能“不落后”,对于想要继续立足的厂商来说尤为重要。

对此,昆仑万维可以说布局早且合理。一方面,自主研发的天宫系列基础模型已发展至4.0版本,性能处于全球领先水平。另一方面,构建了清晰多元的AI业务矩阵,AI搜索、AI文档音视频分析、AI写作、AI音乐、AI图片生成等主流AIGC应用已融入天宫AI平台。模型和应用都要双手去抓,双手都要有力。

此次,Skyo实时语音对话助手是昆仑万维抢占AI语音交互应用市场、布局多模态布局的又一举措。与前不久推出的天宫AI高级搜索功能一样,它也将成为构建全栈大模型能力栈的重要组成部分。

据了解,Skyo实时语音对话助手将于近期在天宫App上线,并接入天宫搜索,获取更精准的实时信息。可以预见,此举将进一步丰富天宫平台的功能,让用户打开手机就能体验到AI原生实时对话的乐趣。

回顾年初,昆仑万维提出了“实现通用人工智能,让每个人更好地塑造和表达自己”的新使命。为此,公司以天宫AI平台为主要平台,不断迭代更新AI应用功能,深化大模型能力发布,通过文字、图像、语音融合新一代人机交互等。更完全模态。

未来,昆仑万维将继续聚焦实时图像视频理解等领域,形成开箱即用的AI应用,从而在创新技术进步的过程中加快迈向AGI的步伐,充分满足用户的 AIGC 需求。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2