谷歌发布 Gemini Live 服务，对标 OpenAI ChatGPT 语音模式

日期：2024-08-14 来源：网络整理作者：二手钢材网浏览：117 评论：0

核心提示：谷歌表示用户可以在聊天机器人说话时打断它，提出后续问题，聊天机器人会实时适应用户的说话模式。Live的一个场景，模拟用户和招聘经理（或人工智能，视情况而定）交谈，为用户提供演讲技巧推荐、提供优化建议。谷歌表示，多模态输入将在“今年晚些时候”推出，但拒绝透露具体细节。

促进自然、流畅的对话

谷歌表示，Live 提供了一种移动对话体验，使用户可以进行自由、流畅的对话。

Live可以说是最新上线的Voice模式（有限Alpha测试），采用增强型语音引擎，实现更加连贯、情感表达更加丰富、更加逼真的多轮对话。

谷歌表示，用户可以在聊天机器人说话时打断它并提出后续问题，聊天机器人会实时适应用户的说话模式。

IT之家翻译了部分谷歌博文如下：

通过 Live [使用该应用程序]，用户可以与其交谈并从 [10 种新] 自然声音中进行选择，以便它可以做出响应。

用户甚至可以按照自己的节奏说话，或者打断回答以提出澄清问题，就像人类对话一样。

演示了 Live 中的一个场景，模拟用户与招聘经理（或根据情况而定的 AI）之间的对话，为用户提供演示技巧建议和优化建议。

谷歌发言人表示：

Live 使用我们的模型，我们对其进行了调整，使其更具对话性。当用户与 Live 进行长时间对话时，会使用该模型的大型上下文窗口。

不支持多模式输入

Live 还没有在 I/O 大会上展示的一项功能：多模式输入。

谷歌在五月份发布了一段预先录制的视频，视频中，Live 可以通过手机摄像头拍摄的照片和视频了解用户周围环境并做出反应，比如说出坏掉的自行车的零部件名称，或者解释计算机屏幕上一段代码的作用。

谷歌表示多模式输入将于“今年晚些时候”推出，但拒绝提供具体细节。

标签： 对话交流谷歌聊天机器人实时适应用户节奏

打赏

更多>同类资讯

0 条相关评论