7月31日,华为宣布将向部分Plus用户推出高级语音模式,并计划于秋季向所有Plus用户开放。

正在推动新一代人工智能语音助手的发展。新的音频功能将允许用户与某人交谈并立即收到实时响应,或者在他们说话时打断他们。语音模式可以区分不同语音音调传达的信息。它听起来更自然,并用声音传达各种不同的情绪。
新的语音模式由该公司的 GPT-4o 模型提供支持,该模型结合了语音、文本和视觉。该公司表示,语音高级功能最初将向“一小部分 Plus 用户”推出,以收集反馈,但今年秋季将向所有 Plus 用户开放。
语音通话体验的上线时间从 6 月底推迟到 7 月,称需要时间才能达到发布标准。该公司表示,已经与 100 多个外部红队合作,使用 45 种语言测试了 GPT-4o 的语音能力。该公司表示,已经建立了多项安全机制,例如与配音演员合作创建四种预设声音,以保护隐私,并防止该模型被用于创建深度伪造声音。GPT-4o 不会模仿或生成其他人的声音。
GPT-4o 首次推出时,因使用一种名为“Sky”的声音而遭到强烈反对,该声音听起来很像女演员斯嘉丽·约翰逊的声音。斯嘉丽·约翰逊曾发表声明称,有人联系过她,希望她允许该模特使用她的声音,但她拒绝了。该公司否认这是约翰逊的声音,但已暂停使用 Sky。

该公司还表示,已经采用了过滤器来识别和阻止生成音乐或其他受版权保护音频的请求,并将文本模型中使用的相同安全机制应用于 GPT-4o,以防止其违反法律并生成有害内容。“我们已经设置了护栏来阻止对暴力或受版权保护内容的请求。”此外,视频和屏幕共享等更高级的功能将在稍后推出。


