Meta开源多语言翻译模型SeamlessM4T:实现100多种语言高效翻译,全球沟通新突破

   日期:2025-01-16     来源:网络整理    作者:二手钢材网    浏览:251    评论:0    
核心提示:多种语言在语音-语音、语音-文本和文本-语音方面的高效翻译,为全球语言沟通带来了新的可能。种语言的语音。语音到文本翻译/语音到语音翻译模型研究人员表示,未来将进一步研究语音的韵律和情感,让翻译后的语音输出更加自然生动。

《银河系漫游指南》中神奇的“巴别鱼”赋予了人们瞬间跨越语言鸿沟的能力,是无数人心目中“高效语言沟通”的终极形式。

现在,我们距离实现这个梦想或许已经不远了。

就在今天,权威科学期刊报道了 meta 开发的开源多语言、多模态机器翻译模型,该模型在语音转语音、语音-语音翻译方面实现了 100 多种语言的高效翻译突破。到文本和文本到语音方面。 ,为全球语言交流带来新的可能性。

科幻小说语言_科幻的语言_

具体来说,它可以接受任何这些语言的文本或语音输入并将其翻译为文本,还可以将 36 种语言的语音直接翻译为语音。

不仅如此,在处理语音转文本任务时,其承受背景噪声和适应说话人变化的能力也比其他系统平均高出约50%,展现出强大的鲁棒性。

对此,塔林理工大学语言处理教授Tanel Alumäe在评论文章中表示,“作者使用真实世界数据的方法将为语音技术开辟一条有希望的道路,预计可与科幻作品中的科技。”

科幻的语言__科幻小说语言

他还写道,“这项工作的最大优势不是提出的想法或方法,而是运行和优化该技术的所有数据和代码都是公开的,尽管模型本身仅可用于非商业用途。研究人员将翻译模型描述为“基础模型”,这意味着它可以在精心策划的数据集上进行微调,以实现特定目的,例如提高某些语言对或专业术语的翻译质量。”

目前,基于这项研究,meta 已经在该架构的基础上训练了改进版本 V2,采用分层字符到单元上采样和非自回归文本到单元解码方法,在保持高精度的同时加快了处理速度。生成语音和文本翻译结果的速度有多快。

人工智能正在打破人类语言障碍

尽管当前的机器翻译技术已经取得了显着的进步,但大部分仅限于文本翻译,语音到语音翻译(S2ST)面临着许多挑战。

现有的多语言翻译系统通常依赖级联系统,通过多个子模型串联完成复杂的任务。不仅翻译效率低,而且主要适应少数语言。在面对背景噪声、说话人变化等不稳定因素时,鲁棒性不足。

为了解决这些问题,应运而生。该模型基于SONAR多语言、多模态嵌入空间架构,有效结合语音和文本处理能力,通过海量原始语音和文本数据自动挖掘对齐资源,实现翻译准确性和流畅性的提升。

此外,研究团队还使用自监督和半监督学习方法来训练模型,使其能够从大量原始数据中学习,减少对人工特定标签的依赖。

科幻小说语言__科幻的语言

图| -V2系统架构

科幻小说语言_科幻的语言_

在数据层面,通过新的语言识别(LID)模型识别了100多种语言。在研究过程中,meta团队基于SONAR嵌入空间提供了200种语言的单一文本编码器和解码器,并提供了37种语言的语音编码器。通过文本到文本翻译(T2TT)任务,证明注意力机制对于实现合理的翻译准确性并不是必需的。使用 SonAR 的文本和语音编码器,meta 团队挖掘了三种类型的对齐数据,并构建了涵盖 37 种语言、超过 470,000 小时的语料库。

其在多个翻译任务中的表现显着超过传统的级联模型,在语言覆盖率和任务处理速度上具有显着优势。与 、 、 、 等大规模语音理解和生成模型相比,具有明显的优势。

在X-eng方向的语音到文本翻译(S2TT)任务中,-V2的BLEU得分比传统级联系统高4.6分,性能显着提升;与2-8B AST等直接S2TT模型相比,高出6.9分,显示出其在多语言翻译方面的强大优势。

在语音到语音翻译(S2ST)任务中,-LARGE 的得分比两阶段级联模型的 ASR-BLEU 得分高出 8 分,改进后的-V2 进一步提高了 3.9 分,明显领先于其他同类系统。

在语音到文本翻译的CVSS任务中,-V2相比两阶段级联模型将ASR-BLEU得分提高了9.6分。

科幻小说语言_科幻的语言_

科幻小说语言__科幻的语言

图| SOTA语音转文本翻译/语音转语音翻译模型

在零样本文本到语音翻译(T2ST)任务中,-LARGE V2在某些语言方向上的性能与级联模型相当甚至更好,体现了模型强大的通用性和灵活性。

这表明在没有训练数据的情况下仍然可以提供准确的翻译结果,进一步提高了模型的通用性和灵活性。

在抗噪声、适应说话人变化等方面也取得了技术突破。在背景噪声和扬声器变化的实验中,-V2 的性能相比 -LARGE-V2 提高了近 50%。

在语音到语音翻译任务中,-V2抵抗背景噪声的能力提高了42%,对说话人变化的适应能力提高了66%。这些改进保证了在嘈杂环境等实际应用场景下高效、准确的翻译性能。

科幻的语言_科幻小说语言_

图|多任务处理结果

科幻的语言_科幻小说语言_

此外,随着人工智能技术的广泛应用,机器翻译模型中的毒性和偏差问题备受关注。 meta 团队进行了严格的毒性和性别偏见评估,并实施了缓解措施。

科幻的语言_科幻小说语言_

图|添加了毒性考虑因素的 28 种语言方向的语音到文本翻译和语音到语音翻译的平均结果

在毒性检测方面,他们使用ETOX、MuTox等工具消除训练中的有害数据,降低模型产生有毒输出的概率,为用户提供健康的通信环境;在性别偏见方面,研究团队使用2.0等工具进行检测和优化,在处理性别变化时表现出比之前版本更强的鲁棒性,尤其是S2ST任务中性别变化的鲁棒性显着提升。

警惕潜在风险

虽然它已经可以翻译成大约100种语言,但仍然存在一些限制。

_科幻的语言_科幻小说语言

世界上大约有 7000 种语言,该工具在许多人类可处理的场景中仍然面临困难。此外,在实际应用中,系统的ASR性能受到用户性别、种族、口音和语言差异的影响,导致识别和翻译不准确,限制了其在不同人群中的应用。

在处理俚语和专有名词时,系统在不同资源级别的语言中的翻译质量参差不齐;在实时交互场景中,由于语音通信对即时反馈要求较高,用户很难评估输出的质量、误译或有毒内容。风险更高,并且不能像书面通信那样进行修改。同时,语音的韵律和情感信息在当前系统输出中没有得到充分体现,影响了信息的准确传递。

研究人员表示,未来他们将进一步研究语音的节奏和情感,使翻译后的语音输出更加自然、生动。另一方面,低延迟语音翻译和流式翻译技术成为关键突破。低延迟可以减少翻译时间差异,使沟通更加顺畅。

康奈尔大学的一位助理教授在一篇评论文章中从安全角度提出了担忧,“基于语音的技术越来越多地用于高风险任务,例如在体检期间做笔记或抄写法律诉讼程序,正如 meta 团队所模型的那样正在开发中,正在加速这一领域的进展。然而,这些模型的用户,例如医生和法院官员,以及提供语音输入的个人,应该意识到语音技术的错误性。”

提到鉴于现有模型的性能在不同语言之间存在很大差异,因此必须格外小心以确保模型能够熟练翻译或转录某些语言的特定术语。这项工作应该与计算机视觉研究人员的工作并行,他们正在努力改善代表性不足的群体中图像识别模型的不良性能,并防止模型做出令人反感的预测。

此外,她认为未来有必要应用面向设计的思维,以确保用户能够正确理解这些质量参差不齐的模型提供的翻译。开发人员还应该考虑如何传达模型限制。这可能包括在准确性有问题时完全丢弃输出,或者将低质量输出与书面警告或视觉提示配对。也许最重要的是,如果用户愿意,他们应该能够选择不使用语音技术,例如在医疗或法律环境中。

 
打赏
 
更多>同类资讯

0相关评论
推荐热播视讯

推荐视频

    Copyright © 2017-2020  二手钢材网  版权所有  
    Powered By DESTOON 皖ICP备20008326号-2