Meta 开源多语言大模型，可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

首页 > 行情 >

Meta 开源多语言大模型，可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

2023-05-31 00:17:21 个人图书馆-秀水岩

作者 | 李冬梅、核子可乐

近日，Meta 在 GitHub 上开源了一款全新的 AI 语言模型—— Massively Multilingual Speech ( MMS，大规模多语种语音) ，它与 ChatGPT 有着很大的不同，这款新的语言模型可以识别 4000 多种口语并生成 1100 多种语音（文本到语音）。发布短短几天，该项目已经在 GitHub 库收获了 25.4k Star，Fork 数量高达 5.7k。

(资料图片仅供参考)

论文地址：/publications/scaling-speech-technology-to-1000-languages/

博客地址：/blog/multilingual-model-speech-recognition/

代码 / 模型：https://github.com/facebookresearch/fairseq/tree/main/examples/mms

1 Meta 开源能识别 4000 多种语言的语音大模型

与大多数已公开发布的 AI 项目一样，Meta 这次也毫无意外地将 MMS 项目开源出来，希望保护语言多样性并鼓励研究人员在此基础之上构建其他成果。Meta 公司写道，“我们公开分享这套模型和相关代码，以便研究领域的其他参与者能在我们的工作基础上进行构建。通过这项工作，我们希望为保护令人惊叹全球语言多样性做出一点贡献。”

语音识别和文本转语音模型往往需要使用数千小时的音频素材进行训练，同时附带转录标签。（标签对机器学习至关重要，使得算法能够正确分类并“理解”数据。）但对于那些在工业化国家并未广泛使用的语言——其中许多语言在未来几十年内甚至有消失的风险——Meta 提醒称“根本就不存在这样的数据”。

Meta AI 团队称，MMS 项目最大的一个难点在于很多语言数据是缺失的。Meta AI 团队通过结合 wav2vec 2.0（该公司的“自监督语音表示学习”模型）和一个新数据集来克服其中一些挑战。其中一些语言，例如 Tatuyo 语言，只有几百人使用，而且对于其中的大多数语言，之前不存在语音技术。

Meta 表示：“收集数千种语言的音频数据是我们的第一个挑战，因为现有最大的语音数据集最多涵盖 100 种语言。为了克服它，我们求助于圣经等宗教文本，这些文本已被翻译成多种不同的语言，并且其翻译已被广泛研究用于基于文本的语言翻译研究。这些翻译有公开的录音，记录了人们用不同语言阅读这些文本的情况。作为该项目的一部分，我们创建了 1100 多种语言的新约读物数据集，每种语言平均提供 32 小时的数据”。

潜在的性别偏见分析。在 FLEURS 基准测试中，基于大规模多语言语音数据训练的自动语音识别模型对于男性和女性说话者具有相似的错误率。

乍看之下这种方法大有问题，因为此类训练思路似乎严重偏向宗教的世界观。但 Meta 表示情况并非如此，“虽然录音内容涉及宗教，但我们的分析表明，产出的模型并不会生成更多宗教语言。猜测这是因为我们使用了连接主义时间分类（CTC）方法，与语音识别类大语言模型（LLM）或序列到序列模型相比，前者受到的限制要大得多。”此外，尽管大多数宗教录音都是由男性朗读，但也不会引入男性偏见——模型在女性和男性单色中同样表现出色。

2 相比同类模型，MMS 单词错误率更低

在训练出能够使用这些数据的对齐模型之后，Meta 又引入 wav2vec 2.0，可通过未标注的数据进行训练。非常规数据源和自监督语音模型相结合，最终带来了令人印象深刻的结果。“我们的结果表明，与现有模型相比，大规模多语言语音模型表现良好，覆盖的语言数量是现有模型的 10 倍。”具体来看，Meta 将 MMS 与 OpenAI 的 Whisper 进行比较，实际结果超出预期。“我们发现在 MMS 数据上训练的模型将单词错误降低了一半，而 MMS 涵盖的语种数量则增长至 11 倍。”

Meta 公司警告称，这套新模型并不完美。“例如，语音转文本模型在特定的单词或短语上可能存在一定的错误转录风险。根据输出结果，这可能会导致攻击性和 / 或不准确的表述。我们仍然相信，整个 AI 社区的协作对于负责任开发 AI 技术至关重要。”

考虑到 Meta 已经发布了这套开源研究的 MMS 模型，希望它能扭转因科技巨头的支持习惯而逐渐将全球使用语言缩减至 100 种以下的趋势。以此为契机，辅助技术、文本转语音（TTS）甚至 VR/AR 技术，也许将给每个人都塑造出能用母语表达和学习的世界。Meta 表示，“我们设想一个依靠技术带来相反效果的世界，鼓励人们保持自己母语的活力，通过自己最熟悉的语言获取信息、使用技术。”

Meta 的结果表明，大规模多语言语音模型优于现有模型，覆盖的语言数量是现有模型的 10 倍。Meta 通常专注于多语言：对于文本，NLLB 项目将多语言翻译扩展到 200 种语言，而 Massively Multilingual Speech 项目将语音技术扩展到更多语言。

Meta 表示该款大模型相比于 OpenAI 的同类产品单词错误率少了一半。

在与 OpenAI 的 Whisper 的同类比较中，我们发现在 Massively Multilingual Speech 数据上训练的模型实现了一半的单词错误率，但 Massively Multilingual Speech 涵盖的语言是其 11 倍。这表明与当前最好的语音模型相比，我们的模型可以表现得非常好。

3 Meta AI 在大语言模型路上越走越远

在硅谷这场愈演愈烈的 AI 大战中，一直 All in 元宇宙的 Meta 正在加速追赶 OpenAI、谷歌、微软等大模型先行者们。

今年 2 月 24 日，在火遍全球的 ChatGPT 发布 3 个月后，Meta 在官网公布了一款新的人工智能大型语言模型 LLaMA，从参数规模来看，Meta 提供有 70 亿、130 亿、330 亿和 650 亿四种参数规模的 LLaMA 模型，并用 20 种语言进行训练。

Meta 首席执行官马克·扎克伯格表示，LLaMA 模型旨在帮助研究人员推进工作，在生成文本、对话、总结书面材料、证明数学定理或预测蛋白质结构等更复杂的任务方面有很大的前景。

Meta 首席 AI 科学家杨立昆（Yann LeCun）表示，在一些基准测试中，LLaMA 130 亿参数规模的模型性能优于 OpenAI 推出的 GPT3，且能跑在单个 GPU 上；650 亿参数的 LLaMA 模型能够和 DeepMind 700 亿参数的 Chinchilla 模型、谷歌 5400 亿参数的 PaLM 模型竞争。

4 月 19 日，Meta 宣布开源 DINOv2 视觉大模型。据悉，DINOv2 是一最先进的计算机视觉自监督模型，可以在深度估计、语义分割和图像相似性比较等任务中实现 SOTA 级别的性能。该模型可以借助卫星图像生成不同大洲的森林高度，在医学成像和作物产量估算等领域具有潜在应用。

5 月 10 日，Meta 宣布开源可跨越六种感官的大模型 ImageBind，新的 ImageBind 模型结合了文本、音频、视觉、运动、热和深度数据。该模型目前只是一个研究项目，展示了未来的人工智能模型如何能够生成多感官内容。通过利用多种类型的图像配对数据来学习单个共享表示空间。该研究不需要所有模态相互同时出现的数据集，相反利用到了图像的绑定属性，只要将每个模态的嵌入与图像嵌入对齐，就会实现所有模态的迅速对齐。

Meta 力求通过这样密集的发布向外界证明自己还一直跑在 AI 赛道中。

然而，在烧光了几十亿美元义无反顾押注元宇宙后，Meta 在 AI 方面的能力还是受到了外界的质疑。

在 Meta 公司今年 4 月的季度财报电话会议上，公司 CEO 扎克伯格明显相当被动。砸下数十亿美元、被寄予延续帝国辉煌厚望的元宇宙愿景还没来得及初试啼声，就被围绕人工智能（AI）掀起的汹涌狂潮抢了风头，刹那沦为明日黄花。

批评者们注意到就连 Meta 自己的底气也有所减弱，扎克伯格去年 11 月和今年 3 月两份声明间的口吻大为改变。之前扎克伯格强调这个项目属于“高优先级的增长领域”，而今年 3 月则转而表示“推进 AI”才是公司的“最大单一投资方向”。

但扎克伯格本人还是做出了澄清，表示“有人认为我们正以某种方式放弃对元宇宙愿景的关注，我想提前强调，这样的判断并不准确。”

“多年以来，我们一直专注于 AI 和元宇宙技术，未来也将继续双管齐下……构建元宇宙是个长期项目，但我们的基本思路将保持不变、努力方向也不会动摇。”

/metas-open-source-speech-ai-recognizes-over-4000-spoken-languages-161508200.html

/blog/multilingual-model-speech-recognition/

特别声明：本文为网易自媒体平台“网易号”作者上传并发布，仅代表该作者观点。网易仅提供信息发布平台。

Meta 开源多语言大模型，可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

Meta 开源多语言大模型，可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半

幼儿园多久退学费（刚上幼儿园几天退学费）

【时快讯】关于王景春五级焊工证怎么回事 影帝王景春晒五级焊工证的相关信息

世界讯息：5月30日瀛通通讯发布公告，其股东减持37.6万股

全球时讯：宅男财经｜云锦东方摇号暂定、退款开启！分析师：住房销售监管得到加强

大众汽车集团（中国）全资控股科技公司项目签约落户合肥

营造国际化政务服务环境 海南举办首期商务外语培训班-速看

TGA：调查显示超76%玩家不看好索尼新掌机-短讯

沪陕高速和渑淅高速在什么地方联接_当前最新

全球最新：零食加盟店10大品牌前三名图片（零食加盟店10大品牌）

全球快消息！郑州电力高等专科学校乒乓球队参加河南省“移动杯”第十四届运动会学生组乒乓球比赛中获得佳绩

吃中药期间可以喝茶水吗?-环球快看

世界焦点！受台风“玛娃”影响 香港天文台发出“极端酷热天气”特别提示

全球快报:腾讯控股：斥资约3.52亿港元回购112万股

港股30日涨0.24% 收报18595.78点_环球精选

天天精选！木瓜奇迹手游版排行榜top10 热门木瓜奇迹手游合集

国家烟草专卖局专卖司领导莅云调研卷烟打假工作

唉！NBA最不想看到的总决！再见了，塔图姆！可能是绿军离队第一人

how123.com（how123主页）

日照哪里可以赶海又有民宿_日照哪里可以赶海 全球关注

非洲B2B电商“Sabi”B轮融资3800万美元 环球快资讯

小小少年，“弓腰”上学为哪般？小学生“大书包”现象透视 环球热讯

普莱得上市首日涨31% 募资6.7亿元预计上半年净利降 世界快讯

协创数据（300857）：该股换手率大于8%（05-30）

成宜高铁引入成都东站站改工程正式启动 全球热点

国家文物局：陕西发现一处商代高度发达的青铜文明和区域政治中心 焦点速递

中国贸促会报告：一季度受访外企对中国多项营商环境指标满意度均超80%_环球快消息

售19.98万 红旗E-QM5 PLUS新增车型上市 视讯

港股异动 | 远洋集团(03377)午后涨超9% 居然之家拟19.63亿元收购北京朝阳远洋未来广场

苹果6s和6有什么区别_差异在哪方面-世界快报

今日看点：《英雄联盟手游》银色星尘获得方法

汽车合格证什么时候给车主_什么时候买汽车最便宜 天天视讯

每日热门：go down是什么意思中文_go down是什么意思

世界滚动:浦江郊野公园滨江漫步路线图来啦！沿途有这些看点

换帅致三线崩盘！踢球者调查：83%球迷认同拜仁解雇萨利&卡恩

“奔跑吧·少年”儿童青少年主题健身活动启动

​2023年全国（暨京津冀）化妆品安全科普宣传周举办_环球新资讯

能级提升 凝聚智慧 北京国际科创中心建设提速

2021年工资税率表-2021年工资税率

世界热议:干式变压器型号参数大全解析_干式变压器型号

揭阳楼广场图片（揭阳楼广场） 全球热点评

全球关注：烤得又快又嫩！九阳速嫩烤空气炸锅免翻面高效出餐

消息！儿童节“安全礼物”请查收！四川送消防安全教育进校园

大智大勇是什么生肖的动物_大智大勇是什么生肖

燕窝果产业蓬勃发展 创新合作模式助力农民增收致富-世界通讯

世界通讯！蹲厕堵了怎么通最有效 蹲厕所堵了怎么疏通

湖北4座在建长江大桥“冒”出地面-环球今亮点

人文经济学丨“白发姑苏”传承焕新——2500年古城的人文经济嬗变 全球热闻

TVB识货三个月内拿下淘宝头部主播！“港剧式直播”魅力何在？|每日速递

哈尔滨市道里区出让4宗地块 总成交价约9.72亿元 世界关注

发动机瓦片异响怎么回事？-环球新消息

百亿私募仓位连续四周站上80%大关|今日热门

即将年满 60、70 周岁的驾驶人请注意，超龄如何换证看这里|头条

要帮助王曼昱提高，马琳表示世乒赛是第一次，还在学习当中

聚智聚力共促高质量发展 安徽理工大学召开高质量发展战略咨询会_新视野

江山股份最新公告：南通产控拟提前终止减持计划 南通产控及其一致行动人已合计减持0.8%股份_环球热头条

国际金价或跌破1937美元 世界微头条

腾景科技: 腾景科技关于自愿披露设立南京分公司的公告

ST信通（600289）：5月29日13时20分触及跌停板

当前播报:日本首例L4级自动驾驶服务面向公众推出

今日看点：数字赋能效益高 小店有“颜”更有“料”

2023中国科幻大会5月29日晚开幕，科幻首钢园即将精彩呈现 重点聚焦

速看：江苏4月全社会用电增速创近12年同期新高

当前短讯！电魂网络5月29日盘中涨幅达5%

柳州男子深夜上山，彻夜未归！结果在这里被找到-当前资讯

环球快资讯：兴安盟：夏季旅游产品线路新鲜出炉

环球关注：宏台式bios如何设置u盘启动不-(宏基电脑bios怎么设置u盘启动)

法网第2日，德约首秀，世界第1登场，中国4人出战，剑指开门红！_世界聚看点

这条路通了，解决郑州东站东广场“痛点”

正能量学习的文案(学习励志文案)

开收据必须盖章吗 需要交税吗 快报

世界快资讯：碳金融工具

罗马诺：多特向格雷罗开出了合同，但他正在考虑迎接新的挑战-焦点热文

建筑施工安全计算

刘作虎“用力太猛”，骁龙8Gen2旗舰突降3499元，12GB+256GB+2K屏 全球即时看

锁爱三生顾梦恢复记忆了吗|环球观焦点

热点评！怀旧空吟闻笛赋 到乡翻似烂柯人典故情感_ldquo 怀旧空吟闻笛赋 到乡翻似烂柯人 rdquo 运用的典故

【聚看点】瓦格纳撤退巴赫穆特之际，释放106名乌克兰军人，是示好还是别有用心

搁这进货呢工作人员找梅西要签名，又从包里翻出阿根廷球衣 世界今热点

【时快讯】关于王景春五级焊工证怎么回事影帝王景春晒五级焊工证的相关信息

营造国际化政务服务环境海南举办首期商务外语培训班-速看

世界焦点！受台风“玛娃”影响香港天文台发出“极端酷热天气”特别提示

日照哪里可以赶海又有民宿_日照哪里可以赶海全球关注

非洲B2B电商“Sabi”B轮融资3800万美元环球快资讯

小小少年，“弓腰”上学为哪般？小学生“大书包”现象透视环球热讯

普莱得上市首日涨31% 募资6.7亿元预计上半年净利降世界快讯

成宜高铁引入成都东站站改工程正式启动全球热点

国家文物局：陕西发现一处商代高度发达的青铜文明和区域政治中心焦点速递

售19.98万红旗E-QM5 PLUS新增车型上市视讯

汽车合格证什么时候给车主_什么时候买汽车最便宜天天视讯

2023年全国（暨京津冀）化妆品安全科普宣传周举办_环球新资讯

能级提升凝聚智慧北京国际科创中心建设提速

揭阳楼广场图片（揭阳楼广场）全球热点评

燕窝果产业蓬勃发展创新合作模式助力农民增收致富-世界通讯

世界通讯！蹲厕堵了怎么通最有效蹲厕所堵了怎么疏通

人文经济学丨“白发姑苏”传承焕新——2500年古城的人文经济嬗变全球热闻

哈尔滨市道里区出让4宗地块总成交价约9.72亿元世界关注

聚智聚力共促高质量发展安徽理工大学召开高质量发展战略咨询会_新视野

江山股份最新公告：南通产控拟提前终止减持计划南通产控及其一致行动人已合计减持0.8%股份_环球热头条

国际金价或跌破1937美元世界微头条

今日看点：数字赋能效益高小店有“颜”更有“料”

2023中国科幻大会5月29日晚开幕，科幻首钢园即将精彩呈现重点聚焦

开收据必须盖章吗需要交税吗快报

刘作虎“用力太猛”，骁龙8Gen2旗舰突降3499元，12GB+256GB+2K屏全球即时看

热点评！怀旧空吟闻笛赋到乡翻似烂柯人典故情感_ldquo 怀旧空吟闻笛赋到乡翻似烂柯人 rdquo 运用的典故

搁这进货呢工作人员找梅西要签名，又从包里翻出阿根廷球衣世界今热点

今日要闻!我国科技成果转化规模显著提升年度报告显示：高校院所转化合同总金额同比增长约25%

AITO问界第十万辆车下线余承东：我们创造了一个奇迹世界速看料

伊朗边防军与阿富汗塔利班边防士兵发生冲突致2人死亡|每日播报

毛不易像我这样的人歌词含义_毛不易像我这样的人歌词

【世界快播报】与爱同行抒写时光太保家园第二届客服节精彩启幕

环球速读：今日最新更新内容金星如何评价高艳津子揭她的出生年月等个人资料简历

最新：碳中和周报|七国集团力争到2030年将太阳能使用量增加两倍以上珠海冠宇拟以103亿元投建动力电池生产项目

高压线的安全距离_简述各种高压线的安全距离天天速看

濮阳惠成董秘回复：产品市场价格受原材料价格、市场供需变化、国际贸易环境等多方面因素的影响当前热文

出口发票备注栏写错发票备注栏写错怎么办

看点：宁新新材北交所上市首日涨17％募资3.42亿元

怎么卸载360浏览器壁纸（怎么卸载360浏览器）热门

小程序正式上线！全市首家“检校问诊室”运行两年，再添指尖上的护“未”力量环球观察

【全球快播报】【超级对抗赛】郑宇伯19-12击败郝添三个月内达成5连冠伟业！

全球快消息！南江县沙河镇小学：馆校关切童声同阅

湖南电网第三监管周期输配电价及有关事项明确（附解读）全球今热点

浦口城市管理：跟着垃圾“趣”旅行践行环保新风尚

重庆巴南：全力打造新时代“红岩先锋”变革型组织助推区域教育高质量发展全球快消息

美国债务危机解决在望黄金价格面临进一步下行压力

泰胜风能（300129）：5月25日北向资金增持23.36万股当前热文

《造梦之家》曝中国版海报，流光溢彩的梦境绝美-观察