跳过正文
  1. Posts/
  2. 算法部分/

Moshi

··1575 字·4 分钟
算法部分
蚂蚁无双
作者
蚂蚁无双
AI 与生活
目录

Moshi: a speech-text foundation model for real-time dialogue, Moshi AI

各路大佬都纷纷预测,近小几十年内人工智能有望达到 AGI 能力,无论各自对 AI 之于人类是充分乐观,亦或是满怀隐忧。

显然 AGI 到底是怎么样的一种智能水平,至少目前还没有一个明确的定义。借用新进诺贝尔物理学奖获得者辛顿所言 – “拥有比我们更聪明的东西会有什么感觉,我们毫无经验。”

将诺贝尔物理学奖颁发给一个明显在物理学没有重大贡献的计算机科学家,已经充分表示对这波人工智能对人类的可能存在的潜在影响的共识。

技术爆炸
#

这也符合刘慈欣在《三体》中描述的“黑暗森林”法则,其中的一个前提 – 技术爆炸。

从上万年前的石器时代,到青铜器、铁器时代的农业革命持续了近万年。而以 18 世纪瓦特发明蒸汽机为代表的工业革命,至今不过 300 年。如果我们将电子计算机的出现作为标志的信息革命独立出来看待,也就近百年间的事情。

如果没有重大变故(天灾、人祸),无疑科技的加速动能还在持续显现,我们有理由相信大佬们的预言,或许他们还是保守了。

仿生学
#

大语言模型(LLM)作为此次 AI 革命的发起者,一定程度上脱离不了“仿生学”。它的底层基础,也是辛顿的主要贡献 – 神经网络,就是模拟的人类大脑神经元的结构。

农业革命,人类遵守自然规则,利用大自然,生产大自然的已有的产品。工业革命,人类在自然基础上,创造、构建貌似精致的人工产品。信息革命,人类

一、视、听、嗅、味、触、意——六识。

二、眼根、耳根、鼻根、舌根、身根、末根——六根。

三、色、声、香、味、触、法——六尘。

六识发动六根而接触六尘,六尘映入六根而由六识判别及记忆保存,再从六识的记忆保存中显现出来,发动六根贪取六尘,就这样交互回还而造成生生死死之流。

如果说狭义上的大语言模型(LLM)

必要性
#

大语言模型具备原生声音处理的必要性,

  1. ASR -> LLM -> TTS 这套流程,会拉长整个对话的延迟,不符合大部分情况下实际的日常交谈场景,交互体验并不优秀。
  2. 纯文本无法捕捉到文字外的东西,比如声调、发音、情绪等。
  3. 正常交谈中并不是严格“回合制”的,有 10%~20% 的重叠(比如,“是的”、“明白”等适当的回馈),以及打断的情形。

即,要解决上述情景对应的三个问题,延迟、只有文本信息、单调的“回合制”交谈。

image.png

image.png

核心组件
#

Helium
#

MoshiAI 训练的大语言模型,只处理自然语言(文本)。

Inner Monologue
#

联结语音和文本 tokens 的过程。

Moshi:实时对话的语音-文本基础模型
#

Moshi: a speech-text foundation model for real-time dialogue, Moshi AI

当今,各路大佬纷纷预测,在未来几十年内,人工智能有望达到AGI(通用人工智能)能力。无论是对AI持充分乐观态度,还是满怀隐忧,人们都在热议这个话题。

AGI到底是什么样的智能水平,目前还没有一个明确的定义。正如最新诺贝尔物理学奖获得者辛顿所言——“拥有比我们更聪明的东西会有什么感觉,我们毫无经验。”

将诺贝尔物理学奖颁发给一位在物理学上没有重大贡献的计算机科学家,这已经充分体现了人类社会对人工智能可能带来的潜在影响达成了一致共识。

技术爆炸
#

这种共识也符合刘慈欣在《三体》中描述的“黑暗森林”法则,其中一个前提就是——技术爆炸。

从几万年前的石器时代,到青铜器、铁器时代,再到农业革命,这个过程持续了近万年。而以18世纪瓦特发明蒸汽机为代表的工业革命至今不过300年。如果我们将电子计算机的出现视为信息革命的新起点,这也只是近百年的事情。

如果没有重大变故(天灾、人祸),科技进步的加速动能还会持续显现。我们有理由相信大佬们的预言,或许他们还是保守了。

仿生学
#

大语言模型(LLM)作为这次AI革命的重要推手,在某种程度上脱离不了“仿生学”的范畴。它们的底层基础,也是辛顿的重要贡献——神经网络,模拟的是人类大脑神经元的结构。

农业革命,人类遵守自然规则,利用大自然资源生产已有产品;工业革命,人类在自然基础上创新创造精致人工产品;信息革命,人类开始…

一、视、听、嗅、味、触、意——六识。 二、眼根、耳根、鼻根、舌根、身