算法部分 · AI 炼金术

音频基础

更新于: 2024-12-06·595 字·2 分钟

算法部分

声音的本质（音调、音量、音色） # 音调：频率，声波的频率，即声音的音调，人类听觉的频率（音调）范围为 20Hz—20KHz 音量：振幅，声波的响度，通俗的讲就是声音的高低，一般男生的声音振幅（响度）大于女生音色：波形，与材质有关，谐波（不规则的正弦波）数字音频处理过程 # 模拟信号 -> 采样 -> 量化 -> 编码 -> 数字信号

Moshi

更新于: 2024-12-06·1575 字·4 分钟

算法部分

Moshi: a speech-text foundation model for real-time dialogue, Moshi AI 各路大佬都纷纷预测，近小几十年内人工智能有望达到 AGI 能力，无论各自对 AI 之于人类是充分乐观，亦或是满怀隐忧。

强化学习 PPO

更新于: 2024-12-06·205 字·1 分钟

算法部分

强化学习 # 首先我们来认识一下强化学习。

Tokenizer

更新于: 2024-06-11·2270 字·5 分钟

算法部分

前言：此部分文章并非系统性的教学文章，网络上已经很多非常优秀的教学课程，顶尖且免费。比如，哔哩哔哩上李沐大神的《动手学深度学习v2》，Andrej Karpathy 在 YouTube 上教程，以及 Standford CS224N 课程。这里主要记录作者的一些理解，有意思的知识点，或者豁然开朗的乐趣，希望你也能喜欢！