hacker_news_audio_tech_2026-03-29

Hacker News 音频技术 - 2026-03-29

1. Mistral Voxtral TTS 通过 MLX 在苹果设备上实现本地运行

_{作者: lbj96347 | 发布于: 2026-03-28 12:47}

2. Mistral AI发布开源TTS模型，宣称性能超越ElevenLabs

_{作者: nickthegreek | 发布于: 2026-03-26 14:31}

3. mdbook-tts：将 mdBook 转换为可听的有声书

_{作者: bilalbayram | 发布于: 2026-03-25 15:31}

4. Show HN：提供完整方法论的、可复现的开源语音转文字API基准测试

_{作者: jilijeanlouis | 发布于: 2026-03-24 13:06}

5. Show HN：macOS Kokoro-TTS 文档朗读器——聆听任意文本

一款macOS应用，利用Kokoro TTS模型，可将ePub、PDF和纯文本文件转换为自然语音进行朗读。

_{作者: mattcheston | 发布于: 2026-03-20 03:20}

6. STT.ai如何保护您的音频与转录：客户端加密存储

_{作者: nadermx | 发布于: 2026-03-19 20:14}

7. Show HN：三款新的 Kitten TTS 模型发布，最小体积不到 25MB

Kitten TTS发布三款轻量级开源语音模型，参数从1400万到8000万，支持8种人声，无需GPU即可在树莓派等设备运行。

_{作者: rohan_joshi | 发布于: 2026-03-19 15:56}

8. Show HN：面向阅读障碍者的 Chrome 文本转语音阅读器

HoverSpeak是一款面向阅读障碍者的免费浏览器扩展，通过悬停和快捷键快速朗读网页文本，无需选中或登录。

_{作者: yaronl_elh | 发布于: 2026-03-19 15:46}

9. Qwen-ASR-CLI：纯Rust编写的本地Qwen语音识别命令行工具

_{作者: huang4fun | 发布于: 2026-03-19 12:28}

10. Show HN：实时本地TTS（3100万参数，5.6倍CPU，语音克隆，ONNX）

作者发布了一个基于VITS的小型TTS模型，支持语音克隆和混合，采用Apache 2.0许可，注重低延迟本地推理，但音质和相似度有限。

_{作者: ZDisket | 发布于: 2026-03-18 20:48}

11. Show HN：STT.ai – 音频视频转文字工具

_{作者: nadermx | 发布于: 2026-03-18 09:12}

12. 用手机语音输入在笔记本电脑上打字

作者开发了一个工具，可通过手机键盘语音输入在电脑上打字，支持vim、浏览器等环境。

_{作者: theSage | 发布于: 2026-03-16 06:56}

13. Show HN：SciTeX 通知——为 AI 智能体赋予声音：文本转语音、电话呼叫、短信

为AI代理构建的多级通知系统，通过语音、邮件、短信直至电话呼叫提醒用户任务进度，支持本地和远程服务器。

_{作者: ywatanabe1989 | 发布于: 2026-03-15 22:19}

14. Show HN: TTS.ai – 文本转语音

_{作者: nadermx | 发布于: 2026-03-15 16:41}

15. Show HN：在浏览器中使用设备端语音识别实现语音跟踪的提词器

基于语音识别的浏览器端提词器，可根据说话节奏自动滚动和高亮文本，支持暂停和跳行匹配。

_{作者: lbaune | 发布于: 2026-03-15 09:15}

16. Show HN：CastReader – 免费为 Kindle Cloud Reader 提供语音朗读的扩展

CastReader浏览器扩展通过解码字体和OCR技术，解决Kindle等平台因非标准渲染导致的文本提取问题，支持多站点内容提取和开源TTS语音合成。

_{作者: vinxu | 发布于: 2026-03-12 19:07}

17. 自托管TTS代理与语音管理器

_{作者: mooreds | 发布于: 2026-03-10 13:32}

18. Show HN：TTS.ai

_{作者: nadermx | 发布于: 2026-03-08 07:01}

19. Qwen3-ASR-Swift

_{作者: handfuloflight | 发布于: 2026-03-05 10:00}

20. Show HN：KokoClone——使用 Kokoro TTS 实现零样本语音克隆

KokoClone项目在Kokoro TTS基础上实现零样本语音克隆，支持多语言，可在CPU/GPU上运行，保持原系统的速度和实时性。

_{作者: Ashish106 | 发布于: 2026-03-04 19:07}