hacker_news_audio_tech_2026-04-01

Hacker News 音频技术 - 2026-04-01

1. Show HN:Dograh——利用LLM选择录音而非TTS的语音代理

Dograh v1.20发布,这是一个开源语音AI代理平台。新增Gemini 3.1实时支持与预录音频功能,以降低延迟并提升自然度。平台提供可视化工作流,支持自托管,避免供应商锁定。

作者: a6kme | 发布于: 2026-03-31 18:28


2. Show HN:Migas——带实时发言人标注的会议助手(无需机器人,无需云端语音转文字)

Migas是一款本地语音识别工具,通过设备端声纹识别实时标注说话人,支持跨会议积累上下文,仅AI聊天需云端处理。

作者: blakers95 | 发布于: 2026-03-31 15:33


3. Voxtral TTS – 文本转语音生成器

作者: MintNow | 发布于: 2026-03-29 10:16


4. Mistral Voxtral TTS 通过 MLX 在苹果设备上实现本地运行

作者: lbj96347 | 发布于: 2026-03-28 12:47


5. Mistral AI发布开源TTS模型,宣称性能超越ElevenLabs

作者: nickthegreek | 发布于: 2026-03-26 14:31


6. mdbook-tts:将 mdBook 转换为可听的有声书

作者: bilalbayram | 发布于: 2026-03-25 15:31


7. Show HN:提供完整方法论的、可复现的开源语音转文字API基准测试

作者: jilijeanlouis | 发布于: 2026-03-24 13:06


8. Show HN:macOS Kokoro-TTS 文档朗读器——聆听任意文本

一款macOS应用,利用Kokoro TTS模型,可将ePub、PDF和纯文本文件转换为自然语音进行朗读。

作者: mattcheston | 发布于: 2026-03-20 03:20


9. STT.ai如何保护您的音频与转录数据:客户端加密存储

作者: nadermx | 发布于: 2026-03-19 20:14


10. Show HN:三款全新 Kitten TTS 模型发布,最小体积不足 25MB

Kitten TTS发布三个开源小模型,支持8种语音,无需GPU即可在树莓派等设备运行,旨在缩小本地与云端TTS的差距。

作者: rohan_joshi | 发布于: 2026-03-19 15:56


11. Show HN:面向阅读障碍者的 Chrome 文本转语音阅读器

HoverSpeak是一款面向阅读障碍者的免费浏览器扩展,通过悬停和快捷键快速朗读网页文本,无需选中或登录。

作者: yaronl_elh | 发布于: 2026-03-19 15:46


12. Qwen-ASR-CLI:纯Rust编写的本地Qwen语音识别命令行工具

作者: huang4fun | 发布于: 2026-03-19 12:28


13. Show HN:实时本地TTS(3100万参数,5.6倍CPU,语音克隆,ONNX)

作者发布了一个基于VITS的小型TTS模型,支持语音克隆和混合,采用Apache 2.0许可,注重低延迟本地推理,但音质和相似度有限。

作者: ZDisket | 发布于: 2026-03-18 20:48


14. Show HN:STT.ai – 音频视频转文字工具

作者: nadermx | 发布于: 2026-03-18 09:12


15. 用手机语音输入在笔记本电脑上打字

作者开发了一个工具,可通过手机键盘语音输入在电脑上打字,支持vim、浏览器等环境。

作者: theSage | 发布于: 2026-03-16 06:56


16. Show HN:SciTeX 通知——为 AI 代理赋予声音:TTS、电话、短信

scitex-notification为本地和远程AI代理提供多级通知系统,从语音播报到电话呼叫,支持紧急绕过静音模式。

作者: ywatanabe1989 | 发布于: 2026-03-15 22:19


17. Show HN: TTS.ai – 文本转语音

作者: nadermx | 发布于: 2026-03-15 16:41


18. Show HN:在浏览器中使用设备端语音识别实现语音跟踪的提词器

基于语音识别的网页提词器,可自动高亮和滚动脚本,支持暂停和跳行匹配,完全在浏览器中运行。

作者: lbaune | 发布于: 2026-03-15 09:15


19. Show HN:CastReader – 免费为 Kindle Cloud Reader 提供语音朗读的扩展

CastReader浏览器扩展通过解码字体和OCR技术,解决Kindle等平台因非标准渲染导致的文本提取问题,支持多站点内容提取和开源TTS语音合成。

作者: vinxu | 发布于: 2026-03-12 19:07


20. 自托管TTS代理与语音管理器

作者: mooreds | 发布于: 2026-03-10 13:32