Buzz – 开源的桌面音频转录与翻译工具

Buzz 是一个开源的桌面音频转录与翻译工具,专为离线使用设计,核心引擎基于 OpenAI 的 Whisper 模型,能将音频/视频文件或麦克风实时输入快速转为文字,并支持多语言翻译。

核心功能

  • 离线转录与翻译
    • 导入音频(MP3、WAV 等)和视频文件,自动转录为文本,支持 TXT、SRT、VTT 字幕导出。
    • 实时麦克风转录:从电脑麦克风捕获语音并即时显示文本,适合会议记录、演讲转写等场景。
  • 高级转录查看器
    • 带搜索、播放控制、速度调节、循环播放、智能跟随音频的转录界面,还支持键盘快捷键和投影模式(演示用)。
    • 说话者识别:自动区分不同说话者,提高多人对话转录的准确性。
  • 多模型支持
    • Whisper(OpenAI 官方)、Whisper.cpp(Vulkan GPU 加速)、Faster Whisper、Hugging Face Whisper 兼容模型,以及 OpenAI Whisper API。
    • 支持 1000+ 语言(MMS 模型),包括实时翻译、GPU 加速、8bit 量化等优化选项。
  • 附加特性
    • 文件夹监听:自动监控指定文件夹,新文件进来即转录。
    • 实时翻译:集成 OpenAI API 兼容服务(如 Groq.com),支持 Turbo 模型。
    • 笔记添加、重启转录、字幕大小调整、段落合并等实用工具。

平台与安装

  • 跨平台:Windows、macOS(Intel & ARM)、Linux(Flathub、Snap 包)。
  • 安装简单:GitHub Releases 下载预编译包(SourceForge 托管 Windows/macOS),Linux 用 Flatpak/Snap 一键安装;CLI 模式也支持。
  • 开源许可:完全开源,仓库活跃,社区贡献包括多语言翻译(德语、荷兰语、中文等)和持续优化。

Buzz 强调离线隐私(本地运行 Whisper),界面智能简洁,是 yt-dlp 风格命令行工具的图形化升级版,特别适合需要高效处理音频内容的专业用户。

https://github.com/chidiwilliams/buzz