
Buzz 是一个开源的桌面音频转录与翻译工具,专为离线使用设计,核心引擎基于 OpenAI 的 Whisper 模型,能将音频/视频文件或麦克风实时输入快速转为文字,并支持多语言翻译。
核心功能
- 离线转录与翻译
- 导入音频(MP3、WAV 等)和视频文件,自动转录为文本,支持 TXT、SRT、VTT 字幕导出。
- 实时麦克风转录:从电脑麦克风捕获语音并即时显示文本,适合会议记录、演讲转写等场景。
- 高级转录查看器
- 带搜索、播放控制、速度调节、循环播放、智能跟随音频的转录界面,还支持键盘快捷键和投影模式(演示用)。
- 说话者识别:自动区分不同说话者,提高多人对话转录的准确性。
- 多模型支持
- Whisper(OpenAI 官方)、Whisper.cpp(Vulkan GPU 加速)、Faster Whisper、Hugging Face Whisper 兼容模型,以及 OpenAI Whisper API。
- 支持 1000+ 语言(MMS 模型),包括实时翻译、GPU 加速、8bit 量化等优化选项。
- 附加特性
- 文件夹监听:自动监控指定文件夹,新文件进来即转录。
- 实时翻译:集成 OpenAI API 兼容服务(如 Groq.com),支持 Turbo 模型。
- 笔记添加、重启转录、字幕大小调整、段落合并等实用工具。
平台与安装
- 跨平台:Windows、macOS(Intel & ARM)、Linux(Flathub、Snap 包)。
- 安装简单:GitHub Releases 下载预编译包(SourceForge 托管 Windows/macOS),Linux 用 Flatpak/Snap 一键安装;CLI 模式也支持。
- 开源许可:完全开源,仓库活跃,社区贡献包括多语言翻译(德语、荷兰语、中文等)和持续优化。
Buzz 强调离线隐私(本地运行 Whisper),界面智能简洁,是 yt-dlp 风格命令行工具的图形化升级版,特别适合需要高效处理音频内容的专业用户。