Whisper 是什麼?OpenAI 開源的本機語音轉文字工具新手指南
編輯:BJ最後檢查:2026-05-27主要來源:GitHub
Whisper 是 OpenAI 開源、可離線本機跑的語音轉文字工具,可以把錄音、會議、Podcast、影片字幕轉成文字檔,不用上傳雲端。這篇用新手角度說明它能幹嘛、怎麼裝、中文準不準、要不要錢。
Whisper 在解決什麼問題
你錄了一個小時的會議、訪談、Podcast,要整理成逐字稿。雲端服務(Otter、雅婷逐字稿、ChatGPT 語音)方便,但問題是:
- 內容要上傳到別人伺服器,公司會議、私密訪談這樣做不安全
- 長檔案要付費
- 中文有口音、有專業詞時準確度不穩定
Whisper 是 OpenAI 在 2022 年開源出來的語音模型,完全可以在自己電腦離線跑,免費、檔案不外流、中文表現意外不錯。這就是為什麼即使 OpenAI 後來推出付費 API,Whisper 開源版本還是很多人用。
費用先講清楚:Whisper 模型本身免費、開源(MIT License)。你需要付出的只是「電腦運算時間」和(如果要更快)GPU。
中文到底準不準?
老實說,直接用 OpenAI 官方 Whisper 跑中文,標點和繁簡會混亂。但這個問題社群早就解掉了,現在有幾個改良版專門針對中文:
- Faster-Whisper:跑同樣模型速度快 3-4 倍,中文準確度差不多
- WhisperX:加上時間戳對齊,做字幕特別準
- Belle-Whisper / Whisper 中文 fine-tune 版:針對中文重新訓練,繁體中文準確度高很多
新手建議直接用 Faster-Whisper + large-v3 模型,這組合是目前免費方案裡中文最好的之一。粗略體感:清晰的會議錄音準確度 90% 以上,有口音或背景吵雜會掉到 70-80%。
Whisper 能做什麼
不只是把錄音轉文字,實際用途比想像中廣:
- 把會議錄音轉逐字稿,丟給 ChatGPT 整理成會議紀錄
- 把 Podcast、YouTube 影片轉文字,方便搜尋和摘要
- 自動產生影片字幕(含時間戳,匯出 SRT 檔)
- 把語音備忘錄轉成可編輯的筆記
- 訪談錄音整理成草稿
加上 ChatGPT 或 Claude 整理,從「一小時錄音」到「一份結構化紀錄」可以 10 分鐘搞定。
哪裡下載、怎麼裝(依使用習慣分三條路)
不會寫程式的人不用緊張,現在 Whisper 有不少圖形介面版本。
第一條路:完全不寫程式(最推新手)
直接用桌面工具,裝完點檔案就轉:
- MacWhisper(Mac 限定):https://goodsnooze.gumroad.com/l/macwhisper —— 免費版能用,付費版約 30 美元一次買斷
- Buzz(Mac/Windows/Linux):https://github.com/chidiwilliams/buzz —— 完全免費開源,新手最推
- WhisperDesktop(Windows):https://github.com/Const-me/Whisper —— Windows 上跑 GPU 加速最簡單的
裝完打開拖檔案進去、選模型大小(建議 large-v3)、按開始,剩下就是等。
第二條路:用 Python 跑(彈性大)
如果你會一點點 Python:
pip install -U openai-whisper
whisper your_audio.mp3 --model large-v3 --language zh第一次跑會下載模型(large-v3 約 3GB)。之後吃本機運算,不上傳。
第三條路:用 Faster-Whisper(最快)
效能優先選這個:
pip install faster-whisper接 Ollama 或本機其他 AI 工作流的人,Faster-Whisper 是常見的選擇。
我電腦能不能跑
吃資源的關鍵是「你選哪個模型」:
| 模型 | 大小 | 中文準確度 | 跑 1 小時錄音時間(M2 Mac) |
|---|---|---|---|
| tiny | 75MB | 慘不忍睹 | 1-2 分鐘 |
| base | 142MB | 還是不太行 | 2-3 分鐘 |
| small | 466MB | 勉強能看 | 5-8 分鐘 |
| medium | 1.5GB | 不錯 | 10-15 分鐘 |
| large-v3 | 3GB | 目前最好 | 15-25 分鐘 |
建議直接用 large-v3,中間那幾個小模型中文表現都不夠好,省下來的時間不值得換來低品質結果。
電腦最低需求:
- 8GB RAM 的筆電就能跑 large-v3,只是慢一點
- 有 NVIDIA 顯卡(GTX 1660 以上)可以開 GPU 加速,速度快 5-10 倍
- Mac M 系列開 Metal 加速也很快,Mac 跑本機 AI 細節看這篇
- 沒獨立顯卡也能跑,只是要等
風險與要注意的事
- AI 轉的文字不是 100% 對:尤其是專有名詞、人名、地名常會錯,重要文件一定要校對
- 長檔案會有「漂移」:超過 1 小時的錄音時間戳偶爾會對不上,這是 Whisper 已知問題,WhisperX 解決得比較好
- 不要相信「自動產生會議紀錄」就直接送出:機器轉錯一個字、漏一句話可能影響整段意思,給 AI 整理前還是要快速掃過
- 背景吵雜會嚴重影響準確度:餐廳訪談、街頭錄音準確度會掉得很慘,沒有解,只能改善錄音環境
- 中文方言、台語 Whisper 不太行:目前都還是以普通話訓練為主,台語、客語結果勉強堪用
適合三種人
- 常開會、做訪談、做 Podcast 的人:不用上傳雲端、不用每月付費,做久了省得多
- 要做 YouTube 字幕的人:能匯出 SRT 檔直接用,效果比 YouTube 自動字幕好得多
- 公司資料不能外流的人:醫療、法律、新聞、研究訪談,本機跑這點對你來說無價
不太適合:每週只轉 5 分鐘錄音、不在乎隱私的人,直接用 ChatGPT 語音或雅婷逐字稿其實更省事。
想開始用 Whisper?
新手最簡單路徑,照做就好:
- 先裝 Buzz(github.com/chidiwilliams/buzz),免費、有圖形介面、Mac/Windows 都能用
- 選 large-v3 模型,第一次會下載 3GB
- 找一個你已經有的錄音檔丟進去測試,看跑出來的中文你滿不滿意
- 滿意再考慮升級:要更快就裝 Faster-Whisper、要做字幕就試 WhisperX
不要一開始就糾結要不要訓練自己的模型、要不要 fine-tune。Whisper large-v3 對 99% 的中文情境已經夠用,玩到不夠用再說。
下一步可以先看什麼
- Umi-OCR 是什麼:同樣「離線、免費、不上傳」邏輯的圖片文字辨識工具
- Ollama 入門指南:把 Whisper 轉出的逐字稿丟給本機 AI 整理
- Mac M 系列跑本機 AI:Mac 跑 Whisper 加速設定
參考來源
- Whisper 官方 GitHub:https://github.com/openai/whisper
- Faster-Whisper:https://github.com/SYSTRAN/faster-whisper
- WhisperX:https://github.com/m-bain/whisperX
- Buzz(圖形介面版):https://github.com/chidiwilliams/buzz
本文最後查證日期:2026-05-27
延伸閱讀
用中文白話整理 Umi-OCR 的功能、適合對象、使用限制、風險提醒與替代工具,幫助非工程師判斷是否值得使用。
Ollama 是什麼?在自己電腦跑 AI 模型的新手入門Ollama 是讓你在自己電腦下載、執行和管理 AI 模型的工具。本文用白話整理它能做什麼、去哪裡下載、要不要錢、電腦需要多強,以及新手第一個模型該怎麼跑。
我電腦能不能跑本機 AI?RAM、VRAM、CPU 白話對照本機跑 AI 不是只看電腦新不新,而是看模型大小、RAM、VRAM、CPU 和量化格式,這篇用新手能懂的方式解釋電腦規格怎麼影響速度、能跑多大的模型,以及升級時該先看哪個零件。
LibreChat 是什麼?一個介面同時接 ChatGPT、Claude、Gemini 的自架聊天工具LibreChat 是開源自架的 AI 聊天介面,畫面像 ChatGPT 但可以同時接 ChatGPT、Claude、Gemini、本機 Ollama,省下三套訂閱費。這篇用新手角度說明它能幹嘛、跟 Open WebUI 差在哪、怎麼開始用、要不要錢。
Continue.dev 是什麼?不被綁定模型廠商的 VS Code AI 寫程式外掛Continue.dev 是 VS Code 與 JetBrains 上的開源 AI 寫程式外掛,可以聊天、補全、改 code、跑 agent,還能接 ChatGPT、Claude、Gemini 或本機 Ollama。這篇用新手角度說明它能幹嘛、跟 Cursor 與 Cline 差在哪、要不要錢。
Open WebUI 是什麼?自架一個像 ChatGPT 的 AI 聊天入口Open WebUI 是一個可自架的 AI 聊天網頁介面,可以連接本機 Ollama 模型或 OpenAI、Anthropic、Google 等雲端 API。本文用白話整理它能做什麼、去哪裡安裝、要不要錢、適合誰使用,以及新手第一步怎麼開始。