Whisper 是什麼？OpenAI 開源的本機語音轉文字工具新手指南

Whisper 在解決什麼問題

你錄了一個小時的會議、訪談、Podcast，要整理成逐字稿。雲端服務（Otter、雅婷逐字稿、ChatGPT 語音）方便，但問題是：

內容要上傳到別人伺服器，公司會議、私密訪談這樣做不安全
長檔案要付費
中文有口音、有專業詞時準確度不穩定

Whisper 是 OpenAI 在 2022 年開源出來的語音模型，完全可以在自己電腦離線跑，免費、檔案不外流、中文表現意外不錯。這就是為什麼即使 OpenAI 後來推出付費 API，Whisper 開源版本還是很多人用。

費用先講清楚：Whisper 模型本身免費、開源（MIT License）。你需要付出的只是「電腦運算時間」和（如果要更快）GPU。

中文到底準不準？

老實說，直接用 OpenAI 官方 Whisper 跑中文，標點和繁簡會混亂。但這個問題社群早就解掉了，現在有幾個改良版專門針對中文：

Faster-Whisper：跑同樣模型速度快 3-4 倍，中文準確度差不多
WhisperX：加上時間戳對齊，做字幕特別準
Belle-Whisper / Whisper 中文 fine-tune 版：針對中文重新訓練，繁體中文準確度高很多

新手建議直接用 Faster-Whisper + large-v3 模型，這組合是目前免費方案裡中文最好的之一。粗略體感：清晰的會議錄音準確度 90% 以上，有口音或背景吵雜會掉到 70-80%。

Whisper 能做什麼

不只是把錄音轉文字，實際用途比想像中廣：

把會議錄音轉逐字稿，丟給 ChatGPT 整理成會議紀錄
把 Podcast、YouTube 影片轉文字，方便搜尋和摘要
自動產生影片字幕（含時間戳，匯出 SRT 檔）
把語音備忘錄轉成可編輯的筆記
訪談錄音整理成草稿

加上 ChatGPT 或 Claude 整理，從「一小時錄音」到「一份結構化紀錄」可以 10 分鐘搞定。

哪裡下載、怎麼裝（依使用習慣分三條路）

不會寫程式的人不用緊張，現在 Whisper 有不少圖形介面版本。

第一條路：完全不寫程式（最推新手）

直接用桌面工具，裝完點檔案就轉：

MacWhisper（Mac 限定）：https://goodsnooze.gumroad.com/l/macwhisper —— 免費版能用，付費版約 30 美元一次買斷
Buzz（Mac/Windows/Linux）：https://github.com/chidiwilliams/buzz —— 完全免費開源，新手最推
WhisperDesktop（Windows）：https://github.com/Const-me/Whisper —— Windows 上跑 GPU 加速最簡單的

裝完打開拖檔案進去、選模型大小（建議 large-v3）、按開始，剩下就是等。

第二條路：用 Python 跑（彈性大）

如果你會一點點 Python：

pip install -U openai-whisper
whisper your_audio.mp3 --model large-v3 --language zh

第一次跑會下載模型（large-v3 約 3GB）。之後吃本機運算，不上傳。

第三條路：用 Faster-Whisper（最快）

效能優先選這個：

pip install faster-whisper

接 Ollama 或本機其他 AI 工作流的人，Faster-Whisper 是常見的選擇。

我電腦能不能跑

吃資源的關鍵是「你選哪個模型」：

模型	大小	中文準確度	跑 1 小時錄音時間（M2 Mac）
tiny	75MB	慘不忍睹	1-2 分鐘
base	142MB	還是不太行	2-3 分鐘
small	466MB	勉強能看	5-8 分鐘
medium	1.5GB	不錯	10-15 分鐘
large-v3	3GB	目前最好	15-25 分鐘

建議直接用 large-v3，中間那幾個小模型中文表現都不夠好，省下來的時間不值得換來低品質結果。

電腦最低需求：

8GB RAM 的筆電就能跑 large-v3，只是慢一點
有 NVIDIA 顯卡（GTX 1660 以上）可以開 GPU 加速，速度快 5-10 倍
Mac M 系列開 Metal 加速也很快，Mac 跑本機 AI 細節看這篇
沒獨立顯卡也能跑，只是要等

風險與要注意的事

AI 轉的文字不是 100% 對：尤其是專有名詞、人名、地名常會錯，重要文件一定要校對
長檔案會有「漂移」：超過 1 小時的錄音時間戳偶爾會對不上，這是 Whisper 已知問題，WhisperX 解決得比較好
不要相信「自動產生會議紀錄」就直接送出：機器轉錯一個字、漏一句話可能影響整段意思，給 AI 整理前還是要快速掃過
背景吵雜會嚴重影響準確度：餐廳訪談、街頭錄音準確度會掉得很慘，沒有解，只能改善錄音環境
中文方言、台語 Whisper 不太行：目前都還是以普通話訓練為主，台語、客語結果勉強堪用

適合三種人

常開會、做訪談、做 Podcast 的人：不用上傳雲端、不用每月付費，做久了省得多
要做 YouTube 字幕的人：能匯出 SRT 檔直接用，效果比 YouTube 自動字幕好得多
公司資料不能外流的人：醫療、法律、新聞、研究訪談，本機跑這點對你來說無價

不太適合：每週只轉 5 分鐘錄音、不在乎隱私的人，直接用 ChatGPT 語音或雅婷逐字稿其實更省事。

想開始用 Whisper？

新手最簡單路徑，照做就好：

先裝 Buzz（github.com/chidiwilliams/buzz），免費、有圖形介面、Mac/Windows 都能用
選 large-v3 模型，第一次會下載 3GB
找一個你已經有的錄音檔丟進去測試，看跑出來的中文你滿不滿意
滿意再考慮升級：要更快就裝 Faster-Whisper、要做字幕就試 WhisperX

不要一開始就糾結要不要訓練自己的模型、要不要 fine-tune。Whisper large-v3 對 99% 的中文情境已經夠用，玩到不夠用再說。

下一步可以先看什麼

Umi-OCR 是什麼：同樣「離線、免費、不上傳」邏輯的圖片文字辨識工具
Ollama 入門指南：把 Whisper 轉出的逐字稿丟給本機 AI 整理
Mac M 系列跑本機 AI：Mac 跑 Whisper 加速設定

參考來源

Whisper 官方 GitHub：https://github.com/openai/whisper
Faster-Whisper：https://github.com/SYSTRAN/faster-whisper
WhisperX：https://github.com/m-bain/whisperX
Buzz（圖形介面版）：https://github.com/chidiwilliams/buzz

本文最後查證日期：2026-05-27