AI 工具雷達
GitHub 與進階 AI 工具新手難度:Docker:通常不用來源:GitHub7 分鐘閱讀

Whisper 是什麼?OpenAI 開源的本機語音轉文字工具新手指南

編輯:BJ最後檢查:2026-05-27主要來源:GitHub

Whisper 是 OpenAI 開源、可離線本機跑的語音轉文字工具,可以把錄音、會議、Podcast、影片字幕轉成文字檔,不用上傳雲端。這篇用新手角度說明它能幹嘛、怎麼裝、中文準不準、要不要錢。

Whisper 把錄音檔在本機轉成逐字稿再丟給 AI 整理的工作流程圖
自製示意圖:Whisper 整個流程都在你電腦,不上傳雲端。

Whisper 在解決什麼問題

你錄了一個小時的會議、訪談、Podcast,要整理成逐字稿。雲端服務(Otter、雅婷逐字稿、ChatGPT 語音)方便,但問題是:

  • 內容要上傳到別人伺服器,公司會議、私密訪談這樣做不安全
  • 長檔案要付費
  • 中文有口音、有專業詞時準確度不穩定

Whisper 是 OpenAI 在 2022 年開源出來的語音模型,完全可以在自己電腦離線跑,免費、檔案不外流、中文表現意外不錯。這就是為什麼即使 OpenAI 後來推出付費 API,Whisper 開源版本還是很多人用。

費用先講清楚:Whisper 模型本身免費、開源(MIT License)。你需要付出的只是「電腦運算時間」和(如果要更快)GPU。

Whisper 把錄音檔在本機轉成逐字稿再丟給 AI 整理的工作流程圖

中文到底準不準?

老實說,直接用 OpenAI 官方 Whisper 跑中文,標點和繁簡會混亂。但這個問題社群早就解掉了,現在有幾個改良版專門針對中文:

  • Faster-Whisper:跑同樣模型速度快 3-4 倍,中文準確度差不多
  • WhisperX:加上時間戳對齊,做字幕特別準
  • Belle-Whisper / Whisper 中文 fine-tune 版:針對中文重新訓練,繁體中文準確度高很多

新手建議直接用 Faster-Whisper + large-v3 模型,這組合是目前免費方案裡中文最好的之一。粗略體感:清晰的會議錄音準確度 90% 以上,有口音或背景吵雜會掉到 70-80%。

Whisper 能做什麼

不只是把錄音轉文字,實際用途比想像中廣:

  • 把會議錄音轉逐字稿,丟給 ChatGPT 整理成會議紀錄
  • 把 Podcast、YouTube 影片轉文字,方便搜尋和摘要
  • 自動產生影片字幕(含時間戳,匯出 SRT 檔)
  • 把語音備忘錄轉成可編輯的筆記
  • 訪談錄音整理成草稿

加上 ChatGPT 或 Claude 整理,從「一小時錄音」到「一份結構化紀錄」可以 10 分鐘搞定。

哪裡下載、怎麼裝(依使用習慣分三條路)

不會寫程式的人不用緊張,現在 Whisper 有不少圖形介面版本。

第一條路:完全不寫程式(最推新手)

直接用桌面工具,裝完點檔案就轉:

  • MacWhisper(Mac 限定):https://goodsnooze.gumroad.com/l/macwhisper —— 免費版能用,付費版約 30 美元一次買斷
  • Buzz(Mac/Windows/Linux):https://github.com/chidiwilliams/buzz —— 完全免費開源,新手最推
  • WhisperDesktop(Windows):https://github.com/Const-me/Whisper —— Windows 上跑 GPU 加速最簡單的

裝完打開拖檔案進去、選模型大小(建議 large-v3)、按開始,剩下就是等。

第二條路:用 Python 跑(彈性大)

如果你會一點點 Python:

pip install -U openai-whisper
whisper your_audio.mp3 --model large-v3 --language zh

第一次跑會下載模型(large-v3 約 3GB)。之後吃本機運算,不上傳。

第三條路:用 Faster-Whisper(最快)

效能優先選這個:

pip install faster-whisper

Ollama 或本機其他 AI 工作流的人,Faster-Whisper 是常見的選擇。

我電腦能不能跑

吃資源的關鍵是「你選哪個模型」:

模型大小中文準確度跑 1 小時錄音時間(M2 Mac)
tiny75MB慘不忍睹1-2 分鐘
base142MB還是不太行2-3 分鐘
small466MB勉強能看5-8 分鐘
medium1.5GB不錯10-15 分鐘
large-v33GB目前最好15-25 分鐘

建議直接用 large-v3,中間那幾個小模型中文表現都不夠好,省下來的時間不值得換來低品質結果。

電腦最低需求:

  • 8GB RAM 的筆電就能跑 large-v3,只是慢一點
  • 有 NVIDIA 顯卡(GTX 1660 以上)可以開 GPU 加速,速度快 5-10 倍
  • Mac M 系列開 Metal 加速也很快,Mac 跑本機 AI 細節看這篇
  • 沒獨立顯卡也能跑,只是要等

風險與要注意的事

  • AI 轉的文字不是 100% 對:尤其是專有名詞、人名、地名常會錯,重要文件一定要校對
  • 長檔案會有「漂移」:超過 1 小時的錄音時間戳偶爾會對不上,這是 Whisper 已知問題,WhisperX 解決得比較好
  • 不要相信「自動產生會議紀錄」就直接送出:機器轉錯一個字、漏一句話可能影響整段意思,給 AI 整理前還是要快速掃過
  • 背景吵雜會嚴重影響準確度:餐廳訪談、街頭錄音準確度會掉得很慘,沒有解,只能改善錄音環境
  • 中文方言、台語 Whisper 不太行:目前都還是以普通話訓練為主,台語、客語結果勉強堪用

適合三種人

  • 常開會、做訪談、做 Podcast 的人:不用上傳雲端、不用每月付費,做久了省得多
  • 要做 YouTube 字幕的人:能匯出 SRT 檔直接用,效果比 YouTube 自動字幕好得多
  • 公司資料不能外流的人:醫療、法律、新聞、研究訪談,本機跑這點對你來說無價

不太適合:每週只轉 5 分鐘錄音、不在乎隱私的人,直接用 ChatGPT 語音或雅婷逐字稿其實更省事。

想開始用 Whisper?

新手最簡單路徑,照做就好:

  1. 先裝 Buzzgithub.com/chidiwilliams/buzz),免費、有圖形介面、Mac/Windows 都能用
  2. 選 large-v3 模型,第一次會下載 3GB
  3. 找一個你已經有的錄音檔丟進去測試,看跑出來的中文你滿不滿意
  4. 滿意再考慮升級:要更快就裝 Faster-Whisper、要做字幕就試 WhisperX

不要一開始就糾結要不要訓練自己的模型、要不要 fine-tune。Whisper large-v3 對 99% 的中文情境已經夠用,玩到不夠用再說。

下一步可以先看什麼

參考來源

  • Whisper 官方 GitHub:https://github.com/openai/whisper
  • Faster-Whisper:https://github.com/SYSTRAN/faster-whisper
  • WhisperX:https://github.com/m-bain/whisperX
  • Buzz(圖形介面版):https://github.com/chidiwilliams/buzz

本文最後查證日期:2026-05-27

延伸閱讀

Umi-OCR 是什麼?免費離線 OCR 工具的功能、限制與新手使用建議

用中文白話整理 Umi-OCR 的功能、適合對象、使用限制、風險提醒與替代工具,幫助非工程師判斷是否值得使用。

Ollama 是什麼?在自己電腦跑 AI 模型的新手入門

Ollama 是讓你在自己電腦下載、執行和管理 AI 模型的工具。本文用白話整理它能做什麼、去哪裡下載、要不要錢、電腦需要多強,以及新手第一個模型該怎麼跑。

我電腦能不能跑本機 AI?RAM、VRAM、CPU 白話對照

本機跑 AI 不是只看電腦新不新,而是看模型大小、RAM、VRAM、CPU 和量化格式,這篇用新手能懂的方式解釋電腦規格怎麼影響速度、能跑多大的模型,以及升級時該先看哪個零件。

LibreChat 是什麼?一個介面同時接 ChatGPT、Claude、Gemini 的自架聊天工具

LibreChat 是開源自架的 AI 聊天介面,畫面像 ChatGPT 但可以同時接 ChatGPT、Claude、Gemini、本機 Ollama,省下三套訂閱費。這篇用新手角度說明它能幹嘛、跟 Open WebUI 差在哪、怎麼開始用、要不要錢。

Continue.dev 是什麼?不被綁定模型廠商的 VS Code AI 寫程式外掛

Continue.dev 是 VS Code 與 JetBrains 上的開源 AI 寫程式外掛,可以聊天、補全、改 code、跑 agent,還能接 ChatGPT、Claude、Gemini 或本機 Ollama。這篇用新手角度說明它能幹嘛、跟 Cursor 與 Cline 差在哪、要不要錢。

Open WebUI 是什麼?自架一個像 ChatGPT 的 AI 聊天入口

Open WebUI 是一個可自架的 AI 聊天網頁介面,可以連接本機 Ollama 模型或 OpenAI、Anthropic、Google 等雲端 API。本文用白話整理它能做什麼、去哪裡安裝、要不要錢、適合誰使用,以及新手第一步怎麼開始。