我電腦能不能跑本機 AI?RAM、VRAM、CPU 白話對照
編輯:BJ最後檢查:2026-05-11主要來源:人工整理
本機跑 AI 不是只看電腦新不新,而是看模型大小、RAM、VRAM、CPU 和量化格式,這篇用新手能懂的方式解釋電腦規格怎麼影響速度、能跑多大的模型,以及升級時該先看哪個零件。

你讀完這篇會知道自己的電腦適不適合跑 Ollama、Open WebUI 或其他本機 AI 工具,也會看懂 RAM、VRAM、CPU 分別在做什麼,避免一看到模型頁就亂下載,最後才發現跑不動。
本機跑 AI 像在家煮一大鍋湯
雲端 AI 像叫外送,你付錢給 OpenAI、Anthropic、Google,把你想要的料理在別人的廚房煮好送來給你。而本機 AI 就像自己在家煮料理,你怎麼煮的方式不會讓別人知道,不過問題在於你家的廚房要放得下鍋子,瓦斯也要夠力。
模型就是那個鍋子,模型越大鍋子越大,RAM 和 VRAM 是你可以放鍋子的空間,CPU 和 GPU 是加熱速度,也就是最好的狀況就是有足夠空間放下鍋子,又有好爐可以快速加熱。
「能不能跑本機 AI」不單單看你電腦買了幾年,也不是只看 i7、i9、M 系列或 RTX,而是要看你要安裝的模型多大、量化格式多小、上下文開多長、要不要同時跑其他工具等很多因素。
新手第一次通常會卡在「模型下載了,但跑不動」
很多人看到模型名稱就下載,例如 7B、13B、32B、70B,下載完才發現卡住、速度像打字機、電腦風扇狂轉,甚至直接失敗。
B 是 billion parameters,代表模型參數量的大致等級,通常 7B 比 13B 小,13B 比 70B 小,模型越大可能能力越好,但也越吃記憶體。
接著你會看到 Q4、Q5、Q8、FP16 這類字,這和「量化」有關,簡單來說就是把原本很佔空間的模型壓小一點,代價可能是品質、速度或相容性會有變化。
新手可以先抓一個原則:第一次不要挑最大模型,先用 7B 或 8B 的 Q4 版本測試,確認電腦能跑再往上試。
RAM 是共用
RAM 是系統記憶體,你的作業系統、瀏覽器、Docker、Open WebUI、Ollama、模型資料都會用到它。
如果你沒有獨立顯卡,或模型沒有完整放進 VRAM,RAM 就更重要,很多本機模型可以靠 CPU + RAM 跑,只是速度會慢。
新手可以照這個粗估抓感覺:
- 8GB RAM:勉強只適合很小的模型和輕量測試。
- 16GB RAM:可以玩 7B / 8B 量化模型,但要少開其他程式。
- 32GB RAM:比較像舒服入門。
- 64GB RAM:才比較有空間碰較大的模型或長上下文。
這不是絕對規格,不同模型格式、量化方式、系統環境都會改變需求,這類數字只適合當第一眼判斷,不要當保證書。
VRAM 是顯卡自己的高速工作台
VRAM 是顯卡記憶體,當你有 NVIDIA、AMD 或 Apple Silicon 整合式記憶體時,模型如果能放進 GPU 可用記憶體,速度通常會好很多。
你可以把 VRAM 想成廚房裡離爐子最近的工作台,食材放在這裡師傅拿得快,放不下就要一直去倉庫拿,速度會掉。
新手可以照這個粗估抓感覺:
- 低於 6GB VRAM:不是不能玩,但要降低期待,選小模型比較實際。
- 8GB VRAM:通常可以舒服試小型量化模型。
- 12GB 到 16GB VRAM:對本機 AI 會實用很多。
- 24GB VRAM:可以處理更大的模型、更長上下文或較高精度格式。
有些工具會把模型分配到多張 GPU,或部分放 GPU、部分放 CPU,但新手不用急著研究多 GPU,先理解「放得下」比「理論支援」重要。
CPU 決定能不能跑,GPU 決定跑得爽不爽
CPU 是電腦的大腦,什麼都能做,但跑大型語言模型時通常不如 GPU 快,當你沒有獨立顯卡時可以靠 CPU 跑小模型,只是每秒產生的字數會比較少,CPU 也會影響模型載入、資料處理、檔案讀取、工具服務、Docker 容器,所以當你跑 Open WebUI、向量資料庫、瀏覽器、本機模型時,CPU 都會參與。
但如果你的目標是「像雲端聊天一樣順」,GPU 是非常重要的關鍵,尤其是 coding、長文件摘要、多輪對話這類任務,如果只有 CPU,你很快就會失去耐心。
Apple Silicon 比較特別,RAM 是統一記憶體,CPU、GPU 可以共享,這讓 Mac 跑本機模型的體驗和傳統 Windows + NVIDIA 顯卡不太一樣,判斷時不要只問「有沒有 VRAM」,要看可用統一記憶體、模型格式和工具支援。
本機 AI 會花錢嗎?花在硬體、電力和時間
本機跑 AI 不一定要付 API 費,但也不是零成本,成本主要花在三個地方:
- 硬體成本:你可能需要更多 RAM、更好的 GPU、更大的 SSD,模型檔案動輒好幾 GB,下載幾個版本後硬碟很快被吃掉。
- 電力和散熱:長時間跑模型會讓 CPU / GPU 持續工作,筆電會熱、風扇會吵、耗電會上升。
- 時間成本:本機模型設定、下載、測試、換版本、處理相容性都要時間,對某些人來說付 API 費反而比較省事。
換句話說,本機 AI 的價值在隱私、想離線測試、想客製工具、想學開源模型、想要有個人化 AI,但如果你只是偶爾問問題,雲端 AI 比較適合你。
想知道你的電腦跑得動哪些模型?
不用先把規格背起來,挑你正想試的工具,去模型頁找這三個數字:
- 「模型多大」:頁面上會寫 7B、13B、32B、70B,B 越大模型越吃記憶體。
- 「量化版本」:寫成 Q4、Q5、Q8、FP16,數字越小檔案越小、越省記憶體,但品質可能降一點。
- 「建議記憶體」:很多模型頁會直接寫大約需要多少 RAM 或 VRAM,這是最快的判斷依據。
把這三個數字對到你電腦的規格,就大概知道跑不跑得動,沒寫建議記憶體的話,就從 7B Q4 開始試,不要直接挑最大模型測你的耐心。
下一步可以先學什麼
- Ollama 工具介紹:直接挑一個本機模型開始跑。
- Open WebUI 入門指南:把本機模型搬到瀏覽器介面。
- Docker 是什麼:本機 AI 安裝步驟常出現容器,先把基本概念建好。
本文最後查證日期:2026-05-11
延伸閱讀
用中文白話解釋 Docker 的 image、container、volume、Docker Compose、下載與價格、安全風險,以及非工程師使用 AI 自架工具前該怎麼判斷要不要學。
開源 AI 工具可以放心裝嗎?先看 README、Issue、Release開源不代表一定安全,也不代表一定危險,這篇教新手用 README、Issue、Release、License 和安全公告快速判斷一個 AI 工具能不能先裝、要不要等、哪些警訊代表不要碰。
為什麼我的 AI 突然忘記前面講過的事Context window 是 AI 一次能讀進腦中的上下文容量,這篇用白話解釋它為什麼會讓 AI 忘記前文、長對話為什麼會失控、它和 Token 費用有什麼關係,以及新手該怎麼整理對話。
MCP 怎麼讓 AI 接上 GitHub 和本機檔案MCP 是讓 AI 工具連接外部資料與工具的開放協定,這篇用新手能懂的方式解釋 MCP client、server、tool 是什麼,AI 怎麼透過 MCP 讀 GitHub、看本機檔案,以及設定時要注意哪些權限。
拿到 API Key 前先搞懂:申請、保管、外洩會怎樣API Key 是 AI 工具連到模型服務時用來驗明身分的密鑰。這篇用白話解釋它像什麼、在哪裡申請、為什麼不能貼到 GitHub、外洩後會發生什麼事,以及新手該怎麼保管。
Token 到底怎麼算:為什麼 AI 用越多越貴Token 是 AI 計算文字與多媒體輸入用量的基本單位,不等於中文一個字或英文一個字,這篇用白話解釋 Token 怎麼影響 API 費用、長對話為什麼會變貴,以及新手如何避免不小心燒額度。