Token 到底怎麼算：為什麼 AI 用越多越貴

你讀完這篇會知道 Token 不是什麼神祕術語，而是 AI 服務計費和容量管理的基本單位，你也會明白為什麼貼一大份 PDF、開很長的對話、叫 AI 回答得很詳細，都可能讓費用快速增加。

Token 像自助餐秤重，不是看你點幾盤

Token 可以想成 AI 看文字時切出來的小片段，英文可能是一個單字或半個單字，中文可能是一個字，也可能跟標點、空格一起被切，它不是「字數」也不是「句數」。

生活化一點講，Token 像自助餐秤重，你不是看拿了幾盤，而是看盤子裡實際有多重，你打一小段話 Token 就少，你貼一篇報告、一段程式碼、五張圖片的描述 Token 就多，而且 AI 回答越長也會產生越多 Token。

換句話說同樣問「幫我整理重點」，後面接一段 300 字文章和接一份 80 頁文件，費用差很多，畫面上都是一次送出，但背後的用量差距其實非常大。

新手第一次踩到 Token，通常是帳單爆掉那一刻

很多人一開始以為 AI API 是「問一次算一次」，這個想法很容易害你估錯成本，真正計費時服務商通常會分 input tokens 和 output tokens，你送進去的內容算 input，AI 回你的內容算 output，有些模型還會加上 cached input、reasoning tokens、工具呼叫費或檔案處理費。

新手最常踩到的三個坑：

長對話：你以為第 20 輪只是問一句「那幫我改短一點」，但工具可能把前面整段聊天紀錄一起送回模型讓 AI 知道你在講什麼，也就是說你看到的是一句新問題，模型收到的可能是整串上下文。
文件整理：把合約、論文、逐字稿、CSV 或整包程式碼塞進去，Token 會快速上升，尤其是代理型工具，它可能會讀檔、搜尋、摘要、再讀下一批檔案，每一步都在消耗。
叫 AI「盡量詳細」：回答越長 output tokens 越多，某些高階模型的 output 單價比 input 高，長篇回答的成本會比你想像明顯。

Token 會花錢嗎？花在三個地方

Token 本身不是一種商品，但 API 多半用 Token 來計費，主要花在這三個地方：

輸入：你貼給 AI 的提示、聊天紀錄、系統指令、文件內容、工具回傳結果，都可能變成 input tokens，很多人只算自己打的那一句，卻忘了工具後台加了角色設定、格式規則、歷史對話和檢索資料。
輸出：AI 回答、產生的表格、程式碼、摘要、翻譯、推理內容都可能算 output tokens，你要求它一次產生 10 種版本，比只產生 1 種版本貴，原因就在這裡。
流程：例如檔案搜尋、圖片分析、語音轉文字、網頁瀏覽、程式執行或多代理協作，這些不一定全部叫 Token 費，但最後會反映在用量或工具費裡。

如果你只是用 ChatGPT、Claude、Gemini 的網頁版，通常看到的是月費或額度限制，不會每天盯 Token，但只要你開始接 API、架開源工具、跑自動化流程，Token 就會變成你需要理解的成本單位。

為什麼同一段內容，不同模型價格不同？

同樣 1,000 個 Token，用不同模型可能是不同價格，高階模型通常比較貴，小模型通常比較便宜，這不只因為「聰明程度」，也和速度、推理能力、上下文長度、工具能力、供應成本有關。

你可以把模型想成不同等級的外包人員，便宜模型適合做格式整理、分類、短摘要、批量處理，高階模型適合處理長文件推理、複雜程式碼、策略判斷、需要少犯錯的工作。

新手不用每次都選最貴的模型，真正省錢的做法是把任務拆開：簡單工作交給便宜模型，難題再交給高階模型，很多 AI 工作流工具都能指定不同節點用不同模型，這就是 Token 成本控制的第一步。

不是所有 Token 都看得見

你在聊天框看到的內容只是其中一部分，背後還有三種隱形消耗：

系統提示：工具會在你看不到的地方加上「你是一個專業助理」「請用 JSON 輸出」「不得回答某些內容」這類指令，也算 input。
RAG 知識庫：你以為只問了一句「這份合約的違約金是多少」，實際上工具可能先從資料庫抓出好幾段合約條文塞進提示裡。
Coding agent：它會把檔案內容、錯誤訊息、terminal output、Git diff 一起送入模型，你叫它「繼續修」時，它靠的不是憑空記憶，而是這些上下文重新理解現場。

換句話說同一個問題，在普通聊天工具很便宜，放進自動化代理或大型知識庫裡可能變貴，不是 AI 偷偷多收錢，而是你讓它看的東西變多了。

想開始省 Token？

不用每次都換模型，從這四個地方下手通常立刻有效：

從提示下手：不要把整份文件丟給 AI 之後問「你覺得呢」，改成告訴它要找什麼、輸出什麼格式、不要做哪些事。
切資料：整理長文件時先分批摘要再整合重點，處理程式碼時只提供相關檔案，不要整個專案都丟進去。
控制輸出：要求「用 8 個 bullet 回答」「每點不超過 40 字」「先不要展開細節」，等你確定方向再叫它擴寫。
看工具設定：有些工具可以限制最大輸出、關閉自動重試、調整檢索段落數、設定每次最多讀幾個檔案，這些按鈕不醒目，但常常比換模型更省。

想知道你的 AI 一次要花多少 Token？

不用記英文，挑你正在用的 AI，去官方定價頁找這三個數字：

「輸入單價」：頁面上會寫 input 或 per 1M input tokens，這是你送東西進去的成本。
「輸出單價」：寫成 output 或 per 1M output tokens，通常比輸入貴 3 到 5 倍。
「快取輸入」：寫成 cached input，重複使用相同前置內容時會打折，長對話特別有感。

只要先學會比較「輸入單價」和「輸出單價」，你就能避開大多數新手成本誤判。

下一步可以先學什麼

拿到 API Key 前先搞懂：申請、保管、外洩會怎樣：先把帳單來源管好，Token 費才不會失控。
為什麼我的 AI 突然忘記前面講過的事：理解上下文視窗，避免長對話越聊越貴。
Claude 長文研究與 coding 工作流：長任務怎麼省 Token，又不犧牲品質。

本文最後查證日期：2026-05-11