AI 工具雷達
AI 基礎知識新手難度:Docker:通常不用來源:人工整理5 分鐘閱讀

為什麼我的 AI 突然忘記前面講過的事

編輯:BJ最後檢查:2026-05-11主要來源:人工整理

Context window 是 AI 一次能讀進腦中的上下文容量,這篇用白話解釋它為什麼會讓 AI 忘記前文、長對話為什麼會失控、它和 Token 費用有什麼關係,以及新手該怎麼整理對話。

Context window 示意圖,用會議桌比喻 AI 一次能看見的上下文容量
Context window 像會議桌,桌面放不下時就需要摘要、取捨或重開對話。

你讀完這篇會知道,AI 不是故意裝傻,也不是永遠記得聊天室裡的一切,你會學會判斷什麼是 context window、什麼時候該開新對話,以及什麼時候該把重點整理回去。

Context window 像會議桌,不是倉庫

Context window 可以翻成「上下文視窗」,白話講就是 AI 在這一次回答前,最多能看到多少內容。

你可以把它想成一張會議桌,文件、筆記、需求、前面聊天紀錄都攤在桌上,AI 只能根據桌上看得到的東西回答。桌子越大能放的資料越多;桌子滿了就必須拿掉一些東西,或把一疊資料壓縮成摘要。

很多新手會把它誤會成記憶體,其實 context window 比較像「當下可讀取範圍」,所以如果你昨天跟 AI 說過的事,這一次沒有被帶進目前對話的上下文,它就不一定看得到,也就是說你前面 200 輪聊過的細節,如果工具裁掉了前半段,它也可能忘記。

所以 AI 說「我記得」有兩種可能:一種是它真的在這次上下文裡看得到,另一種是它根據語境猜出來,後者最危險,因為它看起來很有把握。

新手第一次會在長對話裡遇到它

第一種常見的場景是寫文章、寫程式、整理研究資料。

一開始你給 AI 一堆背景,例如品牌語氣、標題規則、受眾、不要使用的句式、參考資料,前幾輪它都很配合,但是到後面,你叫它改第七段,它突然忘了你的禁用詞,叫它照前面的格式輸出,它開始亂排,叫它接續前面分析,它把已經決定的方向推翻。

這不一定是模型變笨,而是上下文太長,工具開始裁切、摘要或壓縮,也就是說 AI 工具會自動保留最近內容、捨棄較早內容,或者 coding agent 會在接近上限時 compact,會把對話濃縮成一段摘要,不然 API 呼叫會因超過模型上限而直接失敗或停止。

第二種常見場景,是你貼了太多資料。你把文件 A、B、C 都上傳,又要求 AI 同時記得每份文件的細節、比較差異、照固定格式輸出,但 context window 再大也不是無限桌面,資料越多 AI 越可能只抓到它認為重要的部分,細節命中率就會下降。

它會花錢嗎?會,因為上下文也是 Token

Context window 本身不是一張帳單項目,真正收費的是 Token,而上下文裡的東西會變成 Token,也就是說每次你送出問題,工具通常會把一部分歷史對話、系統指令、檔案片段、工具結果一起送給模型,這些都算 input tokens,上下文越長輸入成本就越高。

當然越大的 context window 讓你可以塞更多資料,更適合讀長文件、整包程式碼或大型研究資料,但當你真的把它用滿,Token 花費的速度也就快速上升,這就是為什麼「超長上下文」不是萬用解法。它像租一間更大的會議桌,可以攤更多資料,但你還是要付出使用成本,讓 AI 幫你把會議桌上資料完全看完。

AI 真的忘記了,還是你沒有把重點放回桌上?

很多時候,問題不是 AI 忘記,而是你以為它還看得到。

例如你在第 3 輪說「之後都用繁體中文,不要用條列」,第 40 輪它突然開始條列。你可以罵它不聽話,但更實用的做法是把核心規則重新放進提示:

「延續前面的文章規則:繁體中文、白話、不要內容農場句式、不要編號小標,請只改第三段。」

這不是多此一舉,而是在幫 AI 把會議桌重新整理好。

如果任務很長,可以在中途要求它產生「工作摘要」,內容包含已決定事項、禁止事項、接下來要做什麼,之後開新對話時把這段摘要貼上去,比硬撐同一個長對話更穩。

寫程式也一樣,不要只說「照剛剛那個錯誤修」,請貼上錯誤訊息、相關檔案、你要保留的行為,換句話說,AI 不一定需要整個專案,但一定需要足夠上下文資訊。

長上下文不等於長記憶

Context window 和 memory 是兩回事。

Context window 是這一次模型呼叫能看到的內容,而 memory 是某些產品額外提供的長期記憶功能,例如記住你的偏好、名字、常用工作方式,兩者很容易被搞混在一起,簡單來說先分清楚這句就夠:AI 能在這一輪看見,不代表它會永久記住,AI 記住偏好,也不代表它能讀到所有歷史細節。

知識庫又是另一回事。NotebookLM、AnythingLLM、Dify 這類工具可能會先搜尋資料,再把相關片段塞進上下文,並不是把整個資料庫都倒進模型腦中,而是先找幾段可能有用的內容放上桌,我們網站裡面另外有詳細介紹。

所以當回答失準時,不只要問「模型好不好」,也要問「它這次到底看到了什麼」。

讓 AI 不容易忘的做法

  1. 長任務不要只靠聊天紀錄硬撐,你可以準備一段固定工作卡,包含角色、目標、格式、禁用規則、目前進度,每次重要修改前把工作卡貼回去。
  2. 資料很多時先建立索引,告訴 AI 每份文件是什麼、你要比較哪些欄位、哪份資料優先,不用把所有東西同時丟進去。
  3. 對話快失控時,要求 AI 先整理「目前共識」,不要繼續產出,你確認共識正確後,再把共識當下一輪的基準,這一步比一直罵「你忘了」有效。
  4. 若是 API 或開源工具,檢查設定裡的 max context、max output、retrieval chunks、conversation memory、auto compact,這些設定會直接影響 AI 能看到多少內容。

你怎麼確定你懂了?

問自己這題:

如果 AI 在第 30 輪忘記第 2 輪的規則,我能不能用一段 5 行以內的提示,把任務目標、重要規則、目前進度重新放回上下文?

如果你做得到,你就不是被 context window 牽著走,也就是你已經瞭解 AI 需要的是整理過的對話內容,而不是無限聊天紀錄。

想知道你的 AI 一次能看多少?

不用記英文,挑你正在用的 AI,去官方頁面找這兩個數字:

  • 「能讀多少」:頁面上會寫 context window 或上下文長度,數字單位通常是 K(一千)或 M(一百萬)。
  • 「能寫多少」:寫成 max output 或最大輸出,這是 AI 一次最多能回你多長。

假如看到 200K、400K、1M 這種數字時,你可以簡單理解 200K 大約是一本中等厚度的小說,1M 接近七、八本書。

下一步可以先學什麼


本文最後查證日期:2026-05-11

延伸閱讀

Token 到底怎麼算:為什麼 AI 用越多越貴

Token 是 AI 計算文字與多媒體輸入用量的基本單位,不等於中文一個字或英文一個字,這篇用白話解釋 Token 怎麼影響 API 費用、長對話為什麼會變貴,以及新手如何避免不小心燒額度。

Claude 是什麼?長文寫作、研究整理與程式協作的 AI 助理指南

Claude 是 Anthropic 推出的 AI 助理,特別擅長長文推敲、研究整理、程式協作和設計草稿,這篇用白話解釋它跟 ChatGPT、Gemini 的差別、什麼任務交給它最划算、Claude Code 和 Cowork 怎麼用,以及使用前要注意哪些風險。

NotebookLM 深度運用指南:把資料變成可問、可聽、可整理的 AI 研究工作台

用中文白話整理 NotebookLM 的深度用法、資料整理流程、適合情境、限制風險與替代工具,幫助非工程師、創作者與知識工作者判斷如何真正用好這個工具。

拿到 API Key 前先搞懂:申請、保管、外洩會怎樣

API Key 是 AI 工具連到模型服務時用來驗明身分的密鑰。這篇用白話解釋它像什麼、在哪裡申請、為什麼不能貼到 GitHub、外洩後會發生什麼事,以及新手該怎麼保管。

我電腦能不能跑本機 AI?RAM、VRAM、CPU 白話對照

本機跑 AI 不是只看電腦新不新,而是看模型大小、RAM、VRAM、CPU 和量化格式,這篇用新手能懂的方式解釋電腦規格怎麼影響速度、能跑多大的模型,以及升級時該先看哪個零件。

MCP 怎麼讓 AI 接上 GitHub 和本機檔案

MCP 是讓 AI 工具連接外部資料與工具的開放協定,這篇用新手能懂的方式解釋 MCP client、server、tool 是什麼,AI 怎麼透過 MCP 讀 GitHub、看本機檔案,以及設定時要注意哪些權限。