為什麼我的 AI 突然忘記前面講過的事

你讀完這篇會知道，AI 不是故意裝傻，也不是永遠記得聊天室裡的一切，你會學會判斷什麼是 context window、什麼時候該開新對話，以及什麼時候該把重點整理回去。

Context window 像會議桌，不是倉庫

Context window 可以翻成「上下文視窗」，白話講就是 AI 在這一次回答前，最多能看到多少內容。

你可以把它想成一張會議桌，文件、筆記、需求、前面聊天紀錄都攤在桌上，AI 只能根據桌上看得到的東西回答。桌子越大能放的資料越多；桌子滿了就必須拿掉一些東西，或把一疊資料壓縮成摘要。

很多新手會把它誤會成記憶體，其實 context window 比較像「當下可讀取範圍」，所以如果你昨天跟 AI 說過的事，這一次沒有被帶進目前對話的上下文，它就不一定看得到，也就是說你前面 200 輪聊過的細節，如果工具裁掉了前半段，它也可能忘記。

所以 AI 說「我記得」有兩種可能：一種是它真的在這次上下文裡看得到，另一種是它根據語境猜出來，後者最危險，因為它看起來很有把握。

新手第一次會在長對話裡遇到它

第一種常見的場景是寫文章、寫程式、整理研究資料。

一開始你給 AI 一堆背景，例如品牌語氣、標題規則、受眾、不要使用的句式、參考資料，前幾輪它都很配合，但是到後面，你叫它改第七段，它突然忘了你的禁用詞，叫它照前面的格式輸出，它開始亂排，叫它接續前面分析，它把已經決定的方向推翻。

這不一定是模型變笨，而是上下文太長，工具開始裁切、摘要或壓縮，也就是說 AI 工具會自動保留最近內容、捨棄較早內容，或者 coding agent 會在接近上限時 compact，會把對話濃縮成一段摘要，不然 API 呼叫會因超過模型上限而直接失敗或停止。

第二種常見場景，是你貼了太多資料。你把文件 A、B、C 都上傳，又要求 AI 同時記得每份文件的細節、比較差異、照固定格式輸出，但 context window 再大也不是無限桌面，資料越多 AI 越可能只抓到它認為重要的部分，細節命中率就會下降。

它會花錢嗎？會，因為上下文也是 Token

Context window 本身不是一張帳單項目，真正收費的是 Token，而上下文裡的東西會變成 Token，也就是說每次你送出問題，工具通常會把一部分歷史對話、系統指令、檔案片段、工具結果一起送給模型，這些都算 input tokens，上下文越長輸入成本就越高。

當然越大的 context window 讓你可以塞更多資料，更適合讀長文件、整包程式碼或大型研究資料，但當你真的把它用滿，Token 花費的速度也就快速上升，這就是為什麼「超長上下文」不是萬用解法。它像租一間更大的會議桌，可以攤更多資料，但你還是要付出使用成本，讓 AI 幫你把會議桌上資料完全看完。

AI 真的忘記了，還是你沒有把重點放回桌上？

很多時候，問題不是 AI 忘記，而是你以為它還看得到。

例如你在第 3 輪說「之後都用繁體中文，不要用條列」，第 40 輪它突然開始條列。你可以罵它不聽話，但更實用的做法是把核心規則重新放進提示：

「延續前面的文章規則：繁體中文、白話、不要內容農場句式、不要編號小標，請只改第三段。」

這不是多此一舉，而是在幫 AI 把會議桌重新整理好。

如果任務很長，可以在中途要求它產生「工作摘要」，內容包含已決定事項、禁止事項、接下來要做什麼，之後開新對話時把這段摘要貼上去，比硬撐同一個長對話更穩。

寫程式也一樣，不要只說「照剛剛那個錯誤修」，請貼上錯誤訊息、相關檔案、你要保留的行為，換句話說，AI 不一定需要整個專案，但一定需要足夠上下文資訊。

長上下文不等於長記憶

Context window 和 memory 是兩回事。

Context window 是這一次模型呼叫能看到的內容，而 memory 是某些產品額外提供的長期記憶功能，例如記住你的偏好、名字、常用工作方式，兩者很容易被搞混在一起，簡單來說先分清楚這句就夠：AI 能在這一輪看見，不代表它會永久記住，AI 記住偏好，也不代表它能讀到所有歷史細節。

知識庫又是另一回事。NotebookLM、AnythingLLM、Dify 這類工具可能會先搜尋資料，再把相關片段塞進上下文，並不是把整個資料庫都倒進模型腦中，而是先找幾段可能有用的內容放上桌，我們網站裡面另外有詳細介紹。

所以當回答失準時，不只要問「模型好不好」，也要問「它這次到底看到了什麼」。

讓 AI 不容易忘的做法

長任務不要只靠聊天紀錄硬撐，你可以準備一段固定工作卡，包含角色、目標、格式、禁用規則、目前進度，每次重要修改前把工作卡貼回去。
資料很多時先建立索引，告訴 AI 每份文件是什麼、你要比較哪些欄位、哪份資料優先，不用把所有東西同時丟進去。
對話快失控時，要求 AI 先整理「目前共識」，不要繼續產出，你確認共識正確後，再把共識當下一輪的基準，這一步比一直罵「你忘了」有效。
若是 API 或開源工具，檢查設定裡的 max context、max output、retrieval chunks、conversation memory、auto compact，這些設定會直接影響 AI 能看到多少內容。

你怎麼確定你懂了？

問自己這題：

如果 AI 在第 30 輪忘記第 2 輪的規則，我能不能用一段 5 行以內的提示，把任務目標、重要規則、目前進度重新放回上下文？

如果你做得到，你就不是被 context window 牽著走，也就是你已經瞭解 AI 需要的是整理過的對話內容，而不是無限聊天紀錄。

想知道你的 AI 一次能看多少？

不用記英文，挑你正在用的 AI，去官方頁面找這兩個數字：

「能讀多少」：頁面上會寫 context window 或上下文長度，數字單位通常是 K（一千）或 M（一百萬）。
「能寫多少」：寫成 max output 或最大輸出，這是 AI 一次最多能回你多長。

假如看到 200K、400K、1M 這種數字時，你可以簡單理解 200K 大約是一本中等厚度的小說，1M 接近七、八本書。

下一步可以先學什麼

Token 到底怎麼算：為什麼 AI 用越多越貴：搞懂上下文怎麼變成帳單。
NotebookLM 深度使用指南：長文件不要硬塞聊天，讓資料來源變主角。
Claude 長文研究與 coding 工作流：長任務怎麼把工作卡反覆放回上下文。

本文最後查證日期：2026-05-11