browser-use 是什麼?讓 AI 自己操作瀏覽器的熱門開源工具
編輯:BJ最後檢查:2026-06-01主要來源:GitHub
browser-use 是熱門的開源瀏覽器自動化工具,主打讓 AI agent 可以看網頁、點按鈕、填表單、完成網站任務。這篇用新手角度說明它好不好上手、適合哪些任務,以及跟 Playwright、Firecrawl 差在哪。
browser-use 想解決什麼問題
很多事不是 API 能解決的 — 進公司後台查資料、到網站填表、比較不同頁面、操作沒有 API 的舊系統、測試一個流程能不能跑完。以前這些都要寫 Playwright 或 Selenium 腳本:頁面一改就壞,maintain 起來頭痛。
browser-use 想做的是 — 讓 AI 自己看頁面、自己決定下一步。點按鈕、輸入文字、切頁面,過程像個會用網站的助手。它不是爬蟲、不是截圖工具,重點是「操作」。
費用:browser-use 本身開源免費。真正會花錢的地方有三個:
- 模型 token:agent 每一步都要把網頁截圖或 HTML 送給 LLM 分析,token 用量比一般 chatbot 高很多。一個複雜任務跑下來,幾塊到幾十塊台幣都有可能。
- 瀏覽器資源:要跑 Chromium,記憶體至少 8GB 起跳。
- API 服務:如果接的是付費 API(OpenAI、Anthropic),照那邊算。
安裝:pip install browser-use,需要 Python 3.11 以上。
它好不好上手?
概念好懂,但不是完全新手的第一個工具。
你需要:基本 Python、有 API key、知道什麼是 agent loop。它不是下載按一鍵的桌面 App。如果你還沒寫過 Python 或還不熟模型 API,建議先從 Cursor 或 Cline 這類 AI coding agent 開始,熟悉模型呼叫和 agent 概念後再回來看 browser-use。
第一次怎麼試
不要直接拿銀行、公司後台或重要帳號開玩,照這個順序:
- 跑官方範例的最小任務,例如「打開某個公開文章頁,整理前三個重點」。
- 用公開網站、不要登入,先看它怎麼觀察頁面、決定動作。
- 每一步都看它在做什麼,確認沒有亂點。
- 確定低風險任務跑得起來,再加複雜度。
第一次絕對不要讓它填真實付款資料、刪資料、送出重要表單。
跟一般爬蟲工具差在哪
最常被拿來比的是 Firecrawl、ScrapingBee 這類「抓網站內容」工具。差別其實是定位完全不同:
抓內容類(Firecrawl 等):你給一個 URL,它把整頁內容轉成 Markdown 或 JSON。唯讀,不會點按鈕、不會切頁、不會登入。
操作網站類(browser-use):你給一個目標,它自己決定要點哪、填什麼、切哪頁,會互動。比較像 agent,不像爬蟲。
判斷:只要讀內容 → 用爬蟲類工具。要點按鈕、切頁、登入後跑流程 → 才用 browser-use。
跟 Playwright 怎麼選
Playwright 是穩定的瀏覽器自動化框架,適合寫可重複、可測試的固定腳本。一旦寫好,每次跑都一樣,適合做 E2E 測試或固定爬取流程。
browser-use 讓 AI 參與決策,適合任務不固定、頁面可能變化、你想用自然語言描述目標的場景,但相對地它比 Playwright 不穩,AI 可能看錯、點錯、走錯流程。
正式流程需要可靠,Playwright 腳本還是比較硬。研究或 prototype,browser-use 比較快。
它適合哪些任務
我會把 browser-use 放在「研究 AI agent 怎麼操作真實網頁」的場景。例如:
- 自動查資料:登入某個公開資料庫、搜尋關鍵字、整理結果。
- 自動填測試表單:開發階段拿來測試表單流程。
- 自動整理網站內容:抓多頁文章後讓 AI 寫摘要。
- 做 agent demo:示範 AI 怎麼操作軟體。
如果你只是想簡單抓資料,它太重了,直接用爬蟲工具比較省事。
使用上要小心的事
第一,不要讓它碰高風險帳號,銀行、公司後台、雲端管理面板都不適合。
第二,不要讓它自動送出不可逆操作,付款、刪資料、合併 PR 這類動作要人工確認。
第三,要注意網站條款和 robots.txt,自動操作別人的網站可能違反 ToS。
第四,AI 操作瀏覽器可能慢,也可能走錯,每一步都會花 token,跑大型任務前先看一下成本。
第五,正式自動化還是要有人工審查或測試保護,不要因為它酷就放飛。
想開始用 browser-use?
照這三步:
- 確認你會 Python,且已有 OpenAI 或 Anthropic 的 API key。
- 第一個任務做「打開公開頁、整理內容、不登入、不送出」這種完全唯讀的測試。
- 確認它能穩定看頁面、按你的要求操作,再考慮加登入或多步驟流程。
判斷路線:
- 目標是穩定抓資料 → 用 Firecrawl 或一般爬蟲工具。
- 目標是穩定測試網頁 → 用 Playwright。
- 想研究 AI 自己操作瀏覽器 → browser-use 才是這條路。
下一步可以先看什麼
- Cline 是什麼:在 VS Code 裡先熟悉 AI agent 模式。
- Hermes Agent:另一種開源 AI agent 框架。
- Cursor AI 編輯器:寫 Python 想要 AI 幫忙的話。
參考來源
- browser-use GitHub:https://github.com/browser-use/browser-use
- Playwright 官方文件:https://playwright.dev
本文最後查證日期:2026-05-20
延伸閱讀
Cline 是熱門的開源 AI coding agent,可以在 VS Code 裡讀檔、改碼、執行命令、操作瀏覽器。這篇用新手角度說明它和 Cursor、Continue.dev、Claude Code 差在哪,以及第一次該怎麼低風險試用。
Hermes Agent 是什麼?開源自我學習 AI Agent 的功能、限制與使用建議用中文白話介紹 Nous Research 的 Hermes Agent:它和一般聊天機器人、AI coding agent 有什麼不同,適合誰、風險在哪、新手該不該現在就用。
Cursor 是什麼?把 AI 放進寫程式流程的進階編輯器用中文白話介紹 Cursor 的用途、適合對象、下載與價格、新手上手流程、AI coding 風險,以及它和 VS Code、Claude Code、Antigravity 的差異。
Firecrawl 是什麼?把網站抓成 AI 可以使用的資料Firecrawl 是熱門的開源網頁抓取工具,可以把網站內容整理成 Markdown 或結構化資料,常被放在 AI agent、RAG、知識庫與資料蒐集流程前面。這篇用新手角度說明它能幹嘛、適合誰、跟 MarkItDown 和 browser-use 怎麼分。
Flowise 是什麼?用拖拉節點建立 AI agent 工作流的開源工具Flowise 是熱門的開源視覺化 AI agent builder,讓你用節點拖拉方式串模型、工具、資料來源與流程。這篇用新手角度比較 Flowise、Dify、Langflow、n8n,幫你判斷值不值得試。
Maxun 是什麼?用點選的方式把網站變成表格,不用寫爬蟲Maxun 是開源的 no-code 網頁擷取工具,你在畫面上點一點要哪些欄位,它就把整個網站抓成表格或 API,不用寫程式。這篇用新手角度說明它能幹嘛、適合誰、怎麼開始,以及跟 Firecrawl、Crawl4AI、browser-use 怎麼分。