L122︱生成式 AI 的典範轉移:為什麼 AI Agent 是下一場工作革命?
字數 4847閱讀時間≈ 13 分鐘

type
status
date
slug
summary
tags
category
icon
password
這篇文章源自 iPAS AI 規劃師初級考試「科目二(L122)」但內容大多是取自於2025年第四場初級考試的題目。AI的發展日新月異,考題也會隨著時事更新,僅供參考。
前言
如果你曾覺得:「為什麼我跟 AI 溝通還是這麼累?我得一步步教它怎麼做,最後還要自己 Debug(除錯)」,那麼你並不孤單。這種疲憊感源於一個本質性的矛盾:我們在使用一個擁有智慧的「大腦」,卻得親自充當它的「手腳」。
現在,這個格局正在被打破。我們正在從「Chatbot(聊天機器人)」時代,正式邁入「AI Agent(人工智慧代理)」的時代。這不只是技術的升級,而是一場關於工作本質的「典範轉移」。
這篇文章不談基礎科普,我們直接深入核心:從 ReAct 架構到 MCP 協定,從提示詞工程的本質到 Workflow Engineering 的典範轉移。如果你已經知道 LLM 是什麼、用過 ChatGPT,那這篇文章會告訴你「下一步是什麼」。
第一章:從 Chatbot 到 Agent——典範轉移的本質
為什麼大家突然不再談論「對話」,而開始談論「代理」?要理解這個轉變,我們必須先釐清兩者在底層邏輯上的根本差異:你是雇傭了一個「顧問」,還是雇傭了一個「員工」?
1.1 工具時代:AI 是「被動回答者」
我天天都在用 ChatGPT 幫我寫草稿、查資料,這不就是已經在使用 AI 工具了嗎?它到底還缺少了什麼?

在過去兩年中,我們與 ChatGPT、Claude 或 Gemini 的互動模式,本質上是一種「單次指令交換」。這就像是在諮詢一位知識淵博的顧問:你問,它答。
這種模式的最大限制在於:AI 只負責「生成內容」,不負責「達成結果」。
在這個過程中,AI 雖然聰明,但它卻是「被動」的。你必須扮演「專案經理」與「執行小秘書」。換句話說,你才是那個真正動手做事的人,AI 只是幫你整理攻略的「智慧型電子書」。
1.2 Agent 時代:AI 是「主動執行者」
所以 Agent(代理)到底跟一般的聊天機器人有什麼不同?它真的能像真實的員工一樣,自己把事情做完嗎?

所謂的 Agent,是指一個能夠「自主規劃、執行並自我修正」的 AI 系統。它不再只是回答你的問題,而是承諾完成你的任務。
核心差異在於:Agent 能夠「閉環執行」——它不需要人類介入每個步驟,而是自己完成「規劃 → 執行 → 檢查 → 修正」的循環,直到任務完成或遇到無法解決的問題。
1.3 為什麼現在才出現 Agent?
既然 Agent 這麼好用,為什麼我們現在才開始討論它?以前的 AI 技術做不到這些自動化操作嗎?

「智慧代理」的概念在學界存在已久,但為何直到 2024 年才真正爆發?因為三個技術條件終於成熟:
① 推理與行動能力的耦合:ReAct 框架
早期的模型雖然會寫字,但不會「思考步驟」。GPT-4、Claude 3.5 Sonnet 這一代模型具備了 ReAct(Reasoning + Acting)能力。這讓 AI 能在長達數十步的任務鏈中,保持邏輯的連貫性:
- 理解複雜指令:分辨「寫程式」、「測試程式」、「修正程式」是三個不同的步驟
- 動態調整策略:根據執行結果決定下一步行動(例如:測試失敗 → 分析錯誤 → 修改程式碼)
- 處理多步驟任務:在長達 10-20 步的任務鏈中保持邏輯一致性
② 讓 AI 長出手腳:工具調用 (Tool Use)
現在的模型具備了 Function Calling(函數調用) 的能力。這意味著 AI 終於拿到了外界的「授權」,它可以:
- 操作檔案:讀取或修改你的行程 Excel 表。
- 執行環境:直接在電腦環境執行腳本處理資料。
- 網路存取:主動去訂房網站刷即時資訊,而不是憑過時的訓練資料瞎猜。
③ 巨大的記憶空間:長上下文視窗 (Context Window)
Agent 在執行任務時,需要記住大量的脈絡:你的預算、不喜歡的飯店類型、之前的搜尋結果。
- 以前的 AI:只有幾千字的記憶,任務跑一半就「失憶」了。
- 現在的 AI:具備高達 20 萬 token 的 Context Window。這讓它能一次性記住你整個旅程的所有偏好,從全域的角度來思考問題。
這三大條件的成熟,讓 AI 從一個「只能隔空喊話的軍師」,變成了一個「能直接下場作戰的先鋒」。
第二章:Agent 的核心技術架構
知道了 Agent 的強大,你可能會好奇:它是怎麼做到的?它真的在「思考」嗎?
Agent 並不是具備了人類的神經元,而是擁有一套精密設計的「數位大腦架構」。我們可以將其拆解為三個部分:推理循環、工具調用與記憶管理。
2.1 ReAct:當 AI 學會「先思後行」
AI 說到底不就是預測下一個字出現機率的機率模型嗎?它如何『決定』下一步要做什麼?

這就是 ReAct (Reasoning + Acting) 的魔力。它不是一個線性的流程,而是一個「觀察、思考、動手」的迭代循環:
- Reasoning(推理):分析現狀。例如:「飯店客滿了,我需要找第二順位的旅館。」
- Acting(行動):執行操作。例如:「在 Booking.com 搜尋附近飯店。」
- Observation(觀察):檢查結果。例如:「發現 B 飯店有房,但評價只有 3.5 星。」
這就像你在寫報告時,發現資料不足(觀察),決定去圖書館(推理),然後動身出發(行動)。Agent 的智慧,來自於它能根據「上一步的失敗」來修正「下一步的行為」。
而決定 AI 如何展開思考的,是它背後的「推理框架」。這就像是一個人在面對問題時採用的「思考模型」,我們可以將其分為「直覺理解」與「深度推理」兩個層次:
第一層:基礎理解(決定理解任務的速度)

- Zero-shot (零樣本提示):不給範例,直接要求 AI 憑直覺推理。適合「幫我檢查飯店評價有沒有負評」這類簡單任務。
- Few-shot (少樣本提示):給 AI 1-3 個範例。例如:「以前我選飯店的標準是 A、B、C,請以此幫我選這次的京都飯店」。這能大幅提升 Agent 執行你個人化偏好的精準度。
第二層:深度推理(決定解決複雜問題的能力)

當任務變得很複雜時,Agent 會開啟「慢思考」模式:
框架名稱 | 核心概念 | 適用場景 |
思維鏈 (CoT) | 像解數學題般,要求 AI 「逐步思考」 | 複雜邏輯推理、除錯 |
思維樹 (ToT) | 同時考慮多條路徑,選出最佳解 | 策略規劃、方案優化 |
思維骨架 (SoT) | 先擬定大綱骨架,再填充細節 | 寫作長文、系統架構 |
這兩種層次的結合,支撐了 ReAct 的運作:Zero/Few-shot 決定 Agent 能否「理解任務」,而 CoT/ToT/SoT 則決定了它在遇到飯店客滿等突發狀況時,能否「穩定推理」並找到備案。
2.2 Tool Use:給 AI 大腦插上手腳
AI 真的能直接去訂房或是修改我的檔案嗎?它明明只是螢幕裡的一段文字啊!

這就是 Function Calling(函數調用) 的神奇之處。AI 本身確實不會「刷卡」或「點滑鼠」,但它可以輸出特定的「格式代碼」,告訴系統去執行特定的工具。
以「查詢天氣」為例:
- 傳統 AI:會告訴你「我無法得知即時資訊」。
- 具備 Tool Use 的 Agent:它會識別出你的意圖,並呼叫一個叫做
get_weather(city="Taichung")的小工具。
真正的執行是由背後的程式碼完成的,但 AI 知道「何時該用什麼工具」。
2.3 Memory:AI 的「工作記憶」與「長期檔案庫」
為什麼我跟 AI 聊到一半,它突然就忘記我五分鐘前說過的話了?

這涉及到 AI 的「記憶管理」。Agent 的記憶分為兩個層級:
① 短期記憶:上下文視窗 (Context Window)
這相當於 AI 的「工作桌面」。當前對話歷史、正在看的檔案都放在這。
目前的頂尖模型擁有巨大的工作空間,能讓 AI 一次「看到」整個專案的內容。然而,一旦專案太大,超過了 Token(文字單位)限制,AI 就會發生「失憶」。
② 長期記憶:外部儲存與向量資料庫
為了突破桌面空間的限制,Agent 會建立「圖書館」。
它會使用 RAG(檢索增強生成) 技術,將過往的決策、你的偏好、或是數萬份文獻存入向量資料庫。當它需要時,才去圖書館裡把那一頁「查出來」。
記憶能力是 Agent 從「隨機聊天機器人」進化為「深度協作者」的關鍵。它不再是每次都從零開始認識你,而是能夠「記住」你的工作習慣與過往決策。
第三章:MCP——AI 的「USB 介面」
如果說推理架構是 Agent 的大腦,那為什麼我們到現在才感覺到它變好用了?因為大腦還需要與外界連接。
在 2024 年底,Anthropic 推出了一個革命性的協定:MCP (Model Context Protocol)。它被譽為 AI 界的「USB 介面」。
3.1 為什麼需要一個「新協定」?
軟體之間本來不就有 API(應用程式介面)可以對接了嗎?為什麼還需要特別幫 AI 制定一個 MCP 協定?

想像一下,如果你想讓 AI 同時存取你的 Google Drive、Slack 和 GitHub。
- 以前(沒有 MCP):每個軟體(如 Cursor、Claude)都要針對這三個服務,分別撰寫複雜的對接程式碼。開發者要處理三套不同的驗證方式與數據格式,這導致串接非常昂貴且緩慢。
- 現在(有了 MCP):服務商只需提供一個「MCP Server」。任何支援 MCP 的 AI(就像電腦的 USB 槽)都能直接「插上」並使用這些功能。
這就是「標準化」的力量。MCP 讓 AI 不再需要針對每個軟體「量身打造」連接線,而是實現了「即插即用」。
3.2 MCP 的三層架構:它是如何溝通的?
當我點擊連接時,背後發生了什麼事?AI 是如何讀取我的私密資料的?

MCP 採用了一套簡單卻強大的三層架構來確保安全與效能:
- MCP Server(工具提供方):將外部服務(如 Notion)包裝成 AI 能理解的介面。
- MCP Client(AI 使用方):負責呼叫 Server,拿到資料或要求執行操作。
- MCP Protocol(溝通協定):定義了「怎麼問」與「怎麼答」的標準格式,確保雙方不會雞同鴨講。
3.3 為什麼 MCP 是 Agent 爆發的關鍵?
這對普通使用者來說有什麼好處?我的工作效率會因此提升嗎?

MCP 的出現,直接解決了 Agent 從「理論」走向「實用」的最後一公里路:
- 降低開發門檻:以前串接一個新服務可能需要幾天甚至幾週;現在,只要勾選「啟用」就能完成。這意味著未來你會看到成千上萬的小工具都能輕易被 AI 呼叫。
- 生態系的擴張:無論是你的 GitHub 代碼、Slack 訊息,還是 SQL 資料庫,都能瞬間變成 Agent 的「資料庫」與「武器庫」。
- 從「空想」到「行動」:沒有 MCP,Agent 只能在對話框裡給你建議;有了 MCP,Agent 才能真正「動手」去修改你的檔案、發送你的郵件。
MCP 不只是一個技術規格,它是 Agent 時代的「基礎設施」。它讓 AI 真正擁有了與數位世界「無縫接軌」的能力。
3.4 從單兵作戰到群體協作:A2A (Agent-to-Agent) 架構
如果我的 Agent 想做的事情超出了它的能力範圍,或者需要與另一個系統深度對接怎麼辦?

- 從「呼叫工具」變成「請教專家」:
以前 AI 是自己去翻地圖、刷網站(呼叫工具);A2A 是你的 AI 直接去跟飯店的 AI 談判。你的 Agent 不需要懂怎麼訂房,它只需要知道「飯店 Agent」懂,然後把任務委派出去。
- 標準化的「商業溝通語言」:
Agent 之間要協作,必須講同一種語言。這就是 MCP 協定 的終極目標——定義一套標準,讓不同的 Agent 能互相交換需求、確認價格、完成交易,而不需要人類在中間傳話。
- 數位世界的「外包鏈」:
未來你只需要對接一個「總管 Agent」,它會自動去發包給無數個專業 Agent(報帳、訂票、寫扣)。這讓複雜任務的處理能力呈指數成長,因為 AI 之間溝通的速度遠比人機溝通快得多。
這就是 MCP 協定最終將導向的終極願景:A2A (Agent-to-Agent) 協作架構。
第四章:從 Prompt Engineering 到 Workflow Engineering
隨著 MCP 解決了「連接」問題,我們與 AI 的協作也進入了下半場:我們不再只是「問問題的人」,而是「設計流程的人」。
4.1 典範轉移:別再執著於「完美提示詞」
我學了這麼多提示詞技巧,現在跟我說寫提示詞已經不夠了?那我要學什麼?

我們正在經歷一場從「Prompt Engineering(提示詞工程)」到「Workflow Engineering(工作流程工程)」的典範轉移:
- 工具時代 (Prompt):核心在於「怎麼問」。你關注的是角色的設定、語氣的明確、格式的規範。
- Agent 時代 (Workflow):核心在於「怎麼設計流程」。你關注的是任務的拆解、執行後的驗證、以及「出錯後該怎麼辦」。
這就像是從「寫便條紙給助理」進化到了「設計工廠自動化生產線」。
4.2 Claude Skills:讓 AI 像「下載軟體」一樣獲得能力
有些任務需要很專業的規則,我難道每次都要把幾千字的規則貼給 AI 嗎?
這就是「能力模組化」的概念。以 Anthropic 推出的 Claude Skills 為例,它能將專業知識與最佳實踐封裝成一個行為模組。
例如,載入一個
docx Skill 後,AI 就像瞬間下載了「專業文件撰寫外掛」,自動獲得格式處理與結構優化的能力。這種模組化的設計,讓 Agent 能夠根據任務「一鍵切換工具箱」。這聽起來跟 OpenAI 的 GPTs 或 Google 的 Gems 很像?它們之間的差別在哪?

核心差異:GPTs 是「你去換一個專家聊天」;Skills 是「讓同一個 Agent 變得更強」。在 Workflow Engineering 的思維下,模組化的 Skills 才能讓 Agent 在一個複雜任務中,動態切換各種專業能力。
4.3 實戰對比:尋找自動化的最佳平衡點
市面上這麼多自動化工具,有些很便宜,有些用 AI 卻很貴,我該怎麼選?
方案類型 | 核心能力 (流程/語意) | 自動化程度與成本 |
NC/LC自動化工作流 | 固定流程、無語意理解 | ✅ 全自動 / 💰 最低 |
NC/LC + AI | ⚠️ 半固定、具備語意判斷 | ✅ 全自動 / 💰 中低 |
Claude Skills | 彈性流程、語意理解極強 | ❌ 手動觸發 / 💰 中等 |
Agent Workflow | 自主修正、全動態流程 | ✅ 全自動 / 💰 最高 |
💡 決策指南:
- 流程固定、不需要理解語意(如:每週備份資料):請用傳統NC/LC工具。例如:定時備份資料。
- 流程固定但需要「讀得懂人話」(如:自動記帳、社群媒體評論監測):NC/LC + AII 節點 是 CP 值最高的選擇。
- 需要專業領域知識且需「人機協作」(如:撰寫符合嚴格法規的文件):載入 Claude Skills(或其模組化技能)是最有效率的方式。這讓 AI 瞬間獲得「專業武功」,且人類仍保有高度的審核與引導權。
- 流程不固定、需要應對各種突發報錯(如:解決複雜代碼 Bug):唯有具備自主推理能力的 Agent Workflow(如 Cursor 或 Windsurf)才能真正勝任。
雖然 Agent 的成本最高,但它帶來的「錯誤自我修正」與「環境適應力」,是傳統自動化工具無法比擬的價值。
結語:從「指令使用者」進化為「流程建築師」
從 Chatbot 到 Agent 的轉型,本質上是一場關於「控制權」與「信任度」的重新分配。
但在此之前,我們必須面對一個殘酷的事實:你以為你懂的東西,未必說得清楚。
過去我們習慣把 AI 當作問答機器——丟問題,等答案,不滿意就換個問法。但 Agent 要求的是另一種能力:你得把腦子裡那些「憑感覺」、「看情況」、「差不多就這樣」的判斷,拆解成可以被執行的步驟。
真正的挑戰不在於寫出更精確的提示詞,而是在於:你能不能把自己做事的邏輯——那些你從來不需要說出口的隱性知識——轉譯成一套顯性的流程?
未來最強大的競爭力,不在於你對工具的熟練程度,而在於你是否具備「Workflow Engineering(工作流程工程)」的思維。你不是在學怎麼操作 AI,你是在學怎麼把你腦子裡的知識變成規則。
AI Agent 不會取代你的判斷,但它會逼你面對一個終極問題:你真的像你以為的那麼懂你在做什麼嗎?
AI 代理正在將我們從瑣碎的「執行地獄」中解救出來,但它同時也給了我們一個新的任務:成為一名「流程建築師」。你準備好設計你的第一條自動化生產線了嗎?
相關文章
.png?table=collection&id=2ba70f01-9634-81f4-8376-000b1aff7bf1&t=2ba70f01-9634-81f4-8376-000b1aff7bf1)






