機器真的聽懂人話嗎？一次搞懂 NLP：Transformer、BERT 與 GPT

🎯

NLP 從規則死背、統計算機率，走到 Transformer 的自注意力機制，讓機器從「數字計算」進化到「動態理解語意」。BERT 擅長雙向理解，GPT 擅長流暢生成，兩者並非競爭而是各擅其場，幻覺與算力則是當前 LLM 仍待突破的天花板。

對人類來說，說話像呼吸一樣自然；但對電腦而言，人類語言是一場混亂的災難。同一個詞「bank」，在金融情境中是銀行，在地理情境中是河岸。電腦最初只是一台只認得 0 與 1 的冷酷計算機，要讓它理解文字中的情緒、雙關與邏輯，人類經歷了長達半個世紀的技術長征。

自然語言處理（Natural Language Processing, NLP）的本質，就是一場將「感性訊號」轉譯為「數學邏輯」的煉金術。這篇文章將帶你穿梭時空，看機器如何從死背規則的「複讀機」，演化成具備動態雷達的「通才巨人」。

一、NLP 的核心疆域：理解與生成的二重奏

❓

NLP 不就是把文字丟進模型裡跑嗎？為什麼還需要分 NLU 和 NLG？這對開發者來說有什麼實質意義？

NLP 就是讓電腦「讀懂」並「說話」的技術。NLU 負責理解（像大腦聽懂指令），NLG 負責生成（像嘴巴回話）。區分兩者能讓開發者按需求選工具，精準省時又不浪費資源！

NLU 與 NLG 差異圖解：左側戴眼鏡橘貓代表自然語言理解（NLU）解析語意，右側橘貓敲鍵盤代表自然語言生成（NLG）產出文字

1.1 分類的意義：追求「對不對」還是「好不好」？

為什麼我們要特地把 NLP 切分成 NLU（理解）與 NLG（生成）？這不只是學術上的分類，更是因為兩者的「成功定義」完全不同。當你作為開發者在評估模型時，這套標準能幫你決定資源該投在哪：

NLU 追求的是「對不對」：

這是一個關於「精確率」與「召回率」的比賽。當使用者說「我要退貨」，模型必須 100% 精準地辨識出意圖，不能把退貨誤判為下單。在這裡，我們容不下模糊空間，目標是從成千上萬種說法中，找到唯一的正確答案。

NLG 追求的是「好不好」：

這是一個關於「流暢度」與「相關性」的挑戰。AI 回覆使用者的文字，沒有絕對的標準答案。重點在於語氣是否自然？邏輯是否連貫？內容是否真的解決了問題？在這裡，我們追求的是一種人性化的溝通體驗。

1.2 技術底層：機器處理語言的三個任務層級

NLP 處理三層次圖解：理解（解析情感）、處理（神經網路運算）、生成（產出回應），擬人化貓咪呈現自然語言處理流程

要達成上述目標，NLP 系統在技術上必須經歷三個遞進的處理層級，這也是所有 NLP 模型的共同基石：

理解 (Understand)：這是 NLU 的主戰場。機器必須從混亂的非結構化文字中，解析出語法結構（Syntax）與語意邏輯（Semantics）。這涉及辨識語者的意圖、偵測情緒，並從背景知識中提取出隱含的邏輯。

處理 (Process)：將人類語言轉換為電腦可操作的結構。這通常涉及「特徵提取」，例如將句子變成高維度向量，讓機器能在座標系中計算詞語間的距離。

生成 (Generate)：NLG 的終極目標。根據處理後的語意座標，模型必須重新建構語句，產出自然、流暢且具備邏輯的文字。這不只是拼湊單字，還需要考慮上下文的一致性（Coherence）。

1.3 開發者的最終目標：解決哪種商業問題？

在實務應用中，我們會根據任務屬性來選擇技術路徑。下表整理了 NLP 的核心任務分佈：

模組一：自然語言理解 (NLU)

核心目標： 將非結構化文字轉化為電腦可處理的標籤、類別或數據。

任務名稱	技術細節 (底層邏輯)	實務應用場景
意圖辨識 (Intent Recognition)	把語句分類到預設標籤（如：詢問天氣、退貨）	客服機器人分流、語音指令解析。
命名實體辨識 (NER)	從文本中提取人名、地名、機構。	法律文件自動標記、醫囑資訊抓取。
情感分析 (Sentiment Analysis)	判斷語氣是正向、負向還是中立。	社群輿情監控、電商評論自動彙整。

模組二：自然語言生成 (NLG)

核心目標： 根據已理解的資訊或數據，重新組織成人類可讀的流暢文字。

任務名稱	技術細節 (底層邏輯)	實務應用場景
自動摘要 (Summarization)	壓縮長篇大論，只保留核心重點。	新聞快報、會議記錄自動摘要。
對話生成 (Response Generation)	根據上下文邏輯，產生流暢的回覆。	ChatGPT 對答、虛擬助理互動。
機器翻譯 (Machine Translation)	跨語言轉換：語意對齊並重新建構語句。	跨國文件翻譯、即時語音翻譯。

二、演進史：從規則編碼到預訓練時代

❓

既然現在的 GPT 這麼強，我們還有必要學規則式方法（Rule-based）或是統計模型（N-gram）嗎？那不都以前的東西了？學最新的不就好了？

即使 GPT 強大，學習基礎技術仍有三大核心意義：

技術底層邏輯：現代 Transformer 是從詞向量、統計模型演化而來。不學基礎，難以理解模型為何出錯或如何調優。

實務場景限制：在斷網、低運算設備或高隱私需求下，輕量的傳統方法是唯一解。

混合式架構：最強的系統通常是「規則＋模型」。用規則過濾敏感資訊，再用 GPT 生成內容，兼具安全與靈活性。

NLP 四代演進史圖解：規則式方法、統計機率模型、深度學習、預訓練大模型時代，四隻貓咪角色呈現 NLP 技術演化

2.1 第一世代：規則式方法 (1980s - 1990s)

這是一個「語言學家治國」時代。人類手動編寫語法辭典與邏輯規則。系統不具備真正的智能，僅是按照「如果...就...（If-Then）」的邏輯運行。

代表技術：ELIZA、專家系統。

優勢：高可解釋性。系統若判斷錯了，你可以精準找到是哪條規則寫歪了。

痛點：維護成本極高。語言是活的，當新詞（如「很雷」）出現時，系統必須手動更新，否則就會徹底失效。

經典案例：ELIZA (1966 年) 這是史上第一個聊天機器人，它模擬的是一位「心理醫生」。它完全沒有智慧，只是利用關鍵字替換來反問使用者。
使用者：「我最近跟我媽吵架了。」
ELIZA 規則：只要看到「我媽」，就回覆「再多跟我聊聊你的家人吧」。結果：使用者會覺得「它聽得懂我在說什麼」，但其實它只是在玩文字接龍。

❓

規則式方法 (Rule-based) 現在還有人用嗎？

有的！雖然 GPT 很強，但規則式方法在「準確度」與「成本」上有不可取代的地位。

身分證字號檢查 💳：這是最經典的應用。透過預設的數學邏輯（如：首字母代表地區、檢查碼運算）來驗證格式。這種「非黑即白」的任務，用規則式處理比 AI 亂猜更精準。

LINE 官方帳號機器人 🤖：許多企業的自動回覆系統仍使用「關鍵字觸發」。當使用者輸入特定詞彙（如：門市資訊、運費），系統便立即丟出預設內容，反應速度極快且成本極低。

2.2 第二世代：統計語言模型 (1990s - 2010s)

在深度學習出現之前，機器讀語言靠的是統計規律，也就是數算詞出現的頻率。核心概念是：如果一個詞組合在過去經常出現，那它在未來出現的機率也比較高。

❓

為什麼放棄規則，改學機率？

因為人類語言太難預測了！規則寫再多也寫不完例外。統計派不再強迫電腦「理解」語法，而是讓它當個「算命師」：根據過去發生的數據，預測下一個字最可能出現什麼。這就是從「教電腦釣魚」轉向「給電腦看一萬張魚的照片」的過程。

① N-gram 語言模型 (N-gram Language Model)

核心邏輯：靠前面幾個詞預測下一個詞的機率。N 是你往回看的「窗格大小」。

致命限制：長距離依賴問題 (Long-range Dependencies)。N-gram 只能看固定長度的窗格。句子太長時，它會「瞬間斷片」，忘記句子開頭說了什麼。

痛點：資料稀疏問題。當 N 增大時，許多詞組組合在語料庫中從未出現，機率會變為零。

Google 搜尋建議。當你輸入「台北」，系統會根據統計機率跳出「台北天氣」、「台北捷運」，因為這些組合在數據庫中出現次數最多。

② TF-IDF 詞頻-逆文件頻率 (Term Frequency-Inverse Document Frequency)

TF-IDF 演算法圖解：用餃子比喻關鍵詞權重，詞頻（TF）乘以逆文件頻率（IDF）找出最能代表主題的關鍵詞

核心邏輯：它是「字詞計數器」。在單篇出現多（TF 高），但在所有文章中罕見（IDF 高），則該字最能代表主題。

沒辦法處理「一詞多義」：如果你搜尋「蘋果」，TF-IDF 分不出你是在找吃的「水果」，還是在找「手機」。它只會數次數，不會看上下文。

完全不懂「意思」 (語意鴻溝)：在 TF-IDF 眼中，「貓咪」和「喵星人」是兩個截然不同的東西，分數完全不互通。如果你搜尋「貓咪」，它可能漏掉所有寫「喵星人」的超棒文章。

停用詞（Stopwords）過濾

想像你在聽一場演講，講者每講三句話就加一個「然後」、「那個」。這些詞對理解演講核心毫無貢獻，卻佔據了你的聽力帶寬。在 NLP 中，這就是「停用詞」。
核心功能：去除如「的」、「了」、「在」或英文的 "is", "the" 等高頻但語意貢獻低的詞。
減少運算量：過濾掉佔文本 30%-50% 的廢話，能讓模型訓練快上一倍。

傳統 SEO 玩法：在那個 Google 還沒像現在這麼聰明的時代（大約 2010 年代以前），TF-IDF 是搜尋引擎排名的核心技術之一。網站管理員會計算競爭對手的網頁中，哪些關鍵字的 TF-IDF 分數最高，然後在自己的網頁裡刻意增加這些「稀有且重要」的詞彙，好讓 Google 覺得這篇文章「最有重點」。

2.3 第三世代：深度學習時代 (2010s - 2018)

❓

N-gram 跟 RNN、LSTM 都是健忘的金魚腦，那他們差在哪裡？

從統計時代（N-gram）跨越到深度學習時代（RNN/LSTM），最關鍵的差別在於電腦看待語言的方式從「數次數」變成了「向量化與狀態記憶」。

統計時代 (N-gram)：像是一個只有幾秒記憶的收銀員。他只記得你剛剛說的最後 1-2 個字。如果你說了一長串需求，他只會根據最後一個字來猜你要什麼。

深度學習時代 (RNN/LSTM)：像是一個帶著筆記本的速記員。他會把讀過的每個字轉化成「隱藏狀態（Hidden State）」，這就像是在筆記本上記錄摘要。雖然筆記本空間有限，寫太長會模糊（梯度消失），但他試圖保證整句話的語意是連貫的。

RNN 與 LSTM 記憶力比較圖解：RNN 像金魚腦處理長序列會斷片，LSTM 靠遺忘門與記憶門處理長距離依賴

神經網路進入戰場，RNN 與 LSTM 成為霸主。在這個時期，電腦不再只是數算機率，而是試圖模仿人類大腦的「隱藏狀態（Hidden State）」，將語言視為有順序的時間序列，讓模型具備了初步的記憶力。

RNN (循環神經網路)：初步的記憶力

核心邏輯：它像是一個帶著筆記本的速記員，讀到每個字都會在筆記本上記錄摘要（隱藏狀態），試圖把前面的語意帶到後面的句子。
致命傷：梯度消失 (Gradient Vanishing)。它的筆記本空間有限，一旦句子超過 20 個字，後面的記錄就會蓋掉前面的，導致它「看到後面就忘了前面」。
應用：自動選字、語音辨識

LSTM (長短期記憶網路)：進化的記憶開關

白話差別：它是 RNN 的升級版。LSTM 在筆記本上加裝了「門控機制（Gates）」，像是有立可帶（忘記門）和螢光筆（輸入門）。它能智慧地判斷哪些廢話該忘記、哪些重點該長久記住，因此能處理比 RNN 更長的句子。
這樣可以把重要的資訊「鎖」在記憶裡，傳遞到 100 個字甚至更遠之後。又稱長距離依賴 (Long-term Dependencies)。

2.4 第四世代：預訓練時代 (2018 至今)

❓

為什麼有了 LSTM，我們最後還是發明了更強大的 Transformer (ChatGPT 的祖先)？

自注意力機制（Self-Attention）解決了 LSTM 的順序依賴與資訊損耗問題。

並行處理：LSTM 像排隊領餐，必須一個接一個讀；自注意力則像一眼掃視全場，所有字同時運算，大幅提升效率。

瞬移對焦：無論兩個字離多遠，自注意力都能直接建立聯繫，不必像 LSTM 經過長距離傳遞導致記憶模糊。

Transformer 出現，終結了「排隊讀字」的時代。

突破點：並行運算與自注意力機制。模型不再需要逐字處理，而是一次掃描全局，這讓訓練大規模數據成為可能。

核心思維：不再只看「前一個字」，而是計算「全文字之間」的關聯性權重。

過往的技術讓我們解決了「記憶」問題，但 Transformer 帶領我們進入了「理解關係」的境界。究竟電腦是如何把一段文字拆解、轉換並產生這種神奇的「注意力」？我們將在第三章拆解它的底層黑盒子。

三、拆解 Token、向量與注意力的連鎖反應

如果說 NLP 是一座自動化工廠，那麼這一章就是這座工廠的「生產線核心」。當我們輸入一段文字，它並不是直接被丟進黑盒子，而是經歷了一連串精密的物理變換。

❓

既然電腦已經有強大的 CPU 了，為什麼不能直接讀取文字檔？為什麼一定要把句子拆得稀巴爛？

因為電腦的本質是「大型計算機」。文字對它而言太模糊、太感性。我們必須先透過「剪裁（Tokenization）」把語言變成零件，再透過「座標（Embedding）」把零件變成數字，最後用「雷達（Attention）」讓數字之間產生連結。這三個步驟缺一不可，這就是機器理解語言的連鎖反應。

在深入探討之前，我們必須建立一個共識：

Token 是零件：電腦不讀句子，它讀的是被剪碎後的符號。透過子詞（Subword）技術，我們解決了遇到新詞就當機的問題。

向量是座標：電腦不認得「貓」，它只認得座標 [0.6, 0.9, ...]。讓相似的詞在空間中「住在一起」，是機器理解的第一步。

📍

關於切分 (Tokenization) 跟向量化 (Embedding) 的基礎說明，可參考站內相關文章段落

大型語言模型 (LLM) 是怎麼煉成的？

3.1 現代大模型的秘密：BPE 子詞切分

NLP 分詞方法圖解：全詞法、字元法、子詞法（BPE）對比，BPE 子詞切分是現代大型語言模型的主流分詞技術

電腦不讀「句子」，它讀的是被剪碎後的零件，稱為 Token。但怎麼剪，是一門大學問！子詞切分（Subword segmentation）是目前最主流的解決方案。

BPE (Byte Pair Encoding) 是其中一種「積木化」的分詞技術。它會統計語料中出現頻率最高的字符組合，將常見的詞保留為完整積木，將罕見詞拆解成基礎組件（Subwords）。

全詞法 (Word-based)：像是死背單字的學生。

拆解結果：[抹茶煎餃]（如果字典沒這詞，它就直接當機 😵）。

字元法 (Character-based)：像是只認字母的幼兒。

拆解結果：[抹]、[茶]、[煎]、[餃]。雖然不會當機，但每個字都太碎了，電腦很難一眼看出「抹茶」是一個完整的味道。

子詞法 (Subword-based / BPE)：這就是現代大模型的秘密武器。

拆解結果：[抹茶] + [煎] + [餃]。它保有了「抹茶」這個有意義的單位，同時又把「煎」跟「餃」拆開，只要認識這些「積木」，它就能拼湊出大致語意，大幅提升了模型的泛化能力。

3.2 詞形正規化：Lemmatization vs. Stemming

當機器看到 "running", "ran", "runs"，它應該知道這都是同一個動作。

詞幹提取 (Stemming)

暴力剪裁。如將 "running" 剪成 "run"。速度快，但可能產出不存在的字（會把 flies 剪成 fli）。
如果使用者搜尋 fishing，詞幹提取會把它變成 fish。這樣系統就能同時抓到包含 fish、fished、fisher的文章。這種「寧可錯殺，不可放過」的特性，有助於提高召回率 (Recall)。

詞形還原 (Lemmatization)

依賴字典與語法規則還原為原型（如 saw根據語境還原為 see）。這對深度語意分析至關重要。

特性	詞幹提取 (Stemming)	詞形還原 (Lemmatization)
技術手段	規則剪裁（去字尾）✂️	字典查詢、語法分析 📖
準確度	較低（可能產生 `fli` 這種怪字）	高（還原為真正的原型 `fly`）
速度	極快 🏎️	較慢 🚶
典型應用	大規模搜尋引擎、快速過濾	聊天機器人、精準翻譯

❓

停用詞去哪裡了？在深度學習時代的停用詞處理，跟在統計時代差在哪裡？

這是一個非常關鍵的觀念差異！

① 統計時代 (TF-IDF)：我們必須主動過濾掉「的」、「了」、「the」等停用詞。因為這些詞出現頻率極高，如果不濾掉，模型會誤以為這些廢話才是關鍵字，產生嚴重的噪音

② 深度學習時代 (LLMs)：我們通常「不再」主動移除停用詞。因為像 BERT 或 GPT 這種模型需要理解完整的上下文脈絡（Context）。例如 "Flight to Taipei" 與 "Flight from Taipei" 的意義截然不同，那個關鍵的介系詞（原本的停用詞）反而是機器理解方向的靈魂。

3.3 靜態向量三劍客 (Word2Vec, GloVe, FastText)

靜態詞向量三劍客圖解：Word2Vec 靠鄰居、GloVe 看全局共現矩陣、FastText 拆子詞，三種詞嵌入找語意座標

在 Transformer 統一江湖之前，NLP 的天下是由這三位開創者打下來的。它們的共通任務只有一個：幫每一個詞找到最完美的「語意座標」。

① Word2Vec：靠鄰居猜字的「算命師」

由 Google 在 2013 年推出，它是現代詞嵌入的鼻祖。

核心邏輯：它相信「物以類聚」。透過預測一個詞的鄰居（Skip-gram）或根據鄰居預測中心詞（CBOW），它學會了語意。

技術細節：它讓「國王」 - 「男人」 + 「女人」 = 「女王」這種數學運算成為可能。

② GloVe：看透全局的「統計學家」

由史丹佛大學提出，它覺得 Word2Vec 太過局部。

核心邏輯：它不只看鄰居，而是先掃描整個語料庫，建立一張巨大的「共現矩陣」。它觀察「冰」跟「冷」出現的比例，與「冰」跟「熱」出現的比例，進而推導出更穩定的語意。

③ FastText：連骨頭都看的「解剖學家」

Facebook 的得意之作，它解決了 Word2Vec 遇到陌生詞就失靈的痛點。

核心邏輯：它不把單詞當成最小單位，而是拆解成子詞（n-grams）。例如看到「煎餃」，它會同時學習「煎」、「餃」的含義。

優點：即使你打錯字成「天餃」，它也能透過「餃」這個字根，猜出這可能跟食物有關。對中文這種拼塊語言特別有效。

❓

向量三劍客這麼厲害，為何還需要自注意力機制？

因為它們都是「靜態」的。不管句子怎麼變，「蘋果」的座標永遠在那裡。

在「蘋果真好吃」裡，它是水果。

在「蘋果手機真貴」裡，它是電子產品。

對於靜態向量來說，這兩個「蘋果」的數位身份完全相同，這就是語意歧義的終極天花板。

3.4 終極進化：Self-Attention (Q, K, V)

2017 年，Google 的論文《Attention Is All You Need》拋出了一個炸彈：不需要 RNN，不需要 CNN，光靠注意力機制就能處理語言。Transformer 架構從此改寫了 NLP 的歷史。

這是 NLP 史上第一次打破「靜態座標」的限制，讓單詞具備了「根據身邊的人，即時調整自己身份」的能力。在 Transformer 中，每個詞都像裝了雷達，主動去偵測周圍。

自注意力機制 Q K V 圖解：以選晚餐比喻，Query 發需求、Key 比特徵、Value 吸收意義，Transformer 動態理解語意核心

🍎 為什麼會變成「水果」而不是「手機」？

假設句子是：「這盒蘋果禮盒真貴。」電腦會透過以下三步驟來決定「蘋果」的語意：

發出訊號 Query (Q) ：「蘋果」跳出來發問：「我現在身邊有誰？誰能告訴我我是哪種蘋果？」

查看標籤 Key (K) ：句子裡的其他詞會露出自己的「名片」：

「禮盒」的名片寫著：【食品、送禮、包裝盒】

「真貴」的名片寫著：【價格、高級、金錢】

計算分數 (Q x K)：「蘋果」拿著自己的需求去比對。它發現「禮盒」名片上的【食品】跟自己（潛在的水果身份）關聯度超級高！比「真貴」更具備決定性。

吸收營養 Value (V) ：因為「禮盒」的分數最高，電腦會讓「蘋果」去吸收「禮盒」所代表的實質意義 (V)。這時候，「蘋果」的數位座標就會被拉向「食物/水果」那一區。

反之亦然：如果句子換成「蘋果手機」，它掃描到的是「手機」的名片（科技、通訊），座標就會轉向「科技公司」區。這就是動態語意理解！

🚀 進階：不只看一眼，而是全方位掃描 (Multi-Head Attention)

想像你參加一場聯誼，如果你只有單頭注意力，你整晚只能用一種標準來觀察別人。

單頭：你只看「對方的職業」。雖然你能找到職業最契合的人，但你可能會忽略他的性格、興趣或價值觀。

多頭（Multi-Head） 就像是你分身出了好幾個自己，同時從不同角度觀察：

一號：專門看「對方的共同興趣」（比如都喜歡看電影）。

二號：專門看「對方的幽默感」。

三號：專門看「對方的未來規劃」。

最後，這幾個頭會把觀察到的資訊「拼湊」起來，讓你對眼前的這個人（Token）有最完整的理解。

這種「看場合」的能力，實現了真正的動態語意理解！

❓

自注意力機制會分心嗎？

會的，自注意力機制確實會「分心」。當模型對所有字的注意力都差不多，我們稱這種現象為 「注意力崩潰」（Attention Collapse），就像一個學生看書每一行都畫重點，等於沒畫。

正確解法：稀疏化約束 (Sparsity Constraint)。強迫模型只能選少數幾個最重要的詞來對焦。

四、巨人誕生：BERT vs. GPT 的終極決戰

Transformer 架構的出現，將 NLP 世界切分成了兩條截然不同的進化路線。

❓

既然大家都是用 Transformer 的零件蓋出來的，為什麼還有分什麼 BERT 跟 GPT？

這取決於你如何使用這座巨人的軀體。你可以只留下一雙擅長觀察的眼睛（Encoder），也可以只留下一張擅長說話的嘴巴（Decoder）。

BERT 與 GPT 差異圖解：BERT 像偵探貓雙向理解擅長分析，GPT 像藝術家貓單向生成擅長創作，對比兩種架構

4.1 BERT：全方位理解型選手 (The Master of Reading)

BERT (Bidirectional Encoder Representations from Transformers) 代表了「理解」的巔峰。

他的方式非常暴力：它把課本裡的字挖掉（Masked LM），強迫自己根據左右兩邊的內容把字猜回來。

核心特性：雙向 (Bidirectional) 訓練：BERT 同時看左邊與右邊，精準判斷語意。

底層武器：遮罩語言模型 (MLM)：隨機遮住 15% 的詞讓模型去「猜」，練就深厚的語意底蘊。

核心優勢：它對上下文的「雙向關係」極度敏感。如果你要讓 AI 幫你改考卷、分信件、或是做搜尋優化，BERT 至今依然是效率最高的王者。

4.2 GPT：流暢生成型選手 (The Master of Storytelling)

GPT (Generative Pre-trained Transformer) 是「生成」領域的教主。

他是另一種極端。它不看後文，只看前文，然後拚命猜下一個字是什麼。

核心特性：單向自回歸 (Autoregressive) 訓練：預測下一個字時只看前文，練就了極強的「續寫能力」。

GPT 的接龍遊戲（Causal LM）：老師只給開頭，叫 GPT 一路寫下去。為了不辭窮且講得通，它必須學會捕捉語言的流暢度和創造力。

湧現能力 (Emergence)：當模型規模大到一定程度，這種「猜下一個字」的簡單任務，竟然讓 GPT 學會了邏輯推理、寫程式、甚至是冷幽默。

❓

為什麼 GPT 能「後發先至」？

BERT 剛出來時，橫掃了所有學術比賽，Google 搜尋引擎至今也還在用它來理解你的意圖。但為什麼現在大眾只聽過 GPT？這涉及了三個關鍵的技術轉折：

從「專才」到「通才」 BERT 需要針對不同任務（如翻譯、改錯）進行二次訓練（Fine-tuning）。而 GPT 發現，只要模型夠大，它就能透過「對話」直接處理所有事。

規模化定律（Scaling Laws） OpenAI 賭贏了一個技術直覺：當參數量增加到千億等級時（GPT-3），模型會產生「湧現能力」，突然學會了原本沒教過的推理。

對齊技術（RLHF） 這是最關鍵的轉折！GPT 透過「人類回饋戴補強學習」，學會了說話的語氣要像人類，而不只是冷冰冰的機率計算。

4.3 BART 與 Seq2Seq：混血兒與翻譯的底層邏輯

當我們不再滿足於「只理解」或「只生成」，而是想要「讀完一段話，吐出另一段話」時，混血架構就誕生了。

① Seq2Seq：翻譯的底層邏輯

序列到序列（Seq2Seq: Sequence-to-Sequence）模型是所有輸入/輸出轉換任務的通用框架。

你可以把它想像成一個「翻譯官」，先聽懂（Encoder），再說出來（Decoder）。

優點 ✅

處理變長序列：輸入 10 個字，輸出 5 個字 (摘要) 或 15 個字 (翻譯) 都沒問題。

端到端學習 (End-to-End)：直接從輸入學習到輸出，不需要中間複雜的人工規則。

語意對齊：能學會不同語言或格式之間的神祕對應關係。

缺點 ❌

資訊瓶頸 (Information Bottleneck)：如果輸入太長，Encoder 可能無法將所有資訊壓縮進小小的向量裡。

慢速生成：Decoder 必須一個字接一個字噴出來，無法像 Encoder 那樣平行處理。

曝光偏差 (Exposure Bias)：訓練時看正確答案，生成時看自己前一個錯字，可能導致錯誤連鎖反應。

②BART：把兩個靈魂裝進同一個身體

BART (Bidirectional and Auto-Regressive Transformers) 是 BERT 與 GPT 的完美混血。

他是 Transformer 時代中，Seq2Seq 架構最完美的實例之一。它結合了 BERT 的雙向理解力（Encoder）與 GPT 的自回歸生成力（Decoder）。

這讓它既能像 BERT 一樣「看清全局」，又能像 GPT 一樣「流暢表達」。

核心優勢 🌟

靈活度極高：能處理所有「輸入一段話、輸出另一段話」的任務。

抗噪能力強：預訓練時學會從亂序或殘缺的文字中還原真相。

摘要大師：在內容精簡與重點擷取上，表現往往比純 GPT 穩定。

缺點與痛點 ⚠️

運算成本較高：同時跑兩套架構（Encoder + Decoder）比單一套更吃資源。

生成長度受限：雖然擅長摘要，但在「無中生有」的長篇創作上不如 GPT 系列。

訓練難度：需要大量的清洗數據來進行「去噪還原」訓練。

4.4 Transformer 家族大車拼

特性	BERT (讀書高手)	GPT (作文高手)	BART (翻譯/摘要高手)
出現時間	2018 年 10 月	2019 - 2020 年	2019 年 10 月
代表模型	BERT	GPT-2/3	BART
拿手好戲	理解、分類、問答	生成、對話、接龍	翻譯、摘要、改寫
架構重點	Encoder Only	Decoder Only	Encoder-Decoder
訓練方向	雙向 (Bidirectional)	單向 (由左至右)	先雙向理解，再單向生成
預訓練任務	MLM (遮罩預測)	自回歸 (預測下一字)	混合雜訊還原 (Denoising)

❓

既然自注意力機制那麼厲害，那是不是 AI 就無所不能了？

雖然自注意力機制極大地提升了 AI 處理資訊的能力，但它並非萬能。它仍面臨三大挑戰：

資源消耗：計算量隨長度平方增長，極其耗能。

缺乏真理：僅靠機率關聯，容易產生「幻覺」。

物理限制：難以理解真實世界的因果與物理規律。

它擅長找關聯，但還不具備真正的智慧。

五、Transformer 的極限與未來進化

Transformer 三大極限圖解：O(n^2) 平方級算力消耗、長文本記憶遺忘、AI 幻覺，揭示自注意力機制技術天花板

Transformer 靠著 Self-Attention 橫掃 NLP 領域，但在實務應用上，它依然面臨兩個「魔王級」的挑戰：運算太貴與會說謊。

5.1 沉重的代價：計算複雜度的平方級增長

自注意力機制（Self-Attention）最致命的弱點在於它的計算量會隨文本長度呈「平方級」增長。這在數學上表示為 O(n²)。

現象：當你讓 AI 讀 2 倍長的文章，它花的算力不是 2 倍，而是 4 倍！

痛點：這導致處理超長文本（如整本法律百科）時，硬體成本會變得異常昂貴，顯存（VRAM）需求也會爆表。

5.2 過目不忘的挑戰：超長上下文 (Long Context)

為了讓 AI 不再是「過目即忘的短跑選手」，近幾年的研究朝著「讓平方增長不那麼可怕」的方向猛攻。

目前最具代表性的解法是 Flash Attention，它重新設計了注意力的計算順序，讓記憶體存取效率大幅提升，在不犧牲準確度的前提下，把速度壓了下來。

效果顯著：現在的主流模型已經能一次處理百萬級 Token。你可以把整套法律全書或一整年的財報丟給它，它依然能精準掃描出你要的段落。

進化：現在的 AI已經能一次讀完十幾本書或長達數小時的影片，這都要歸功於對自注意力機制的數學優化。

線性注意力的價值：讓模型能在大海撈針般的數百萬字中，依然精準定位到特定的細節資訊。

5.3 完美的謊言：幻覺問題 (Hallucination)

這是目前 LLM 最難根治的痛點。

原因：自注意力機制本質上是在找「單詞之間的關聯機率」，它擅長聯想但不擅長查證。模型可能會為了語句的流暢性（NLG 的成功定義），而犧牲事實的準確性。

未來解法：這也是為什麼我們需要結合知識圖譜（Knowledge Graph）或 RAG。

① RAG (檢索增強生成)：給 AI 一本外掛的「百科全書」，回答前先查證。

② 知識圖譜：賦予 AI 一個結構化的真實世界地圖（例如：明確標記 A 是 B 的父親），而不僅僅是讓它在機率的汪洋中漂流。

結語：每一代技術，都在補上一代的缺口

NLP 這幾十年的進化，其實就是一場「打怪升級」的遊戲。（延伸閱讀：從提示詞工程到情境工程：AI 協作的典範轉移）

從「讓電腦讀懂一句話」開始，最早的「規則派」像個嚴格的老師，想把語法教死，結果發現語言太調皮，根本教不完；後來的「統計派」改當算命師，雖然機率算得準，卻把說話的順序給弄丟了。後來的 RNN 和 LSTM 雖然試著寫筆記來幫機器增加記憶力，但不是筆記本太小，就是寫字速度太慢，始終跟不上人類說話的節奏。

直到 2017 年那篇《Attention Is All You Need》出現， Transformer 讓機器學會了「抓重點」，這才有了現在能讀會寫的 BERT 和 GPT。但大家千萬別誤會，新技術出現並不代表舊的就要被淘汰。你現在搜尋 Google、填寫網頁表單，背後其實都還有那些「老前輩」在默默工作。

Transformer 不是終點。TF-IDF 的邏輯還活在 SEO 工具鏈裡，BERT 還在幫 Google 讀你的搜尋意圖，規則式的比對邏輯還跑在每一套表單驗證裡。技術的演進不是一場淘汰賽，而是一場疊加賽。舊的解法撞牆了，新的解法就試著繞過去。技術的迭代會一直持續下去，直到超級人工智慧出現的那一天。

📝 更新日誌 (Changelog)

2026.06.14