AI 技術解析/2026.03.29 發佈/2026.04.17 更新

機器真的聽懂人話嗎?深度解構 NLP 核心技術:Transformer、BERT 與 GPT

字數 7271閱讀時間 19 分鐘
機器真的聽懂人話嗎?深度解構 NLP 核心技術:Transformer、BERT 與 GPT

對人類來說,說話像呼吸一樣自然;但對電腦而言,人類語言是一場混亂的災難。同一個詞「bank」,在金融情境中是銀行,在地理情境中是河岸。電腦最初只是一台只認得 0 與 1 的冷酷計算機,要讓它理解文字中的情緒、雙關與邏輯,人類經歷了長達半個世紀的技術長征。
自然語言處理(Natural Language Processing, NLP)的本質,就是一場將「感性訊號」轉譯為「數學邏輯」的煉金術。這篇文章將帶你穿梭時空,看機器如何從死背規則的「複讀機」,演化成具備動態雷達的「通才巨人」。

一、NLP 的核心疆域:理解與生成的二重奏

NLP 不就是把文字丟進模型裡跑嗎?為什麼還需要分 NLU 和 NLG?這對開發者來說有什麼實質意義?
NLP 就是讓電腦「讀懂」並「說話」的技術。NLU 負責理解(像大腦聽懂指令),NLG 負責生成(像嘴巴回話)。區分兩者能讓開發者按需求選工具,精準省時又不浪費資源!
一張極簡灰背景的擬人化貓咪資訊圖表,以幽默方式解釋 NLP。左側為「NLU 理解」:一隻戴眼鏡的橘貓看著手機,思維氣泡顯示將毛線球轉化為小魚。右側為「NLG 生成」:橘貓一臉不屑地在發光鍵盤上敲字,周圍環繞詩歌、笑話和智慧家庭圖示。標題為「自然語言理解與生成的貓言貓語大揭秘」。
一張極簡灰背景的擬人化貓咪資訊圖表,以幽默方式解釋 NLP。左側為「NLU 理解」:一隻戴眼鏡的橘貓看著手機,思維氣泡顯示將毛線球轉化為小魚。右側為「NLG 生成」:橘貓一臉不屑地在發光鍵盤上敲字,周圍環繞詩歌、笑話和智慧家庭圖示。標題為「自然語言理解與生成的貓言貓語大揭秘」。

1.1 分類的意義:追求「對不對」還是「好不好」?

為什麼我們要特地把 NLP 切分成 NLU(理解)與 NLG(生成)?這不只是學術上的分類,更是因為兩者的「成功定義」完全不同。當你作為開發者在評估模型時,這套標準能幫你決定資源該投在哪:
  1. NLU 追求的是「對不對」
    1. 這是一個關於「精確率」與「召回率」的比賽。當使用者說「我要退貨」,模型必須 100% 精準地辨識出意圖,不能把退貨誤判為下單。在這裡,我們容不下模糊空間,目標是從成千上萬種說法中,找到唯一的正確答案。
  1. NLG 追求的是「好不好」
    1. 這是一個關於「流暢度」與「相關性」的挑戰。AI 回覆使用者的文字,沒有絕對的標準答案。重點在於語氣是否自然?邏輯是否連貫?內容是否真的解決了問題?在這裡,我們追求的是一種人性化的溝通體驗。

1.2 技術底層:機器處理語言的三個任務層級

一張標題為「機器語言處理三層次」的專業迷因圖。分為三個區塊:1. 理解(Understanding):一隻憂鬱貓咪抱怨不舒服,AI 嘗試解析情感;2. 處理(Processing):橘貓在複雜的神經網絡與邏輯運算中思考暗示;3. 生成(Generating):橘貓自信地拿著熱水杯說「多喝熱水!」,旁邊配上完美回應的成功男孩梗圖。
一張標題為「機器語言處理三層次」的專業迷因圖。分為三個區塊:1. 理解(Understanding):一隻憂鬱貓咪抱怨不舒服,AI 嘗試解析情感;2. 處理(Processing):橘貓在複雜的神經網絡與邏輯運算中思考暗示;3. 生成(Generating):橘貓自信地拿著熱水杯說「多喝熱水!」,旁邊配上完美回應的成功男孩梗圖。
要達成上述目標,NLP 系統在技術上必須經歷三個遞進的處理層級,這也是所有 NLP 模型的共同基石:
  1. 理解 (Understand):這是 NLU 的主戰場。機器必須從混亂的非結構化文字中,解析出語法結構(Syntax)與語意邏輯(Semantics)。這涉及辨識語者的意圖、偵測情緒,並從背景知識中提取出隱含的邏輯。
  1. 處理 (Process):將人類語言轉換為電腦可操作的結構。這通常涉及「特徵提取」,例如將句子變成高維度向量,讓機器能在座標系中計算詞語間的距離。
  1. 生成 (Generate):NLG 的終極目標。根據處理後的語意座標,模型必須重新建構語句,產出自然、流暢且具備邏輯的文字。這不只是拼湊單字,還需要考慮上下文的一致性(Coherence)。

1.3 開發者的最終目標:解決哪種商業問題?

在實務應用中,我們會根據任務屬性來選擇技術路徑。下表整理了 NLP 的核心任務分佈:

模組一:自然語言理解 (NLU)

核心目標: 將非結構化文字轉化為電腦可處理的標籤、類別或數據。
任務名稱
技術細節 (底層邏輯)
實務應用場景
意圖辨識 (Intent Recognition)
把語句分類到預設標籤(如:詢問天氣、退貨)
客服機器人分流、語音指令解析。
命名實體辨識 (NER)
從文本中提取人名、地名、機構。
法律文件自動標記、醫囑資訊抓取。
情感分析 (Sentiment Analysis)
判斷語氣是正向、負向還是中立。
社群輿情監控、電商評論自動彙整。

模組二:自然語言生成 (NLG)

核心目標: 根據已理解的資訊或數據,重新組織成人類可讀的流暢文字。
任務名稱
技術細節 (底層邏輯)
實務應用場景
自動摘要 (Summarization)
壓縮長篇大論,只保留核心重點。
新聞快報、會議記錄自動摘要。
對話生成 (Response Generation)
根據上下文邏輯,產生流暢的回覆。
ChatGPT 對答、虛擬助理互動。
機器翻譯 (Machine Translation)
跨語言轉換:語意對齊並重新建構語句。
跨國文件翻譯、即時語音翻譯。

二、演進史:從規則編碼到預訓練時代

既然現在的 GPT 這麼強,我們還有必要學規則式方法(Rule-based)或是統計模型(N-gram)嗎? 那不都以前的東西了?學最新的不就好了?
即使 GPT 強大,學習基礎技術仍有三大核心意義:
  • 技術底層邏輯:現代 Transformer 是從詞向量、統計模型演化而來。不學基礎,難以理解模型為何出錯或如何調優。
  • 實務場景限制:在斷網、低運算設備或高隱私需求下,輕量的傳統方法是唯一解。
  • 混合式架構:最強的系統通常是「規則+模型」。用規則過濾敏感資訊,再用 GPT 生成內容,兼具安全與靈活性。
這也是為什麼 iPAS AI 規劃師 鑑定仍將這些列為必考重點!
NLP 四代演進資訊圖:橘貓化身四種角色。從 80 年代死守 Rulebook 的嚴格規則、90 年代撥算盤的統計機率、2010 年連結神經網絡的深度學習,到現今戴方帽坐擁書山的預訓練時代。生動呈現從「不准變通」到「博學多才」的 AI 演化歷程。
NLP 四代演進資訊圖:橘貓化身四種角色。從 80 年代死守 Rulebook 的嚴格規則、90 年代撥算盤的統計機率、2010 年連結神經網絡的深度學習,到現今戴方帽坐擁書山的預訓練時代。生動呈現從「不准變通」到「博學多才」的 AI 演化歷程。

2.1 第一世代:規則式方法 (1980s - 1990s)

這是一個「語言學家治國」時代。人類手動編寫語法辭典與邏輯規則。系統不具備真正的智能,僅是按照「如果...就...(If-Then)」的邏輯運行。
  • 代表技術ELIZA、專家系統。
  • 優勢:高可解釋性。系統若判斷錯了,你可以精準找到是哪條規則寫歪了。
  • 痛點:維護成本極高。語言是活的,當新詞(如「很雷」)出現時,系統必須手動更新,否則就會徹底失效。
經典案例:ELIZA (1966 年) 這是史上第一個聊天機器人,它模擬的是一位「心理醫生」。它完全沒有智慧,只是利用關鍵字替換來反問使用者。
  • 使用者:「我最近跟我媽吵架了。」
  • ELIZA 規則:只要看到「我媽」,就回覆「再多跟我聊聊你的家人吧」。 結果:使用者會覺得「它聽得懂我在說什麼」,但其實它只是在玩文字接龍。
規則式方法 (Rule-based) 現在還有人用嗎?
有的!雖然 GPT 很強,但規則式方法在「準確度」與「成本」上有不可取代的地位。
  1. 身分證字號檢查 💳:這是最經典的應用。透過預設的數學邏輯(如:首字母代表地區、檢查碼運算)來驗證格式。這種「非黑即白」的任務,用規則式處理比 AI 亂猜更精準。
  1. LINE 官方帳號機器人 🤖:許多企業的自動回覆系統仍使用「關鍵字觸發」。當使用者輸入特定詞彙(如:門市資訊、運費),系統便立即丟出預設內容,反應速度極快且成本極低。

2.2 第二世代:統計語言模型 (1990s - 2010s)

在深度學習出現之前,機器讀語言靠的是統計規律,也就是數算詞出現的頻率。核心概念是:如果一個詞組合在過去經常出現,那它在未來出現的機率也比較高。
為什麼放棄規則,改學機率?
因為人類語言太難預測了!規則寫再多也寫不完例外。統計派不再強迫電腦「理解」語法,而是讓它當個「算命師」:根據過去發生的數據,預測下一個字最可能出現什麼。這就是從「教電腦釣魚」轉向「給電腦看一萬張魚的照片」的過程。

① N-gram 語言模型 (N-gram Language Model)

  • 核心邏輯:靠前面幾個詞預測下一個詞的機率。N 是你往回看的「窗格大小」。
  • 致命限制長距離依賴問題 (Long-range Dependencies)。N-gram 只能看固定長度的窗格。句子太長時,它會「瞬間斷片」,忘記句子開頭說了什麼。
  • 痛點:資料稀疏問題。當 N 增大時,許多詞組組合在語料庫中從未出現,機率會變為零。
Google 搜尋建議。當你輸入「台北」,系統會根據統計機率跳出「台北天氣」、「台北捷運」,因為這些組合在數據庫中出現次數最多。

② TF-IDF 詞頻-逆文件頻率 (Term Frequency-Inverse Document Frequency)

一張標題為「TF-IDF 的奧義:從餃子看懂關鍵詞權重!」的趣味資訊圖表。三格漫畫形式說明:1. 詞頻 (TF):橘白貓面對滿桌普通餃子,暗示出現頻率高不代表最重要;2. 逆向檔案頻率 (IDF):貓咪發現稀有的綠色抹茶餃子,象徵獨特性;3. TF-IDF 核心:貓咪舉起閃閃發光的抹茶餃子,公式顯示「高 TF x 高 IDF = 超重要」,結論是找出最獨特的那顆餃子。
一張標題為「TF-IDF 的奧義:從餃子看懂關鍵詞權重!」的趣味資訊圖表。三格漫畫形式說明:1. 詞頻 (TF):橘白貓面對滿桌普通餃子,暗示出現頻率高不代表最重要;2. 逆向檔案頻率 (IDF):貓咪發現稀有的綠色抹茶餃子,象徵獨特性;3. TF-IDF 核心:貓咪舉起閃閃發光的抹茶餃子,公式顯示「高 TF x 高 IDF = 超重要」,結論是找出最獨特的那顆餃子。
  • 核心邏輯:它是「字詞計數器」。在單篇出現多(TF 高),但在所有文章中罕見(IDF 高),則該字最能代表主題。
  • 沒辦法處理「一詞多義」:如果你搜尋「蘋果」,TF-IDF 分不出你是在找吃的「水果」,還是在找「手機」。它只會數次數,不會看上下文。
  • 完全不懂「意思」 (語意鴻溝):在 TF-IDF 眼中,「貓咪」和「喵星人」是兩個截然不同的東西,分數完全不互通。如果你搜尋「貓咪」,它可能漏掉所有寫「喵星人」的超棒文章。
  • 停用詞(Stopwords)過濾
    • 想像你在聽一場演講,講者每講三句話就加一個「然後」、「那個」。這些詞對理解演講核心毫無貢獻,卻佔據了你的聽力帶寬。在 NLP 中,這就是「停用詞」。
    • 核心功能:去除如「的」、「了」、「在」或英文的 "is", "the" 等高頻但語意貢獻低的詞。
    • 減少運算量:過濾掉佔文本 30%-50% 的廢話,能讓模型訓練快上一倍。
傳統 SEO 玩法:在那個 Google 還沒像現在這麼聰明的時代(大約 2010 年代以前),TF-IDF 是搜尋引擎排名的核心技術之一。網站管理員會計算競爭對手的網頁中,哪些關鍵字的 TF-IDF 分數最高,然後在自己的網頁裡刻意增加這些「稀有且重要」的詞彙,好讓 Google 覺得這篇文章「最有重點」。

2.3 第三世代:深度學習時代 (2010s - 2018)

N-gram 跟 RNN、LSTM 都是健忘的金魚腦,那他們差在哪裡?
從統計時代(N-gram)跨越到深度學習時代(RNN/LSTM),最關鍵的差別在於電腦看待語言的方式從「數次數」變成了「向量化與狀態記憶」。
  • 統計時代 (N-gram):像是一個只有幾秒記憶的收銀員。他只記得你剛剛說的最後 1-2 個字。如果你說了一長串需求,他只會根據最後一個字來猜你要什麼。
  • 深度學習時代 (RNN/LSTM):像是一個帶著筆記本的速記員。他會把讀過的每個字轉化成「隱藏狀態(Hidden State)」,這就像是在筆記本上記錄摘要。雖然筆記本空間有限,寫太長會模糊(梯度消失),但他試圖保證整句話的語意是連貫的。
一張標題為「RNN vs LSTM:記憶力大對決!」的貓咪教學圖表。左側 RNN 被形容為「短期記憶金魚腦」,顯示一隻拿著揉皺紙條、驚慌失措的貓,思維氣泡裡只有 3 秒記憶的金魚,象徵處理長序列會斷片。右側 LSTM 被形容為「學霸筆記王」,顯示一隻戴眼鏡、拿著井然有序筆記本的學霸貓,思維氣泡裡有大腦與長期記憶庫,象徵其具備遺忘門與記憶門機制,能有效處理長序列。
一張標題為「RNN vs LSTM:記憶力大對決!」的貓咪教學圖表。左側 RNN 被形容為「短期記憶金魚腦」,顯示一隻拿著揉皺紙條、驚慌失措的貓,思維氣泡裡只有 3 秒記憶的金魚,象徵處理長序列會斷片。右側 LSTM 被形容為「學霸筆記王」,顯示一隻戴眼鏡、拿著井然有序筆記本的學霸貓,思維氣泡裡有大腦與長期記憶庫,象徵其具備遺忘門與記憶門機制,能有效處理長序列。
神經網路進入戰場,RNN 與 LSTM 成為霸主。在這個時期,電腦不再只是數算機率,而是試圖模仿人類大腦的「隱藏狀態(Hidden State)」,將語言視為有順序的時間序列,讓模型具備了初步的記憶力。
  • RNN (循環神經網路):初步的記憶力
    • 核心邏輯:它像是一個帶著筆記本的速記員,讀到每個字都會在筆記本上記錄摘要(隱藏狀態),試圖把前面的語意帶到後面的句子。
    • 致命傷梯度消失 (Gradient Vanishing)。它的筆記本空間有限,一旦句子超過 20 個字,後面的記錄就會蓋掉前面的,導致它「看到後面就忘了前面」。
    • 應用:自動選字、語音辨識
  • LSTM (長短期記憶網路):進化的記憶開關
    • 白話差別:它是 RNN 的升級版。LSTM 在筆記本上加裝了「門控機制(Gates)」,像是有立可帶(忘記門)和螢光筆(輸入門)。它能智慧地判斷哪些廢話該忘記、哪些重點該長久記住,因此能處理比 RNN 更長的句子。
    • 這樣可以把重要的資訊「鎖」在記憶裡,傳遞到 100 個字甚至更遠之後。又稱長距離依賴 (Long-term Dependencies)。

2.4 第四世代:預訓練時代 (2018 至今)

為什麼有了 LSTM,我們最後還是發明了更強大的 Transformer (ChatGPT 的祖先)?
自注意力機制(Self-Attention)解決了 LSTM 的順序依賴資訊損耗問題。
  1. 並行處理:LSTM 像排隊領餐,必須一個接一個讀;自注意力則像一眼掃視全場,所有字同時運算,大幅提升效率。
  1. 瞬移對焦:無論兩個字離多遠,自注意力都能直接建立聯繫,不必像 LSTM 經過長距離傳遞導致記憶模糊。
Transformer 出現,終結了「排隊讀字」的時代。
  • 突破點:並行運算與自注意力機制。模型不再需要逐字處理,而是一次掃描全局,這讓訓練大規模數據成為可能。
  • 核心思維:不再只看「前一個字」,而是計算「全文字之間」的關聯性權重。
過往的技術讓我們解決了「記憶」問題,但 Transformer 帶領我們進入了「理解關係」的境界。究竟電腦是如何把一段文字拆解、轉換並產生這種神奇的「注意力」?我們將在第三章拆解它的底層黑盒子。

三、拆解 Token、向量與注意力的連鎖反應

如果說 NLP 是一座自動化工廠,那麼這一章就是這座工廠的「生產線核心」。當我們輸入一段文字,它並不是直接被丟進黑盒子,而是經歷了一連串精密的物理變換。
既然電腦已經有強大的 CPU 了,為什麼不能直接讀取文字檔?為什麼一定要把句子拆得稀巴爛?
因為電腦的本質是「大型計算機」。文字對它而言太模糊、太感性。我們必須先透過「剪裁(Tokenization)」把語言變成零件,再透過「座標(Embedding)」把零件變成數字,最後用「雷達(Attention)」讓數字之間產生連結。這三個步驟缺一不可,這就是機器理解語言的連鎖反應。
在深入探討之前,我們必須建立一個共識:
  1. Token 是零件:電腦不讀句子,它讀的是被剪碎後的符號。透過子詞(Subword)技術,我們解決了遇到新詞就當機的問題。
  1. 向量是座標:電腦不認得「貓」,它只認得座標 [0.6, 0.9, ...]。讓相似的詞在空間中「住在一起」,是機器理解的第一步。
📍
關於切分 (Tokenization) 跟向量化 (Embedding) 的基礎說明,可參考站內相關文章段落

3.1 現代大模型的秘密:BPE 子詞切分

一張標題為「文本分詞方法大揭秘:從死記硬背到 AI 絕招」的資訊圖表。分為三個階段:左側「詞彙方法」顯示一隻戴學士帽的貓在死背書堆,暗示效率低;中間「字符方法」顯示一隻貓幼兒玩字母積木,暗示只認字母不懂語意;右側「子詞方法 (BPE)」顯示一隻戴高科技風鏡的貓手持透明平板,被形容為現代大模型的秘密武器。
一張標題為「文本分詞方法大揭秘:從死記硬背到 AI 絕招」的資訊圖表。分為三個階段:左側「詞彙方法」顯示一隻戴學士帽的貓在死背書堆,暗示效率低;中間「字符方法」顯示一隻貓幼兒玩字母積木,暗示只認字母不懂語意;右側「子詞方法 (BPE)」顯示一隻戴高科技風鏡的貓手持透明平板,被形容為現代大模型的秘密武器。
電腦不讀「句子」,它讀的是被剪碎後的零件,稱為 Token。但怎麼剪,是一門大學問!子詞切分(Subword segmentation)是目前最主流的解決方案。
BPE (Byte Pair Encoding) 是其中一種「積木化」的分詞技術。它會統計語料中出現頻率最高的字符組合,將常見的詞保留為完整積木,將罕見詞拆解成基礎組件(Subwords)。
  • 全詞法 (Word-based):像是死背單字的學生。
    • 拆解結果:[抹茶煎餃](如果字典沒這詞,它就直接當機 😵)。
  • 字元法 (Character-based):像是只認字母的幼兒。
    • 拆解結果:[抹][茶][煎][餃]。雖然不會當機,但每個字都太碎了,電腦很難一眼看出「抹茶」是一個完整的味道。
  • 子詞法 (Subword-based / BPE):這就是現代大模型的秘密武器。
    • 拆解結果:[抹茶] + [煎] + [餃]。它保有了「抹茶」這個有意義的單位,同時又把「煎」跟「餃」拆開,只要認識這些「積木」,它就能拼湊出大致語意,大幅提升了模型的泛化能力。

3.2 詞形正規化:Lemmatization vs. Stemming

當機器看到 "running", "ran", "runs",它應該知道這都是同一個動作。
  • 詞幹提取 (Stemming)
    • 暴力剪裁。如將 "running" 剪成 "run"。速度快,但可能產出不存在的字(會把 flies 剪成 fli)。
    • 如果使用者搜尋 fishing,詞幹提取會把它變成 fish。這樣系統就能同時抓到包含 fish、fishedfisher的文章。這種「寧可錯殺,不可放過」的特性,有助於提高召回率 (Recall)
  • 詞形還原 (Lemmatization)
    • 依賴字典與語法規則還原為原型(如 saw根據語境還原為 see)。這對深度語意分析至關重要。
特性
詞幹提取 (Stemming)
詞形還原 (Lemmatization)
技術手段
規則剪裁(去字尾)✂️
字典查詢、語法分析 📖
準確度
較低(可能產生 fli 這種怪字)
高(還原為真正的原型 fly
速度
極快 🏎️
較慢 🚶
典型應用
大規模搜尋引擎、快速過濾
聊天機器人、精準翻譯
停用詞去哪裡了?在深度學習時代的停用詞處理,跟在統計時代差在哪裡?
這是一個非常關鍵的觀念差異!
統計時代 (TF-IDF):我們必須主動過濾掉「的」、「了」、「the」等停用詞。因為這些詞出現頻率極高,如果不濾掉,模型會誤以為這些廢話才是關鍵字,產生嚴重的噪音
深度學習時代 (LLMs):我們通常「不再」主動移除停用詞。因為像 BERT 或 GPT 這種模型需要理解完整的上下文脈絡(Context)。例如 "Flight to Taipei" 與 "Flight from Taipei" 的意義截然不同,那個關鍵的介系詞(原本的停用詞)反而是機器理解方向的靈魂。

3.3 靜態向量三劍客 (Word2Vec, GloVe, FastText)

一張標題為「靜態向量圖解:喵星人視角」的專業資訊圖表。分為三部分:左側 Word2Vec 貓咪拼湊 King/Queen 拼圖(腦中想著分心男友迷因);中間 GloVe 貓咪戴會計帽撥算盤(腦中想著 Stonks 迷因),象徵全局統計;右側 FastText 貓咪戴護目鏡用鐵鎚拆解 Unbelievable 積木(腦中想著 This is Fine 迷因),象徵處理字根。
一張標題為「靜態向量圖解:喵星人視角」的專業資訊圖表。分為三部分:左側 Word2Vec 貓咪拼湊 King/Queen 拼圖(腦中想著分心男友迷因);中間 GloVe 貓咪戴會計帽撥算盤(腦中想著 Stonks 迷因),象徵全局統計;右側 FastText 貓咪戴護目鏡用鐵鎚拆解 Unbelievable 積木(腦中想著 This is Fine 迷因),象徵處理字根。
在 Transformer 統一江湖之前,NLP 的天下是由這三位開創者打下來的。它們的共通任務只有一個:幫每一個詞找到最完美的「語意座標」

① Word2Vec:靠鄰居猜字的「算命師」

由 Google 在 2013 年推出,它是現代詞嵌入的鼻祖。
  • 核心邏輯:它相信「物以類聚」。透過預測一個詞的鄰居(Skip-gram)或根據鄰居預測中心詞(CBOW),它學會了語意。
  • 技術細節:它讓「國王」 - 「男人」 + 「女人」 = 「女王」這種數學運算成為可能。

② GloVe:看透全局的「統計學家」

由史丹佛大學提出,它覺得 Word2Vec 太過局部。
  • 核心邏輯:它不只看鄰居,而是先掃描整個語料庫,建立一張巨大的「共現矩陣」。它觀察「」跟「」出現的比例,與「」跟「」出現的比例,進而推導出更穩定的語意。

③ FastText:連骨頭都看的「解剖學家」

Facebook 的得意之作,它解決了 Word2Vec 遇到陌生詞就失靈的痛點。
  • 核心邏輯:它不把單詞當成最小單位,而是拆解成子詞(n-grams)。例如看到「煎餃」,它會同時學習「」、「」的含義。
  • 優點:即使你打錯字成「天餃」,它也能透過「」這個字根,猜出這可能跟食物有關。對中文這種拼塊語言特別有效。
向量三劍客這麼厲害,為何還需要自注意力機制?
因為它們都是「靜態」的。不管句子怎麼變,「蘋果」的座標永遠在那裡。
  • 在「蘋果真好吃」裡,它是水果。
  • 在「蘋果手機真貴」裡,它是電子產品。
對於靜態向量來說,這兩個「蘋果」的數位身份完全相同,這就是語意歧義的終極天花板。

3.4 終極進化:Self-Attention (Q, K, V)

2017 年,Google 的論文《Attention Is All You Need》拋出了一個炸彈:不需要 RNN,不需要 CNN,光靠注意力機制就能處理語言。Transformer 架構從此改寫了 NLP 的歷史。
這是 NLP 史上第一次打破「靜態座標」的限制,讓單詞具備了「根據身邊的人,即時調整自己身份」的能力。在 Transformer 中,每個詞都像裝了雷達,主動去偵測周圍。
自我注意力機制:晚餐選擇大挑戰」的幽默圖表,用來解釋 NLP 中的 Q、K、V。左側一隻貓咪抱頭思考,思維氣泡顯示「想要熱的」、「不要太油」等需求作為 Query (Q);中間展示三家店:拉麵店、沙拉店、便利商店作為 Key (K) 的特徵比對(配上 Doge、哭泣貓、青蛙 Pepe 迷因);右側則是貓咪開心地端著飯碗「真香!」,象徵最後得到的 Value (V) 實際能量與體驗。
自我注意力機制:晚餐選擇大挑戰」的幽默圖表,用來解釋 NLP 中的 Q、K、V。左側一隻貓咪抱頭思考,思維氣泡顯示「想要熱的」、「不要太油」等需求作為 Query (Q);中間展示三家店:拉麵店、沙拉店、便利商店作為 Key (K) 的特徵比對(配上 Doge、哭泣貓、青蛙 Pepe 迷因);右側則是貓咪開心地端著飯碗「真香!」,象徵最後得到的 Value (V) 實際能量與體驗。

🍎 為什麼會變成「水果」而不是「手機」?

假設句子是:「這盒蘋果禮盒真貴。」電腦會透過以下三步驟來決定「蘋果」的語意:
  1. 發出訊號 Query (Q) :「蘋果」跳出來發問:「我現在身邊有誰?誰能告訴我我是哪種蘋果?」
  1. 查看標籤 Key (K) :句子裡的其他詞會露出自己的「名片」:
      • 「禮盒」的名片寫著:【食品、送禮、包裝盒】
      • 「真貴」的名片寫著:【價格、高級、金錢】
  1. 計算分數 (Q x K):「蘋果」拿著自己的需求去比對。它發現「禮盒」名片上的【食品】跟自己(潛在的水果身份)關聯度超級高!比「真貴」更具備決定性。
  1. 吸收營養 Value (V) :因為「禮盒」的分數最高,電腦會讓「蘋果」去吸收「禮盒」所代表的實質意義 (V)。這時候,「蘋果」的數位座標就會被拉向「食物/水果」那一區。
反之亦然:如果句子換成「蘋果手機」,它掃描到的是「手機」的名片(科技、通訊),座標就會轉向「科技公司」區。這就是動態語意理解

🚀 進階:不只看一眼,而是全方位掃描 (Multi-Head Attention)

想像你參加一場聯誼,如果你只有單頭注意力,你整晚只能用一種標準來觀察別人。
  • 單頭:你只看「對方的職業」。雖然你能找到職業最契合的人,但你可能會忽略他的性格、興趣或價值觀。
多頭(Multi-Head) 就像是你分身出了好幾個自己,同時從不同角度觀察:
  1. 一號:專門看「對方的共同興趣」(比如都喜歡看電影)。
  1. 二號:專門看「對方的幽默感」。
  1. 三號:專門看「對方的未來規劃」。
最後,這幾個頭會把觀察到的資訊「拼湊」起來,讓你對眼前的這個人(Token)有最完整的理解。
這種「看場合」的能力,實現了真正的動態語意理解!
自注意力機制會分心嗎?
會的,自注意力機制確實會「分心」。當模型對所有字的注意力都差不多,我們稱這種現象為 「注意力崩潰」(Attention Collapse),就像一個學生看書每一行都畫重點,等於沒畫。
正確解法稀疏化約束 (Sparsity Constraint)。強迫模型只能選少數幾個最重要的詞來對焦。

四、巨人誕生:BERT vs. GPT 的終極決戰

Transformer 架構的出現,將 NLP 世界切分成了兩條截然不同的進化路線。
既然大家都是用 Transformer 的零件蓋出來的,為什麼還有分什麼 BERT 跟 GPT?
這取決於你如何使用這座巨人的軀體。你可以只留下一雙擅長觀察的眼睛(Encoder),也可以只留下一張擅長說話的嘴巴(Decoder)。
一張解釋 BERT 和 GPT 人工智慧模型差異的教育性資訊圖表。中央標題是「BERT vs. GPT」。左側是「BERT」貓,穿著福爾摩斯風格的偵探帽和眼鏡,雙手拿著放大鏡。繁體中文文本描述其為「雙向理解」,並有一個對話泡泡總結為「像戴眼鏡的貓,左右兼顧,精確分析」。右側是「GPT」貓,戴著貝雷帽,手持羽毛筆和捲軸,口中噴出彩虹流,其中包含 Nyan Cat、Doge 迷因和照片。中文文本描述其為「創意生成」,泡泡描述其為「像藝術家貓,口吐彩虹文,腦洞大開」。此圖表將 BERT 的精確語境分析與 GPT 的創意文本生成進行了對比。
一張解釋 BERT 和 GPT 人工智慧模型差異的教育性資訊圖表。中央標題是「BERT vs. GPT」。左側是「BERT」貓,穿著福爾摩斯風格的偵探帽和眼鏡,雙手拿著放大鏡。繁體中文文本描述其為「雙向理解」,並有一個對話泡泡總結為「像戴眼鏡的貓,左右兼顧,精確分析」。右側是「GPT」貓,戴著貝雷帽,手持羽毛筆和捲軸,口中噴出彩虹流,其中包含 Nyan Cat、Doge 迷因和照片。中文文本描述其為「創意生成」,泡泡描述其為「像藝術家貓,口吐彩虹文,腦洞大開」。此圖表將 BERT 的精確語境分析與 GPT 的創意文本生成進行了對比。

4.1 BERT:全方位理解型選手 (The Master of Reading)

BERT (Bidirectional Encoder Representations from Transformers) 代表了「理解」的巔峰。
他的方式非常暴力:它把課本裡的字挖掉(Masked LM),強迫自己根據左右兩邊的內容把字猜回來。
  1. 核心特性:雙向 (Bidirectional) 訓練:BERT 同時看左邊與右邊,精準判斷語意。
  1. 底層武器:遮罩語言模型 (MLM):隨機遮住 15% 的詞讓模型去「猜」,練就深厚的語意底蘊。
  1. 核心優勢:它對上下文的「雙向關係」極度敏感。如果你要讓 AI 幫你改考卷、分信件、或是做搜尋優化,BERT 至今依然是效率最高的王者。

4.2 GPT:流暢生成型選手 (The Master of Storytelling)

GPT (Generative Pre-trained Transformer) 是「生成」領域的教主。
他是另一種極端。它不看後文,只看前文,然後拚命猜下一個字是什麼。
  1. 核心特性:單向自回歸 (Autoregressive) 訓練:預測下一個字時只看前文,練就了極強的「續寫能力」。
  1. GPT 的接龍遊戲(Causal LM):老師只給開頭,叫 GPT 一路寫下去。為了不辭窮且講得通,它必須學會捕捉語言的流暢度和創造力。
  1. 湧現能力 (Emergence):當模型規模大到一定程度,這種「猜下一個字」的簡單任務,竟然讓 GPT 學會了邏輯推理、寫程式、甚至是冷幽默。
為什麼 GPT 能「後發先至」?
BERT 剛出來時,橫掃了所有學術比賽,Google 搜尋引擎至今也還在用它來理解你的意圖。但為什麼現在大眾只聽過 GPT?這涉及了三個關鍵的技術轉折:
  • 從「專才」到「通才」 BERT 需要針對不同任務(如翻譯、改錯)進行二次訓練(Fine-tuning)。而 GPT 發現,只要模型夠大,它就能透過「對話」直接處理所有事。
  • 規模化定律(Scaling Laws) OpenAI 賭贏了一個技術直覺:當參數量增加到千億等級時(GPT-3),模型會產生「湧現能力」,突然學會了原本沒教過的推理。
  • 對齊技術(RLHF) 這是最關鍵的轉折!GPT 透過「人類回饋戴補強學習」,學會了說話的語氣要像人類,而不只是冷冰冰的機率計算。

4.3 BART 與 Seq2Seq:混血兒與翻譯的底層邏輯

當我們不再滿足於「只理解」或「只生成」,而是想要「讀完一段話,吐出另一段話」時,混血架構就誕生了。

① Seq2Seq:翻譯的底層邏輯

序列到序列(Seq2Seq: Sequence-to-Sequence)模型是所有輸入/輸出轉換任務的通用框架。
你可以把它想像成一個「翻譯官」,先聽懂(Encoder),再說出來(Decoder)。
優點 ✅
  • 處理變長序列:輸入 10 個字,輸出 5 個字 (摘要) 或 15 個字 (翻譯) 都沒問題。
  • 端到端學習 (End-to-End):直接從輸入學習到輸出,不需要中間複雜的人工規則。
  • 語意對齊:能學會不同語言或格式之間的神祕對應關係。
缺點 ❌
  • 資訊瓶頸 (Information Bottleneck):如果輸入太長,Encoder 可能無法將所有資訊壓縮進小小的向量裡。
  • 慢速生成:Decoder 必須一個字接一個字噴出來,無法像 Encoder 那樣平行處理。
  • 曝光偏差 (Exposure Bias):訓練時看正確答案,生成時看自己前一個錯字,可能導致錯誤連鎖反應。

②BART:把兩個靈魂裝進同一個身體

BART (Bidirectional and Auto-Regressive Transformers) 是 BERT 與 GPT 的完美混血。
他是 Transformer 時代中,Seq2Seq 架構最完美的實例之一。它結合了 BERT 的雙向理解力(Encoder)與 GPT 的自回歸生成力(Decoder)。
這讓它既能像 BERT 一樣「看清全局」,又能像 GPT 一樣「流暢表達」。
核心優勢 🌟
  • 靈活度極高:能處理所有「輸入一段話、輸出另一段話」的任務。
  • 抗噪能力強:預訓練時學會從亂序或殘缺的文字中還原真相。
  • 摘要大師:在內容精簡與重點擷取上,表現往往比純 GPT 穩定。
缺點與痛點 ⚠️
  • 運算成本較高:同時跑兩套架構(Encoder + Decoder)比單一套更吃資源。
  • 生成長度受限:雖然擅長摘要,但在「無中生有」的長篇創作上不如 GPT 系列。
  • 訓練難度:需要大量的清洗數據來進行「去噪還原」訓練。

4.4 Transformer 家族大車拼

特性
BERT (讀書高手)
GPT (作文高手)
BART (翻譯/摘要高手)
出現時間
2018 年 10 月
2019 - 2020 年
2019 年 10 月
代表模型
BERT
GPT-2/3
BART
拿手好戲
理解、分類、問答
生成、對話、接龍
翻譯、摘要、改寫
架構重點
Encoder Only
Decoder Only
Encoder-Decoder
訓練方向
雙向 (Bidirectional)
單向 (由左至右)
先雙向理解,再單向生成
預訓練任務
MLM (遮罩預測)
自回歸 (預測下一字)
混合雜訊還原 (Denoising)
既然自注意力機制那麼厲害,那是不是 AI 就無所不能了?
雖然自注意力機制極大地提升了 AI 處理資訊的能力,但它並非萬能。它仍面臨三大挑戰:
  1. 資源消耗:計算量隨長度平方增長,極其耗能。
  1. 缺乏真理:僅靠機率關聯,容易產生「幻覺」。
  1. 物理限制:難以理解真實世界的因果與物理規律。
它擅長找關聯,但還不具備真正的智慧。

五、Transformer 的極限與未來進化

三隻貓解構 Transformer 缺陷:左貓面對 N^2算力黑洞崩潰;中貓握長捲軸陷入金魚記憶;右貓將香蕉標為魚,演示自信的 AI 幻覺。將二次計算複雜度、長文本遺忘與「一本正經胡說八道」具象化,揭示模型技術極限。
三隻貓解構 Transformer 缺陷:左貓面對 N^2算力黑洞崩潰;中貓握長捲軸陷入金魚記憶;右貓將香蕉標為魚,演示自信的 AI 幻覺。將二次計算複雜度、長文本遺忘與「一本正經胡說八道」具象化,揭示模型技術極限。
Transformer 靠著 Self-Attention 橫掃 NLP 領域,但在實務應用上,它依然面臨兩個「魔王級」的挑戰:運算太貴會說謊

5.1 沉重的代價:計算複雜度的平方級增長

自注意力機制(Self-Attention)最致命的弱點在於它的計算量會隨文本長度呈「平方級」增長。這在數學上表示為 O(n²)。
  • 現象:當你讓 AI 讀 2 倍長的文章,它花的算力不是 2 倍,而是 4 倍
  • 痛點:這導致處理超長文本(如整本法律百科)時,硬體成本會變得異常昂貴,顯存(VRAM)需求也會爆表。

5.2 過目不忘的挑戰:超長上下文 (Long Context)

為了讓 AI 不再是「過目即忘的短跑選手」,近幾年的研究朝著「讓平方增長不那麼可怕」的方向猛攻。
目前最具代表性的解法是 Flash Attention,它重新設計了注意力的計算順序,讓記憶體存取效率大幅提升,在不犧牲準確度的前提下,把速度壓了下來。
效果顯著:現在的主流模型已經能一次處理百萬級 Token。你可以把整套法律全書或一整年的財報丟給它,它依然能精準掃描出你要的段落。
  • 進化:現在的 AI(如 Gemini 1.5 Pro)已經能一次讀完十幾本書或長達數小時的影片,這都要歸功於對自注意力機制的數學優化。
  • 線性注意力的價值:讓模型能在大海撈針般的數百萬字中,依然精準定位到特定的細節資訊。

5.3 完美的謊言:幻覺問題 (Hallucination)

這是目前 LLM 最難根治的痛點。
  • 原因:自注意力機制本質上是在找「單詞之間的關聯機率」,它擅長聯想但不擅長查證。模型可能會為了語句的流暢性(NLG 的成功定義),而犧牲事實的準確性。
  • 未來解法:這也是為什麼我們需要結合知識圖譜(Knowledge Graph)或 RAG
    • RAG (檢索增強生成):給 AI 一本外掛的「百科全書」,回答前先查證。
      知識圖譜:賦予 AI 一個結構化的真實世界地圖(例如:明確標記 A 是 B 的父親),而不僅僅是讓它在機率的汪洋中漂流。

結語:每一代技術,都在補上一代的缺口

NLP 這幾十年的進化,其實就是一場「打怪升級」的遊戲。
從「讓電腦讀懂一句話」開始,最早的「規則派」像個嚴格的老師,想把語法教死,結果發現語言太調皮,根本教不完;後來的「統計派」改當算命師,雖然機率算得準,卻把說話的順序給弄丟了。後來的 RNN 和 LSTM 雖然試著寫筆記來幫機器增加記憶力,但不是筆記本太小,就是寫字速度太慢,始終跟不上人類說話的節奏。
直到 2017 年那篇《Attention Is All You Need》出現, Transformer 讓機器學會了「抓重點」,這才有了現在能讀會寫的 BERT 和 GPT。但大家千萬別誤會,新技術出現並不代表舊的就要被淘汰。你現在搜尋 Google、填寫網頁表單,背後其實都還有那些「老前輩」在默默工作。
Transformer 不是終點。TF-IDF 的邏輯還活在 SEO 工具鏈裡,BERT 還在幫 Google 讀你的搜尋意圖,規則式的比對邏輯還跑在每一套表單驗證裡。技術的演進不是一場淘汰賽,而是一場疊加賽。舊的解法撞牆了,新的解法就試著繞過去。技術的迭代會一直持續下去,直到超級人工智慧出現的那一天。
 

這篇有幫到你嗎?歡迎餵食煎餃 🥟

每篇文章都是踩坑後整理出來的,你的支持是最好的調味料。

請我喝杯咖啡
Claude 額度燒光光,教你怎麼把 Gemini 也叫進來上班你的 AI 助理為什麼在發瘋?從 OWASP Top 10 for LLM 看懂 10 大 AI 翻車現場