機器真的聽懂人話嗎?深度解構 NLP 核心技術:Transformer、BERT 與 GPT
字數 7271閱讀時間≈ 19 分鐘

對人類來說,說話像呼吸一樣自然;但對電腦而言,人類語言是一場混亂的災難。同一個詞「bank」,在金融情境中是銀行,在地理情境中是河岸。電腦最初只是一台只認得 0 與 1 的冷酷計算機,要讓它理解文字中的情緒、雙關與邏輯,人類經歷了長達半個世紀的技術長征。
自然語言處理(Natural Language Processing, NLP)的本質,就是一場將「感性訊號」轉譯為「數學邏輯」的煉金術。這篇文章將帶你穿梭時空,看機器如何從死背規則的「複讀機」,演化成具備動態雷達的「通才巨人」。
一、NLP 的核心疆域:理解與生成的二重奏
NLP 不就是把文字丟進模型裡跑嗎?為什麼還需要分 NLU 和 NLG?這對開發者來說有什麼實質意義?
NLP 就是讓電腦「讀懂」並「說話」的技術。NLU 負責理解(像大腦聽懂指令),NLG 負責生成(像嘴巴回話)。區分兩者能讓開發者按需求選工具,精準省時又不浪費資源!

1.1 分類的意義:追求「對不對」還是「好不好」?
為什麼我們要特地把 NLP 切分成 NLU(理解)與 NLG(生成)?這不只是學術上的分類,更是因為兩者的「成功定義」完全不同。當你作為開發者在評估模型時,這套標準能幫你決定資源該投在哪:
- NLU 追求的是「對不對」:
這是一個關於「精確率」與「召回率」的比賽。當使用者說「我要退貨」,模型必須 100% 精準地辨識出意圖,不能把退貨誤判為下單。在這裡,我們容不下模糊空間,目標是從成千上萬種說法中,找到唯一的正確答案。
- NLG 追求的是「好不好」:
這是一個關於「流暢度」與「相關性」的挑戰。AI 回覆使用者的文字,沒有絕對的標準答案。重點在於語氣是否自然?邏輯是否連貫?內容是否真的解決了問題?在這裡,我們追求的是一種人性化的溝通體驗。
1.2 技術底層:機器處理語言的三個任務層級

要達成上述目標,NLP 系統在技術上必須經歷三個遞進的處理層級,這也是所有 NLP 模型的共同基石:
- 理解 (Understand):這是 NLU 的主戰場。機器必須從混亂的非結構化文字中,解析出語法結構(Syntax)與語意邏輯(Semantics)。這涉及辨識語者的意圖、偵測情緒,並從背景知識中提取出隱含的邏輯。
- 處理 (Process):將人類語言轉換為電腦可操作的結構。這通常涉及「特徵提取」,例如將句子變成高維度向量,讓機器能在座標系中計算詞語間的距離。
- 生成 (Generate):NLG 的終極目標。根據處理後的語意座標,模型必須重新建構語句,產出自然、流暢且具備邏輯的文字。這不只是拼湊單字,還需要考慮上下文的一致性(Coherence)。
1.3 開發者的最終目標:解決哪種商業問題?
在實務應用中,我們會根據任務屬性來選擇技術路徑。下表整理了 NLP 的核心任務分佈:
模組一:自然語言理解 (NLU)
核心目標: 將非結構化文字轉化為電腦可處理的標籤、類別或數據。
任務名稱 | 技術細節 (底層邏輯) | 實務應用場景 |
意圖辨識 (Intent Recognition) | 把語句分類到預設標籤(如:詢問天氣、退貨) | 客服機器人分流、語音指令解析。 |
命名實體辨識 (NER) | 從文本中提取人名、地名、機構。 | 法律文件自動標記、醫囑資訊抓取。 |
情感分析 (Sentiment Analysis) | 判斷語氣是正向、負向還是中立。 | 社群輿情監控、電商評論自動彙整。 |
模組二:自然語言生成 (NLG)
核心目標: 根據已理解的資訊或數據,重新組織成人類可讀的流暢文字。
任務名稱 | 技術細節 (底層邏輯) | 實務應用場景 |
自動摘要 (Summarization) | 壓縮長篇大論,只保留核心重點。 | 新聞快報、會議記錄自動摘要。 |
對話生成 (Response Generation) | 根據上下文邏輯,產生流暢的回覆。 | ChatGPT 對答、虛擬助理互動。 |
機器翻譯 (Machine Translation) | 跨語言轉換:語意對齊並重新建構語句。 | 跨國文件翻譯、即時語音翻譯。 |
二、演進史:從規則編碼到預訓練時代
既然現在的 GPT 這麼強,我們還有必要學規則式方法(Rule-based)或是統計模型(N-gram)嗎? 那不都以前的東西了?學最新的不就好了?
即使 GPT 強大,學習基礎技術仍有三大核心意義:
- 技術底層邏輯:現代 Transformer 是從詞向量、統計模型演化而來。不學基礎,難以理解模型為何出錯或如何調優。
- 實務場景限制:在斷網、低運算設備或高隱私需求下,輕量的傳統方法是唯一解。
- 混合式架構:最強的系統通常是「規則+模型」。用規則過濾敏感資訊,再用 GPT 生成內容,兼具安全與靈活性。
這也是為什麼 iPAS AI 規劃師 鑑定仍將這些列為必考重點!

2.1 第一世代:規則式方法 (1980s - 1990s)
這是一個「語言學家治國」時代。人類手動編寫語法辭典與邏輯規則。系統不具備真正的智能,僅是按照「如果...就...(If-Then)」的邏輯運行。
- 代表技術:ELIZA、專家系統。
- 優勢:高可解釋性。系統若判斷錯了,你可以精準找到是哪條規則寫歪了。
- 痛點:維護成本極高。語言是活的,當新詞(如「很雷」)出現時,系統必須手動更新,否則就會徹底失效。
經典案例:ELIZA (1966 年) 這是史上第一個聊天機器人,它模擬的是一位「心理醫生」。它完全沒有智慧,只是利用關鍵字替換來反問使用者。
- 使用者:「我最近跟我媽吵架了。」
- ELIZA 規則:只要看到「我媽」,就回覆「再多跟我聊聊你的家人吧」。 結果:使用者會覺得「它聽得懂我在說什麼」,但其實它只是在玩文字接龍。
規則式方法 (Rule-based) 現在還有人用嗎?
有的!雖然 GPT 很強,但規則式方法在「準確度」與「成本」上有不可取代的地位。
- 身分證字號檢查 💳:這是最經典的應用。透過預設的數學邏輯(如:首字母代表地區、檢查碼運算)來驗證格式。這種「非黑即白」的任務,用規則式處理比 AI 亂猜更精準。
- LINE 官方帳號機器人 🤖:許多企業的自動回覆系統仍使用「關鍵字觸發」。當使用者輸入特定詞彙(如:門市資訊、運費),系統便立即丟出預設內容,反應速度極快且成本極低。
2.2 第二世代:統計語言模型 (1990s - 2010s)
在深度學習出現之前,機器讀語言靠的是統計規律,也就是數算詞出現的頻率。核心概念是:如果一個詞組合在過去經常出現,那它在未來出現的機率也比較高。
為什麼放棄規則,改學機率?
因為人類語言太難預測了!規則寫再多也寫不完例外。統計派不再強迫電腦「理解」語法,而是讓它當個「算命師」:根據過去發生的數據,預測下一個字最可能出現什麼。這就是從「教電腦釣魚」轉向「給電腦看一萬張魚的照片」的過程。
① N-gram 語言模型 (N-gram Language Model)
- 核心邏輯:靠前面幾個詞預測下一個詞的機率。N 是你往回看的「窗格大小」。
- 致命限制:長距離依賴問題 (Long-range Dependencies)。N-gram 只能看固定長度的窗格。句子太長時,它會「瞬間斷片」,忘記句子開頭說了什麼。
- 痛點:資料稀疏問題。當 N 增大時,許多詞組組合在語料庫中從未出現,機率會變為零。
Google 搜尋建議。當你輸入「台北」,系統會根據統計機率跳出「台北天氣」、「台北捷運」,因為這些組合在數據庫中出現次數最多。
② TF-IDF 詞頻-逆文件頻率 (Term Frequency-Inverse Document Frequency)

- 核心邏輯:它是「字詞計數器」。在單篇出現多(TF 高),但在所有文章中罕見(IDF 高),則該字最能代表主題。
- 沒辦法處理「一詞多義」:如果你搜尋「蘋果」,TF-IDF 分不出你是在找吃的「水果」,還是在找「手機」。它只會數次數,不會看上下文。
- 完全不懂「意思」 (語意鴻溝):在 TF-IDF 眼中,「貓咪」和「喵星人」是兩個截然不同的東西,分數完全不互通。如果你搜尋「貓咪」,它可能漏掉所有寫「喵星人」的超棒文章。
- 停用詞(Stopwords)過濾
- 想像你在聽一場演講,講者每講三句話就加一個「然後」、「那個」。這些詞對理解演講核心毫無貢獻,卻佔據了你的聽力帶寬。在 NLP 中,這就是「停用詞」。
- 核心功能:去除如「的」、「了」、「在」或英文的 "is", "the" 等高頻但語意貢獻低的詞。
- 減少運算量:過濾掉佔文本 30%-50% 的廢話,能讓模型訓練快上一倍。
傳統 SEO 玩法:在那個 Google 還沒像現在這麼聰明的時代(大約 2010 年代以前),TF-IDF 是搜尋引擎排名的核心技術之一。網站管理員會計算競爭對手的網頁中,哪些關鍵字的 TF-IDF 分數最高,然後在自己的網頁裡刻意增加這些「稀有且重要」的詞彙,好讓 Google 覺得這篇文章「最有重點」。
2.3 第三世代:深度學習時代 (2010s - 2018)
N-gram 跟 RNN、LSTM 都是健忘的金魚腦,那他們差在哪裡?
從統計時代(N-gram)跨越到深度學習時代(RNN/LSTM),最關鍵的差別在於電腦看待語言的方式從「數次數」變成了「向量化與狀態記憶」。
- 統計時代 (N-gram):像是一個只有幾秒記憶的收銀員。他只記得你剛剛說的最後 1-2 個字。如果你說了一長串需求,他只會根據最後一個字來猜你要什麼。
- 深度學習時代 (RNN/LSTM):像是一個帶著筆記本的速記員。他會把讀過的每個字轉化成「隱藏狀態(Hidden State)」,這就像是在筆記本上記錄摘要。雖然筆記本空間有限,寫太長會模糊(梯度消失),但他試圖保證整句話的語意是連貫的。

神經網路進入戰場,RNN 與 LSTM 成為霸主。在這個時期,電腦不再只是數算機率,而是試圖模仿人類大腦的「隱藏狀態(Hidden State)」,將語言視為有順序的時間序列,讓模型具備了初步的記憶力。
- RNN (循環神經網路):初步的記憶力
- 核心邏輯:它像是一個帶著筆記本的速記員,讀到每個字都會在筆記本上記錄摘要(隱藏狀態),試圖把前面的語意帶到後面的句子。
- 致命傷:梯度消失 (Gradient Vanishing)。它的筆記本空間有限,一旦句子超過 20 個字,後面的記錄就會蓋掉前面的,導致它「看到後面就忘了前面」。
- 應用:自動選字、語音辨識
- LSTM (長短期記憶網路):進化的記憶開關
- 白話差別:它是 RNN 的升級版。LSTM 在筆記本上加裝了「門控機制(Gates)」,像是有立可帶(忘記門)和螢光筆(輸入門)。它能智慧地判斷哪些廢話該忘記、哪些重點該長久記住,因此能處理比 RNN 更長的句子。
- 這樣可以把重要的資訊「鎖」在記憶裡,傳遞到 100 個字甚至更遠之後。又稱長距離依賴 (Long-term Dependencies)。
2.4 第四世代:預訓練時代 (2018 至今)
為什麼有了 LSTM,我們最後還是發明了更強大的 Transformer (ChatGPT 的祖先)?
自注意力機制(Self-Attention)解決了 LSTM 的順序依賴與資訊損耗問題。
- 並行處理:LSTM 像排隊領餐,必須一個接一個讀;自注意力則像一眼掃視全場,所有字同時運算,大幅提升效率。
- 瞬移對焦:無論兩個字離多遠,自注意力都能直接建立聯繫,不必像 LSTM 經過長距離傳遞導致記憶模糊。
Transformer 出現,終結了「排隊讀字」的時代。
- 突破點:並行運算與自注意力機制。模型不再需要逐字處理,而是一次掃描全局,這讓訓練大規模數據成為可能。
- 核心思維:不再只看「前一個字」,而是計算「全文字之間」的關聯性權重。
過往的技術讓我們解決了「記憶」問題,但 Transformer 帶領我們進入了「理解關係」的境界。究竟電腦是如何把一段文字拆解、轉換並產生這種神奇的「注意力」?我們將在第三章拆解它的底層黑盒子。
三、拆解 Token、向量與注意力的連鎖反應
如果說 NLP 是一座自動化工廠,那麼這一章就是這座工廠的「生產線核心」。當我們輸入一段文字,它並不是直接被丟進黑盒子,而是經歷了一連串精密的物理變換。
既然電腦已經有強大的 CPU 了,為什麼不能直接讀取文字檔?為什麼一定要把句子拆得稀巴爛?
因為電腦的本質是「大型計算機」。文字對它而言太模糊、太感性。我們必須先透過「剪裁(Tokenization)」把語言變成零件,再透過「座標(Embedding)」把零件變成數字,最後用「雷達(Attention)」讓數字之間產生連結。這三個步驟缺一不可,這就是機器理解語言的連鎖反應。
在深入探討之前,我們必須建立一個共識:
- Token 是零件:電腦不讀句子,它讀的是被剪碎後的符號。透過子詞(Subword)技術,我們解決了遇到新詞就當機的問題。
- 向量是座標:電腦不認得「貓」,它只認得座標
[0.6, 0.9, ...]。讓相似的詞在空間中「住在一起」,是機器理解的第一步。
關於切分 (Tokenization) 跟向量化 (Embedding) 的基礎說明,可參考站內相關文章段落
3.1 現代大模型的秘密:BPE 子詞切分

電腦不讀「句子」,它讀的是被剪碎後的零件,稱為 Token。但怎麼剪,是一門大學問!子詞切分(Subword segmentation)是目前最主流的解決方案。
BPE (Byte Pair Encoding) 是其中一種「積木化」的分詞技術。它會統計語料中出現頻率最高的字符組合,將常見的詞保留為完整積木,將罕見詞拆解成基礎組件(Subwords)。
- 全詞法 (Word-based):像是死背單字的學生。
- 拆解結果:
[抹茶煎餃](如果字典沒這詞,它就直接當機 😵)。
- 字元法 (Character-based):像是只認字母的幼兒。
- 拆解結果:
[抹]、[茶]、[煎]、[餃]。雖然不會當機,但每個字都太碎了,電腦很難一眼看出「抹茶」是一個完整的味道。
- 子詞法 (Subword-based / BPE):這就是現代大模型的秘密武器。
- 拆解結果:
[抹茶]+[煎]+[餃]。它保有了「抹茶」這個有意義的單位,同時又把「煎」跟「餃」拆開,只要認識這些「積木」,它就能拼湊出大致語意,大幅提升了模型的泛化能力。
3.2 詞形正規化:Lemmatization vs. Stemming
當機器看到 "running", "ran", "runs",它應該知道這都是同一個動作。
- 詞幹提取 (Stemming)
- 暴力剪裁。如將 "running" 剪成 "run"。速度快,但可能產出不存在的字(會把
flies剪成fli)。 - 如果使用者搜尋
fishing,詞幹提取會把它變成fish。這樣系統就能同時抓到包含 fish、fished、fisher的文章。這種「寧可錯殺,不可放過」的特性,有助於提高召回率 (Recall)。
- 詞形還原 (Lemmatization)
- 依賴字典與語法規則還原為原型(如
saw根據語境還原為see)。這對深度語意分析至關重要。
特性 | 詞幹提取 (Stemming) | 詞形還原 (Lemmatization) |
技術手段 | 規則剪裁(去字尾)✂️ | 字典查詢、語法分析 📖 |
準確度 | 較低(可能產生 fli 這種怪字) | 高(還原為真正的原型 fly) |
速度 | 極快 🏎️ | 較慢 🚶 |
典型應用 | 大規模搜尋引擎、快速過濾 | 聊天機器人、精準翻譯 |
停用詞去哪裡了?在深度學習時代的停用詞處理,跟在統計時代差在哪裡?
這是一個非常關鍵的觀念差異!
① 統計時代 (TF-IDF):我們必須主動過濾掉「的」、「了」、「the」等停用詞。因為這些詞出現頻率極高,如果不濾掉,模型會誤以為這些廢話才是關鍵字,產生嚴重的噪音
② 深度學習時代 (LLMs):我們通常「不再」主動移除停用詞。因為像 BERT 或 GPT 這種模型需要理解完整的上下文脈絡(Context)。例如 "Flight to Taipei" 與 "Flight from Taipei" 的意義截然不同,那個關鍵的介系詞(原本的停用詞)反而是機器理解方向的靈魂。
3.3 靜態向量三劍客 (Word2Vec, GloVe, FastText)

在 Transformer 統一江湖之前,NLP 的天下是由這三位開創者打下來的。它們的共通任務只有一個:幫每一個詞找到最完美的「語意座標」。
① Word2Vec:靠鄰居猜字的「算命師」
由 Google 在 2013 年推出,它是現代詞嵌入的鼻祖。
- 核心邏輯:它相信「物以類聚」。透過預測一個詞的鄰居(Skip-gram)或根據鄰居預測中心詞(CBOW),它學會了語意。
- 技術細節:它讓「國王」 - 「男人」 + 「女人」 = 「女王」這種數學運算成為可能。
② GloVe:看透全局的「統計學家」
由史丹佛大學提出,它覺得 Word2Vec 太過局部。
- 核心邏輯:它不只看鄰居,而是先掃描整個語料庫,建立一張巨大的「共現矩陣」。它觀察「冰」跟「冷」出現的比例,與「冰」跟「熱」出現的比例,進而推導出更穩定的語意。
③ FastText:連骨頭都看的「解剖學家」
Facebook 的得意之作,它解決了 Word2Vec 遇到陌生詞就失靈的痛點。
- 核心邏輯:它不把單詞當成最小單位,而是拆解成子詞(n-grams)。例如看到「煎餃」,它會同時學習「煎」、「餃」的含義。
- 優點:即使你打錯字成「天餃」,它也能透過「餃」這個字根,猜出這可能跟食物有關。對中文這種拼塊語言特別有效。
向量三劍客這麼厲害,為何還需要自注意力機制?
因為它們都是「靜態」的。不管句子怎麼變,「蘋果」的座標永遠在那裡。
- 在「蘋果真好吃」裡,它是水果。
- 在「蘋果手機真貴」裡,它是電子產品。
對於靜態向量來說,這兩個「蘋果」的數位身份完全相同,這就是語意歧義的終極天花板。
3.4 終極進化:Self-Attention (Q, K, V)
2017 年,Google 的論文《Attention Is All You Need》拋出了一個炸彈:不需要 RNN,不需要 CNN,光靠注意力機制就能處理語言。Transformer 架構從此改寫了 NLP 的歷史。
這是 NLP 史上第一次打破「靜態座標」的限制,讓單詞具備了「根據身邊的人,即時調整自己身份」的能力。在 Transformer 中,每個詞都像裝了雷達,主動去偵測周圍。

🍎 為什麼會變成「水果」而不是「手機」?
假設句子是:「這盒蘋果禮盒真貴。」電腦會透過以下三步驟來決定「蘋果」的語意:
- 發出訊號 Query (Q) :「蘋果」跳出來發問:「我現在身邊有誰?誰能告訴我我是哪種蘋果?」
- 查看標籤 Key (K) :句子裡的其他詞會露出自己的「名片」:
- 「禮盒」的名片寫著:【食品、送禮、包裝盒】
- 「真貴」的名片寫著:【價格、高級、金錢】
- 計算分數 (Q x K):「蘋果」拿著自己的需求去比對。它發現「禮盒」名片上的【食品】跟自己(潛在的水果身份)關聯度超級高!比「真貴」更具備決定性。
- 吸收營養 Value (V) :因為「禮盒」的分數最高,電腦會讓「蘋果」去吸收「禮盒」所代表的實質意義 (V)。這時候,「蘋果」的數位座標就會被拉向「食物/水果」那一區。
反之亦然:如果句子換成「蘋果手機」,它掃描到的是「手機」的名片(科技、通訊),座標就會轉向「科技公司」區。這就是動態語意理解!
🚀 進階:不只看一眼,而是全方位掃描 (Multi-Head Attention)
想像你參加一場聯誼,如果你只有單頭注意力,你整晚只能用一種標準來觀察別人。
- 單頭:你只看「對方的職業」。雖然你能找到職業最契合的人,但你可能會忽略他的性格、興趣或價值觀。
多頭(Multi-Head) 就像是你分身出了好幾個自己,同時從不同角度觀察:
- 一號:專門看「對方的共同興趣」(比如都喜歡看電影)。
- 二號:專門看「對方的幽默感」。
- 三號:專門看「對方的未來規劃」。
最後,這幾個頭會把觀察到的資訊「拼湊」起來,讓你對眼前的這個人(Token)有最完整的理解。
這種「看場合」的能力,實現了真正的動態語意理解!
自注意力機制會分心嗎?
會的,自注意力機制確實會「分心」。當模型對所有字的注意力都差不多,我們稱這種現象為 「注意力崩潰」(Attention Collapse),就像一個學生看書每一行都畫重點,等於沒畫。
正確解法:稀疏化約束 (Sparsity Constraint)。強迫模型只能選少數幾個最重要的詞來對焦。
四、巨人誕生:BERT vs. GPT 的終極決戰
Transformer 架構的出現,將 NLP 世界切分成了兩條截然不同的進化路線。
既然大家都是用 Transformer 的零件蓋出來的,為什麼還有分什麼 BERT 跟 GPT?
這取決於你如何使用這座巨人的軀體。你可以只留下一雙擅長觀察的眼睛(Encoder),也可以只留下一張擅長說話的嘴巴(Decoder)。

4.1 BERT:全方位理解型選手 (The Master of Reading)
BERT (Bidirectional Encoder Representations from Transformers) 代表了「理解」的巔峰。
他的方式非常暴力:它把課本裡的字挖掉(Masked LM),強迫自己根據左右兩邊的內容把字猜回來。
- 核心特性:雙向 (Bidirectional) 訓練:BERT 同時看左邊與右邊,精準判斷語意。
- 底層武器:遮罩語言模型 (MLM):隨機遮住 15% 的詞讓模型去「猜」,練就深厚的語意底蘊。
- 核心優勢:它對上下文的「雙向關係」極度敏感。如果你要讓 AI 幫你改考卷、分信件、或是做搜尋優化,BERT 至今依然是效率最高的王者。
4.2 GPT:流暢生成型選手 (The Master of Storytelling)
GPT (Generative Pre-trained Transformer) 是「生成」領域的教主。
他是另一種極端。它不看後文,只看前文,然後拚命猜下一個字是什麼。
- 核心特性:單向自回歸 (Autoregressive) 訓練:預測下一個字時只看前文,練就了極強的「續寫能力」。
- GPT 的接龍遊戲(Causal LM):老師只給開頭,叫 GPT 一路寫下去。為了不辭窮且講得通,它必須學會捕捉語言的流暢度和創造力。
- 湧現能力 (Emergence):當模型規模大到一定程度,這種「猜下一個字」的簡單任務,竟然讓 GPT 學會了邏輯推理、寫程式、甚至是冷幽默。
為什麼 GPT 能「後發先至」?
BERT 剛出來時,橫掃了所有學術比賽,Google 搜尋引擎至今也還在用它來理解你的意圖。但為什麼現在大眾只聽過 GPT?這涉及了三個關鍵的技術轉折:
- 從「專才」到「通才」 BERT 需要針對不同任務(如翻譯、改錯)進行二次訓練(Fine-tuning)。而 GPT 發現,只要模型夠大,它就能透過「對話」直接處理所有事。
- 規模化定律(Scaling Laws) OpenAI 賭贏了一個技術直覺:當參數量增加到千億等級時(GPT-3),模型會產生「湧現能力」,突然學會了原本沒教過的推理。
- 對齊技術(RLHF) 這是最關鍵的轉折!GPT 透過「人類回饋戴補強學習」,學會了說話的語氣要像人類,而不只是冷冰冰的機率計算。
4.3 BART 與 Seq2Seq:混血兒與翻譯的底層邏輯
當我們不再滿足於「只理解」或「只生成」,而是想要「讀完一段話,吐出另一段話」時,混血架構就誕生了。
① Seq2Seq:翻譯的底層邏輯
序列到序列(Seq2Seq: Sequence-to-Sequence)模型是所有輸入/輸出轉換任務的通用框架。
你可以把它想像成一個「翻譯官」,先聽懂(Encoder),再說出來(Decoder)。
優點 ✅
- 處理變長序列:輸入 10 個字,輸出 5 個字 (摘要) 或 15 個字 (翻譯) 都沒問題。
- 端到端學習 (End-to-End):直接從輸入學習到輸出,不需要中間複雜的人工規則。
- 語意對齊:能學會不同語言或格式之間的神祕對應關係。
缺點 ❌
- 資訊瓶頸 (Information Bottleneck):如果輸入太長,Encoder 可能無法將所有資訊壓縮進小小的向量裡。
- 慢速生成:Decoder 必須一個字接一個字噴出來,無法像 Encoder 那樣平行處理。
- 曝光偏差 (Exposure Bias):訓練時看正確答案,生成時看自己前一個錯字,可能導致錯誤連鎖反應。
②BART:把兩個靈魂裝進同一個身體
BART (Bidirectional and Auto-Regressive Transformers) 是 BERT 與 GPT 的完美混血。
他是 Transformer 時代中,Seq2Seq 架構最完美的實例之一。它結合了 BERT 的雙向理解力(Encoder)與 GPT 的自回歸生成力(Decoder)。
這讓它既能像 BERT 一樣「看清全局」,又能像 GPT 一樣「流暢表達」。
核心優勢 🌟
- 靈活度極高:能處理所有「輸入一段話、輸出另一段話」的任務。
- 抗噪能力強:預訓練時學會從亂序或殘缺的文字中還原真相。
- 摘要大師:在內容精簡與重點擷取上,表現往往比純 GPT 穩定。
缺點與痛點 ⚠️
- 運算成本較高:同時跑兩套架構(Encoder + Decoder)比單一套更吃資源。
- 生成長度受限:雖然擅長摘要,但在「無中生有」的長篇創作上不如 GPT 系列。
- 訓練難度:需要大量的清洗數據來進行「去噪還原」訓練。
4.4 Transformer 家族大車拼
特性 | BERT (讀書高手) | GPT (作文高手) | BART (翻譯/摘要高手) |
出現時間 | 2018 年 10 月 | 2019 - 2020 年 | 2019 年 10 月 |
代表模型 | BERT | GPT-2/3 | BART |
拿手好戲 | 理解、分類、問答 | 生成、對話、接龍 | 翻譯、摘要、改寫 |
架構重點 | Encoder Only | Decoder Only | Encoder-Decoder |
訓練方向 | 雙向 (Bidirectional) | 單向 (由左至右) | 先雙向理解,再單向生成 |
預訓練任務 | MLM (遮罩預測) | 自回歸 (預測下一字) | 混合雜訊還原 (Denoising) |
既然自注意力機制那麼厲害,那是不是 AI 就無所不能了?
雖然自注意力機制極大地提升了 AI 處理資訊的能力,但它並非萬能。它仍面臨三大挑戰:
- 資源消耗:計算量隨長度平方增長,極其耗能。
- 缺乏真理:僅靠機率關聯,容易產生「幻覺」。
- 物理限制:難以理解真實世界的因果與物理規律。
它擅長找關聯,但還不具備真正的智慧。
五、Transformer 的極限與未來進化

Transformer 靠著 Self-Attention 橫掃 NLP 領域,但在實務應用上,它依然面臨兩個「魔王級」的挑戰:運算太貴與會說謊。
5.1 沉重的代價:計算複雜度的平方級增長
自注意力機制(Self-Attention)最致命的弱點在於它的計算量會隨文本長度呈「平方級」增長。這在數學上表示為 O(n²)。
- 現象:當你讓 AI 讀 2 倍長的文章,它花的算力不是 2 倍,而是 4 倍!
- 痛點:這導致處理超長文本(如整本法律百科)時,硬體成本會變得異常昂貴,顯存(VRAM)需求也會爆表。
5.2 過目不忘的挑戰:超長上下文 (Long Context)
為了讓 AI 不再是「過目即忘的短跑選手」,近幾年的研究朝著「讓平方增長不那麼可怕」的方向猛攻。
目前最具代表性的解法是 Flash Attention,它重新設計了注意力的計算順序,讓記憶體存取效率大幅提升,在不犧牲準確度的前提下,把速度壓了下來。
效果顯著:現在的主流模型已經能一次處理百萬級 Token。你可以把整套法律全書或一整年的財報丟給它,它依然能精準掃描出你要的段落。
- 進化:現在的 AI(如 Gemini 1.5 Pro)已經能一次讀完十幾本書或長達數小時的影片,這都要歸功於對自注意力機制的數學優化。
- 線性注意力的價值:讓模型能在大海撈針般的數百萬字中,依然精準定位到特定的細節資訊。
5.3 完美的謊言:幻覺問題 (Hallucination)
這是目前 LLM 最難根治的痛點。
- 原因:自注意力機制本質上是在找「單詞之間的關聯機率」,它擅長聯想但不擅長查證。模型可能會為了語句的流暢性(NLG 的成功定義),而犧牲事實的準確性。
- 未來解法:這也是為什麼我們需要結合知識圖譜(Knowledge Graph)或 RAG。
① RAG (檢索增強生成):給 AI 一本外掛的「百科全書」,回答前先查證。
② 知識圖譜:賦予 AI 一個結構化的真實世界地圖(例如:明確標記 A 是 B 的父親),而不僅僅是讓它在機率的汪洋中漂流。
結語:每一代技術,都在補上一代的缺口
NLP 這幾十年的進化,其實就是一場「打怪升級」的遊戲。
從「讓電腦讀懂一句話」開始,最早的「規則派」像個嚴格的老師,想把語法教死,結果發現語言太調皮,根本教不完;後來的「統計派」改當算命師,雖然機率算得準,卻把說話的順序給弄丟了。後來的 RNN 和 LSTM 雖然試著寫筆記來幫機器增加記憶力,但不是筆記本太小,就是寫字速度太慢,始終跟不上人類說話的節奏。
直到 2017 年那篇《Attention Is All You Need》出現, Transformer 讓機器學會了「抓重點」,這才有了現在能讀會寫的 BERT 和 GPT。但大家千萬別誤會,新技術出現並不代表舊的就要被淘汰。你現在搜尋 Google、填寫網頁表單,背後其實都還有那些「老前輩」在默默工作。
Transformer 不是終點。TF-IDF 的邏輯還活在 SEO 工具鏈裡,BERT 還在幫 Google 讀你的搜尋意圖,規則式的比對邏輯還跑在每一套表單驗證裡。技術的演進不是一場淘汰賽,而是一場疊加賽。舊的解法撞牆了,新的解法就試著繞過去。技術的迭代會一直持續下去,直到超級人工智慧出現的那一天。
這篇有幫到你嗎?歡迎餵食煎餃 🥟
每篇文章都是踩坑後整理出來的,你的支持是最好的調味料。
相關文章
.png?table=collection&id=2ba70f01-9634-81f4-8376-000b1aff7bf1&t=2ba70f01-9634-81f4-8376-000b1aff7bf1&width=1080&cache=v2)







