證照考試/2025.12.03 發佈/2026.01.16 更新

L112︱別讓 AI 吃垃圾!一次搞懂資料清洗、特徵工程與統計

字數 7237閱讀時間 19 分鐘
L112︱別讓 AI 吃垃圾!一次搞懂資料清洗、特徵工程與統計

type
status
date
slug
summary
tags
category
icon
password

前言

這篇文章最初,是我在準備 iPAS AI 規劃師初級 時,為了讓自己不要迷失在名詞裡而整理的筆記。我依照官方學習指引科目一(L112)的結構重新整理內容,結合第四次初級考試的實際出題重點,並加入圖解與生活化說明,希望讓備考的人能快速抓到重點,也讓第一次接觸 AI 的讀者,不必先懂技術,就能先看懂全貌。
📝 更新日誌 (Changelog)
2025.12.18v2.0
  • 新增內容:強化特徵工程、假設檢定圖文內容。
  • 全文優化:重組段落並優化文字結構,提升易讀性。

核心思考:為什麼 AI 這麼聰明,我們還需要學資料分析?
其實 AI 就像一位頂級大廚,而資料就是食材。
  • 如果你給大廚發霉的麵粉或過期的牛奶(垃圾數據),再厲害的大廚也做不出好吃的蛋糕。
  • 這就是 AI 領域最著名的鐵律:「Garbage In, Garbage Out」 (垃圾進,垃圾出)。

第一步:迷思破解——為什麼收集了一堆資料,AI 卻還是學不會?

1. 數據的宇宙:大數據 4V 特性

大數據的 4V 特性:數據量(Volume)、速度(Velocity)、多樣性(Variety)、價值(Value)以貓咪插圖呈現。
大數據的 4V 特性:數據量(Volume)、速度(Velocity)、多樣性(Variety)、價值(Value)以貓咪插圖呈現。
  • 數量 (Volume)
    • 資料規模龐大。
    • 舉例:全球每天新增數億張照片或影片;單一智慧工廠每分鐘產生數 TB 的感測器數據。
  • 速度 (Velocity)
    • 資料產生與處理速度快。
    • 舉例:Google 地圖或即時導航 App 的路況更新,必須每幾秒鐘就分析數百萬輛汽車的回傳數據;或是短影音平台根據你觀看時間的微小變化,即時推送下一個影片。
  • 多樣性 (Variety): 包含各種格式。
    • 你的手機每天生成的數據:(1) 聯絡人清單 (結構化) + (2) 你拍的照片/短片 (非結構化) + (3) App 的設定檔或網頁的快取 (半結構化)。
  • 價值 (Value)
    • 數據背後蘊藏的商業價值。
    • 影音串流平台(如 Netflix 或 YouTube):從數十億次的觀看紀錄中,精準預測你接下來會點擊哪部影片,讓你持續「黏」在平台上,願意續訂。

2. 資料的「長相」:資料型態分類

三隻貓咪用不同方式呈現資料類型:透明盒中代表結構化資料、掛滿標籤代表半結構化資料、從牛奶灘冒出的貓象徵非結構化資料。
三隻貓咪用不同方式呈現資料類型:透明盒中代表結構化資料、掛滿標籤代表半結構化資料、從牛奶灘冒出的貓象徵非結構化資料。
  • 結構化資料 (Structured Data)
    • 關聯式資料庫、欄位明確、易於統計(如 SQL, CSV)。
    • 就像銀行存摺身份證。它的格式是「固定死」的,電腦一掃描就知道哪裡是「姓名」、哪裡是「餘額」。因為欄位規矩,所以計算總數或平均數非常快。
  • 非結構化資料 (Unstructured Data)
    • 影像、文字、語音等,需要 AI 轉換特徵。
    • 就像你家抽屜裡塞滿的舊照片、隨手寫的便條紙或錄音檔。電腦無法直接用 Excel 的方式去計算它們。你需要靠 AI(例如:人臉辨識或語音轉文字)先幫它「看懂」或「聽懂」,把內容轉成數字後才能分析。
  • 半結構化資料 (Semi-structured Data)
    • JSON、XML、YAML,有欄位但格式不固定。
    • 就像網購的電子訂單。雖然有固定的標籤(例如:訂單編號收件地址),但裡面的商品細節欄位可以隨時增加或減少(這次買書,下次買電器),比存摺靈活,比抽屜裡的雜物有條理。

第二步:實戰難題——遇到「髒資料」該怎麼辦?

📌
情境兩難:缺值的陷阱
想像你手上有 1000 筆客戶資料,但有 300 人沒填寫「年齡」。
  • 選項 A:把這 300 人全部刪掉? 👉 樣本數瞬間少 30%,資料不足怎麼辦?
  • 選項 B:全部填 0 歲? 👉 模型會以為這些人是嬰兒,訓練出一堆錯誤結論。
  • 身為 AI 規劃師,你該怎麼選? (答案在下方「缺值處理」)

1. 資料處理標準流程

💡
步驟: 收集 (Collect) → 清理 (Clean) → 分析 (Analyze) → 視覺化 (Visualize)
資料處理四步驟:資料收集、資料清理、資料分析與結果視覺化。
資料處理四步驟:資料收集、資料清理、資料分析與結果視覺化。

2. 資料來源 (Data Sources)

企業內部數據、使用者互動數據與第三方公開數據來源。
企業內部數據、使用者互動數據與第三方公開數據來源。
1. 企業內部運營數據 (Internal Operational Data)
  • 企業系統紀錄: 來自公司自己的 ERP、CRM 或銷售系統的交易資料、客戶名單等。
  • 感測器/IoT 訊號: 來自工廠設備、智慧建築或車輛等實體世界的回傳資料。
2. 用戶與外部互動數據 (External Interaction Data)
  • 使用者行為紀錄: 來自網站、App 或遊戲的點擊、瀏覽、購買路徑等數據。
  • 網路平台: 來自各大社群媒體(如 Facebook、X)或電商平台的評論、貼文、流量等資料。
3. 第三方與公開數據 (Third-Party & Public Data)
  • 開放資料集: 由政府或組織公開發布的免費資料,例如天氣、人口統計、地圖資訊等。
  • 網路爬蟲: 透過程式自動從外部網站或網路服務抓取資訊的方法,作為數據來源。

3. 資料清理 (Data Cleaning) 關鍵任務

一隻濕淋淋的白貓象徵資料清理流程,代表處理缺值、錯值、重複值與雜訊,像清洗髒污一樣讓資料變乾淨。
一隻濕淋淋的白貓象徵資料清理流程,代表處理缺值、錯值、重複值與雜訊,像清洗髒污一樣讓資料變乾淨。
四隻貓示範資料問題:缺值像拼圖少一塊、重複值像鏡子中反覆出現、錯誤值像年齡負數、離群值像一隻彩色鸚鵡站在貓群中,用視覺比喻數據品質問題。
四隻貓示範資料問題:缺值像拼圖少一塊、重複值像鏡子中反覆出現、錯誤值像年齡負數、離群值像一隻彩色鸚鵡站在貓群中,用視覺比喻數據品質問題。
  • 缺值處理 (Missing Values):
    • 說明:資料量夠大時用,處理數據集中缺少值的欄位,避免模型訓練時發生錯誤或偏差。
    • 舉例:客戶名單中,某人沒填「年齡」。你可以選擇刪除此人、用所有人的平均年齡填補、或用迴歸模型預測他可能的年齡來填。
  • 重複值處理 (Duplicates):
    • 說明:找出並移除完全相同的多筆數據紀錄,確保每筆資訊的唯一性。
    • 舉例:你因為網路問題,重複送出了兩次相同的訂單資料,必須移除其中一筆,避免業績虛胖。
  • 錯誤值 (Error/Invalid Value):
    • 說明:數據中的值不符合合理或邏輯範圍(如年齡為負數、產品價格標為$10$億)。
    • 舉例:客戶註冊時,年齡欄位輸入了 -5,這明顯是個錯誤,必須修正或移除。
  • 異常值 / 離群值(Outlier Value):
    • 說明:數據點明顯偏離大多數其他數據點,可能是錯誤但也可能代表特殊現象,需謹慎處理。
    • 舉例:你店裡單日銷售額突然飆到平常的十倍。這可能是大單(特殊現象),但也可能是系統計錯了(錯誤),需要用箱型圖Z-score檢查。

4. 資料異常偵測類型 (Data Anomaly Types)

貓群裡混入大象代表點異常,一群貓集體做怪動作顯示群體異常,客廳裡穿太空衣的貓象徵情境異常。
貓群裡混入大象代表點異常,一群貓集體做怪動作顯示群體異常,客廳裡穿太空衣的貓象徵情境異常。
  • 點異常 (Point Anomaly):
    • 說明:單一、獨立的資料點與其他大部分數據點顯著不同。
    • 舉例:你的信用卡在國外突然出現一筆高額刷卡,但前後都沒有任何異常交易或登入紀錄,就只有那單獨一筆交易怪怪的。
  • 群體異常 (Collective Anomaly):
    • 說明:單獨看每個數據點都正常,但以序列或群組方式觀察時,整體模式異常。
    • 舉例:你的健身 App 紀錄顯示,你連續兩週每天凌晨 3:00 準時完成 100 次仰臥起坐。單獨一次仰臥起坐很正常,但這種固定的、非人類作息的連續模式合起來看,就很可疑(可能是 App 故障或被盜用)。
  • 情境異常 (Contextual Anomaly):
    • 說明:數據點在一般情況下正常,但在特定背景或時間範圍內就變得異常。
    • 舉例:伺服器在凌晨三點流量暴增是異常;但聖誕節當天流量暴增卻是正常的。判斷異常需考慮「情境」。

第三步:翻譯工程——如何讓 AI 看懂「顏色」與「文字」?

這是將原始資料變成 AI 模型「懂的語言」的過程。
📌
情境兩難:AI 看不懂「12/25」?
你想預測遊樂園人數,資料只有「2023/12/25」這個日期。
  • 丟數字給 AI:它只看到 20231225 這串數字很大,看不懂規律。
  • 人類的視角:你看到的是 「聖誕節」+「週末」 👉 人潮爆炸
  • 特徵工程:就是把「日期數字」翻譯成「節日意義」的過程。

1. 特徵工程的本質:翻譯官的藝術

特徵工程 (Feature Engineering) 的本質只有一件事:把「現實世界」翻譯成「模型看得懂、用得好的訊號」。
💡
模型表現不好,往回打的第一個地方,幾乎永遠是特徵工程。因為一個好的特徵,常常不是資料庫裡原本就有的欄位。
特徵工程主要包含三大支柱,分別代表「減法」、「變形」與「加法」的藝術:
特徵選擇如只取最愛羽毛的減法藝術;特徵轉換似液體貓適應容器的變形藝術;特徵交叉則是兩貓合作造橋,組合出新價值的加法藝術。
特徵選擇如只取最愛羽毛的減法藝術;特徵轉換似液體貓適應容器的變形藝術;特徵交叉則是兩貓合作造橋,組合出新價值的加法藝術。
監督式如網購比價,根據目標(價格)挑選最佳特徵;非監督式如整理購物車,自動發現並剔除重複的同款特徵。
監督式如網購比價,根據目標(價格)挑選最佳特徵;非監督式如整理購物車,自動發現並剔除重複的同款特徵。
  • ① 特徵選擇 (Feature Selection) —— 減法的藝術
    • 概念:不是資料越多越好,問自己「哪些資訊,值得拿來參考?」,刪除不重要或重複的特徵。
    • 監督式特徵選擇 (Supervised):根據「過去結果」來決定。
      • 邏輯:「根據過去有沒有成功,來決定哪些資訊以後要繼續看。」
    • 非監督式特徵選擇 (Unsupervised):不看結果,只看「特徵本身」。
      • 邏輯:「這些特徵彼此很像、很重複(如體重 kg 和體重 lb),我先刪一些。」
  • ② 特徵轉換 (Feature Transformation) —— 變形的藝術 (Meaning)
    • 概念:原始資料往往不夠直觀,需要轉換出「意義」。
    • 舉例:資料庫裡有「出生日期」,但對預測消費習慣來說,「年齡」或「是否為本月壽星」才是更有意義的特徵。
  • ③ 特徵交叉 (Feature Interaction) —— 加法的藝術 (Context)
    • 概念:有些訊息,單一特徵根本不存在,是「一起出現才成立」。
    • 舉例:單看「下午」沒什麼特別,單看「假日」也還好。但當「假日」+「下午」交叉在一起,可能就代表了「逛街高峰」,這對預測人流至關重要。

2. 常見的資料前處理技術

貓咪演繹資料預處理:ETL像打掃洗衣,將資料清洗歸位;數據標註如貼標籤分類獵物與敵人;數據縮減則是替長毛貓剃毛,去除雜訊以突顯核心特徵。
貓咪演繹資料預處理:ETL像打掃洗衣,將資料清洗歸位;數據標註如貼標籤分類獵物與敵人;數據縮減則是替長毛貓剃毛,去除雜訊以突顯核心特徵。
  • ETL (Extract, Transform, Load): 傳統資料整合流程。
    • 1️⃣ Extract(提取): 從資料來源擷取原始數據。
    • 2️⃣ Transform(轉換): 進行清洗、整合與格式轉換。
    • 3️⃣ Load(加載): 將處理後的資料載入目標系統(如資料倉儲)。
  • 數據標註 (Data Labeling):
    • 說明:為輸入資料(圖片、文字等)手動貼上正確的「答案」或「標籤」,以訓練監督式學習模型。
    • 舉例:你把 1000 張攝影作品給 AI 訓練,必須手動告訴 AI 每一張圖是「室內」還是「戶外」攝影,AI 才知道要學什麼。
  • 數據縮減 (Data Reduction):
    • 說明:減少資料集的規模,例如透過刪除不重要的特徵(特徵選擇)或合併特徵(降維)。
    • 舉例:你的客戶資料有 300 個欄位,但你只挑出年齡、性別、消費總額這 3 個欄位來訓練模型,以加快速度和避免過度複雜。

3. 數值型資料轉換 (特徵轉換)

標準化讓貓穿制服以 0 為基準比較;正規化將大貓小貓通通塞進 0 到 1 的盒子;離散化則不看精確數字,直接依大小分隊裝箱。
標準化讓貓穿制服以 0 為基準比較;正規化將大貓小貓通通塞進 0 到 1 的盒子;離散化則不看精確數字,直接依大小分隊裝箱。
  • 標準化 (Standardization, Z-score)
    • 說明:把「原始大小」轉成「相對位置」。將數據轉換成平均數為 0、標準差為 1 的分佈,適用於多個特徵尺度差異大的情況。
    • 情境小明考了 80 分(滿分 100),小美考了 9 分(滿分 10)。誰考得比較好?
    • 解析:直接比分數不公平(80 > 9),因為滿分不同。Z-score 幫你把它們拉到同一個標準上比較(例如算出小美其實在全班排名前 1%,比小明更強)。
  • 正規化 (Normalization, Min-Max scaling)
    • 說明:將所有數據線性縮放到一個固定範圍內,通常是 [0, 1],適用於要求固定範圍的場景。
    • 舉例:將客戶的所有消費金額都縮放到 0 到 100 之間,讓模型知道「100」是消費最高的,而不是一個巨大的原始金額。
  • 離散化 (Discretization / Binning)
    • 說明:將連續的數值變數劃分成有限的區間或類別。
    • 舉例:將客戶的「年齡」欄位,從連續數字轉換成「青年 (0-30)」、「中年 (31-59)」、「老年 (60+)」這三個離散的類別。

4. 類別資料編碼 (解決顏色的誤會)

📌
情境兩難:顏色的誤會
你的資料裡有衣服顏色:「紅、黃、藍」。
  • 如果直接把原本的文字變成數字:紅=1, 黃=2, 藍=3。
  • AI 數學很好,它會認為 「藍色 (3) 比 紅色 (1) 大」,甚至覺得 「紅(1) + 黃(2) = 藍(3)」
  • 這顯然不合理!該怎麼告訴 AI 它們只是不同顏色,沒有大小之分? (答案在下方「類別編碼」)
將非數值類別特徵轉換成數值格式:
示範類別資料編碼差異的圖表,包含顏色的 One-hot Encoding 轉換向量,以及尺寸由小到大的 Label Encoding 順序編碼。
示範類別資料編碼差異的圖表,包含顏色的 One-hot Encoding 轉換向量,以及尺寸由小到大的 Label Encoding 順序編碼。
  • One-hot encoding
    • 說明:將一個類別特徵轉換成多個二元 (0 或 1) 特徵,避免模型誤判類別間有數量關係。
    • 舉例:想像你要告訴 AI 一件衣服的顏色(紅、黃、藍)。我們將「紅」轉成三個獨立的投票紅=1, 黃=0, 藍=0。這樣 AI 就只知道「紅色的票開了」,不會誤以為「藍色 (3)」比「紅色 (1)」更好或更大
  • Label encoding
    • 說明:將類別特徵轉換成連續的整數數值,通常適用於類別本身具有順序關係(如:大、中、小)。
    • 舉例:想像你要告訴 AI 一個包裹的尺寸(小、中、大)。我們直接編碼成 小=0, 中=1, 大=2。這樣 AI 看到「2」時,就知道它比「0」或「1」大,完美保留了尺寸的順序關係。

第四步:倉儲策略——資料該冰冰箱還是丟倉庫?

資料儲存的四種方式:資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh)
資料儲存的四種方式:資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh)

1. 資料儲存架構:怎麼存才好用?

① 資料倉儲 (Data Warehouse) —— 「整齊的圖書館」
  • 優勢:資料經過清理與結構化,格式統一,查詢速度快。
  • 情境:財務部要跑月結報表、老闆要看年度營收(分析用)。
② 資料湖 (Data Lake) —— 「原始的大水庫」
  • 優勢:可存任何格式(影片、日誌)的原始資料,保留細節,成本低。
  • 情境:資料科學家要訓練 AI 模型、挖掘未知的規律(挖掘用)。
③ 數據中台 (Data Middle Platform) —— 「中央廚房」
  • 優勢:將底層數據加工成標準服務 (API),避免重複造輪子。
  • 情境:行銷、業務、客服都需要「客戶畫像」,由中台統一提供。
④ 數據網格 (Data Mesh) —— 「獨立小商店」
  • 優勢去中心化,各部門自己管理自己的數據產品,解決中央瓶頸。
  • 情境:跨國大企業,不同產品線業務差異巨大,適合各自管理。
⑤ 向量資料庫 (Vector Database) —— 「語意搜尋引擎」
  • 優勢:儲存高維向量,能找出「語意相近」的內容,而非死板的關鍵字。
  • 情境RAG 技術ChatGPT 知識庫、以圖搜圖。
⑥ 資料融合 (Data Integration)
  • 核心:將 CRM + 社群留言 + 官網點擊,拼成完整的「客戶旅程」。

2. 資料治理 (Governance):怎麼管才不亂?

四組貓咪示意圖展示數據治理流程:主資料管理、數據目錄、數據編排與資料庫索引優化。
四組貓咪示意圖展示數據治理流程:主資料管理、數據目錄、數據編排與資料庫索引優化。
① 主資料管理 (MDM)
  • 優勢:建立企業內唯一的**「單一真相來源」 (Single Source of Truth)**,消除數據衝突。
  • 情境:行銷部說客戶 A 住台北,物流部說客戶 A 住高雄。MDM 確保大家看到的地址是一致的。
② 數據目錄 (Data Catalog)
  • 優勢:讓數據可被搜尋 (Discoverable),就像圖書館的檢索系統,減少員工 80% 找資料的時間。
  • 情境:新來的分析師想找「去年 Q3 銷售數據」,不用到處問人,查目錄就知道存在哪個資料庫。
③ 數據編排 (Data Orchestration)
  • 優勢:自動化管理複雜的工作相依性,確保資料處理流程按順序準時完成。
  • 情境:規定「必須先完成資料清理 (Step A),才能開始訓練 AI 模型 (Step B)」,編排工具會自動卡控這個順序。
④ 資料庫索引優化 (Indexing)
  • 優勢:像書本目錄一樣,大幅提升查詢速度 (Performance),減少系統等待時間。
  • 情境:原本要跑 10 分鐘的報表,建立索引後變成 1 秒鐘就跑出來。

第五步:統計裁判——如何確定這不是運氣好?

這是理解數據特徵和 AI 模型評估的數學語言。
📌
情境兩難:是實力還是運氣?
你換了新廣告詞,轉換率從 5% 變成 5.2%。
  • 老闆問:「這是新廣告有效,還是只是剛好這幾天運氣好?」
  • 你敢拍胸脯保證有效嗎?萬一保證了結果下個月跌回去怎麼辦?
  • 這時候你需要「假設檢定」來幫你算機率。
貓咪圖解中心趨勢:左圖平均數顯示蹺蹺板被極端巨貓拉偏;中圖中位數是依序排列並穩坐正中央的貓王;右圖眾數則聚焦於聚光燈下數量最多的橘貓群體。
貓咪圖解中心趨勢:左圖平均數顯示蹺蹺板被極端巨貓拉偏;中圖中位數是依序排列並穩坐正中央的貓王;右圖眾數則聚焦於聚光燈下數量最多的橘貓群體。

1. 集中趨勢 (Central Tendency)—— 誰能代表這個群體?

① 平均數 (Mean) —— 「整體水準」
  • 白話文:把大家混在一起算,平均一人多少。
  • 用途:看整體實力(如:班級平均分)。
  • 雷點:極易被極端值拉走(馬斯克走進酒吧,全酒吧的人平均資產瞬間破億)。
② 中位數 (Median) —— 「一般大眾」
  • 白話文:全體排排站,站在最中間的那個人。
  • 用途:看真實行情,不怕極端值干擾(如:薪資中位數才能代表普通員工收入)。
③ 眾數 (Mode) —— 「主流爆款」
  • 白話文:出現最多次的那個。
  • 用途:看熱門趨勢(如:這季賣最好的顏色是「黑色」,黑色就是眾數)。
全距顯示最大與最小貓的差距;四分位距框出中間50%的貓群;標準差則呈現平均貓拉住四散貓咪,表現數據偏離中心的程度。
全距顯示最大與最小貓的差距;四分位距框出中間50%的貓群;標準差則呈現平均貓拉住四散貓咪,表現數據偏離中心的程度。

2. 離散程度 (Dispersion) —— 大家夠不夠團結?

① 全距 (Range) —— 「天花板與地板的距離」
  • 白話文:最強的減去最弱的。
  • 用途:看極限差距(如:這次考試最高分與最低分差了幾分)。
② 四分位距 (IQR) —— 「核心族群的差異」
  • 白話文:去掉頭尾特別強和特別弱的,只看中間 50% 的人差距多大。
  • 用途:排除異類,看主力部隊的穩定度。
③ 標準差 (Standard Deviation) —— 「心情穩不穩定」
  • 白話文:大家是乖乖聚在平均值旁邊(小),還是到處亂跑(大)?
  • 用途:衡量風險與波動
  • 舉例:兩家店平均每天都賣 100 杯。
    • A 店:每天都準時賣 90~110 杯 👉 標準差小 (穩)
    • B 店:今天賣 10 杯,明天賣 190 杯 👉 標準差大 (狂)

3. 分布與抽樣:數據的形狀 (Distribution & Sampling)

常態分佈 (Normal Distribution)貓貓蟲
常態分佈 (Normal Distribution)貓貓蟲
偏態分佈 (Skewness Distribution)
偏態分佈 (Skewness Distribution)
  • ① 常態分佈 (Normal Distribution)
    • 說明:一種最常見的機率分佈,分佈圖形呈現左右對稱的鐘形。
    • 舉例:大多數人的身高、智商、考試成績等,都會呈現這種分佈:中間最多,兩邊很少。
  • ② 偏態分佈 (Skewness Distribution)
    • 說明:衡量數據左右不對稱的程度。
    • 種類:正偏(右偏,尾巴在右)、負偏(左偏,尾巴在左)。
    • 舉例:公司產品價格通常是右偏(大部分便宜,極少數高價產品把尾巴拉長)。
  • ③ 峰度 (Kurtosis)
    • 說明:衡量數據的集中程度尾部厚度(極端值多不多)。
    • 特徵:高峰度代表數據很集中(尖),且尾部厚(有極端怪人)。
    • 舉例:遊戲玩家在線時間非常集中在 2 小時,但偶爾有玩超久的狂人。
  • ④ 抽樣與母體 (Sample & Population)
    • 母體 (Population):所有研究對象的總和(如:台灣所有大學生)。
    • 樣本 (Sample):被選出來測量的一小部分(如:被訪問的 100 人)。
  • ⑤ 抽樣誤差 (Sampling Error)
    • 說明:因為只看一部分(樣本),導致跟真實情況(母體)之間的落差。
    • 舉例:調查滿意度 8 分,但真實全體只有 7.5 分,這 0.5 就是誤差。

3. 假設檢定 (Hypothesis Testing):法庭審判的藝術

📌
腦力激盪:為什麼統計學家喜歡「唱反調」?
當你想證明「新廣告有效」時,統計學家不會直接去證明它是對的。
相反地,他們會先假設 「新廣告根本沒效(虛無假設)」,然後試著找出證據來 打臉 這個假設。
如果你一開始就說「我相信它有效」,你只是在問:「我能不能找到支持我的證據?」
先設定 H0 自認是宇宙中心(無罪推定);實驗後 P 值極低帶來現實暴擊;證據確鑿只能淚流滿面拒絕 H0,接受自己並不特別的心碎真相。
先設定 H0 自認是宇宙中心(無罪推定);實驗後 P 值極低帶來現實暴擊;證據確鑿只能淚流滿面拒絕 H0,接受自己並不特別的心碎真相。
這就像一場法庭審判:
  • Step ①:先假設 —— 被告無罪 (建立假設)
    • 我們先假設狀態是「沒差別」、「無效」
    • 這在統計上稱為 虛無假設 (H0)
    • 商業情境:先假設新廣告跟舊廣告一樣,根本沒效。
  • Step ②:找證據 —— 不可能是巧合吧? (計算 p-value)
    • 我們去計算「如果被告真的無罪,出現這麼多不利證據的機率是多少?」
    • 這個機率就是 p 值 (p-value)
    • 商業情境:如果廣告真的沒效,那業績突然飆升 20% 的機率,是不是低得離譜?
  • Step ③:下判決 —— 推翻無罪 (顯著水準)
    • 如果 p 值 < 0.05 (證據顯示巧合的機率低於 5%)。
    • 我們就敢拒絕無罪 (H0),宣判有罪 (H1,對立假設)
    • 商業情境:機率太低了,不可能是運氣!所以我敢說新廣告「顯著有效」
第一格說明「沒拒絕 H0」僅是證據不足,不代表真愛;第二格以畫小丑妝比喻顯著水準 a 是願意承擔自作多情的「容忍度」;第三格定義 P-value 為自作多情的機率,揭示對方其實沒那麼喜歡你的殘酷現實。
第一格說明「沒拒絕 H0」僅是證據不足,不代表真愛;第二格以畫小丑妝比喻顯著水準 a 是願意承擔自作多情的「容忍度」;第三格定義 P-value 為自作多情的機率,揭示對方其實沒那麼喜歡你的殘酷現實。

⚠️ 判決可能會出錯 (Type I & Type II Error)

法官不是神,判決也可能出錯。我們必須知道自己承擔了什麼風險:
錯誤類型
法庭比喻
商業情境
Type I Error (偽陽性)
冤獄 好人被判有罪。
誤報 廣告其實沒效,你卻以為有效。 👉 後果:浪費預算
Type II Error (偽陰性)
縱放 壞人被判無罪。
漏報 廣告其實有效,你卻沒發現。 👉 後果:錯失賺錢商機

4. 決策檢查點:該派哪位檢察官上場?

📌
轉場思考: 懂了審判邏輯(假設檢定)後,下一個問題是:針對不同的案情(資料型態),該派哪一種工具(檢定方法)來算 p-value?
以戀愛煩惱對應四種統計檢定:1. t-test 比較熱戀期前後訊息速度差異(兩組平均);2. Z-test 判斷「零訊息」是否偏離愛的常態標準;3. 卡方檢定 分析「主動與被動」比例是否異常(類別分析);4. ANOVA 比較「對我 vs 對別人」的態度差異(多組比較)。
以戀愛煩惱對應四種統計檢定:1. t-test 比較熱戀期前後訊息速度差異(兩組平均);2. Z-test 判斷「零訊息」是否偏離愛的常態標準;3. 卡方檢定 分析「主動與被動」比例是否異常(類別分析);4. ANOVA 比較「對我 vs 對別人」的態度差異(多組比較)。
你的案情 (資料情境)
關鍵字
推薦工具 (檢察官)
比較「兩組」平均數
A版網站 vs B版網站
t 檢定 (t-test)
比較「三組以上」平均數
廣告 A vs B vs C
ANOVA (變異數分析)
比較「類別」關聯性
住台北的人 vs 買iPhone的人
卡方檢定 (Chi-square)
大樣本 (>30) 比較平均
全國普查
Z 檢定

第六步:視覺溝通——如何讓老闆一眼看懂數據?

📌
情境兩難:老闆看不懂怎麼辦?
你花了一週跑模型,產出一份精美的 Excel 報表,裡面有 10,000 個數字。
  • 選項 ①:直接把檔案丟給老闆? 👉 他會生氣:「講重點!」
  • 選項 ②:只講結論? 👉 他會懷疑:「你憑什麼這樣說?」
  • 視覺溝通:就是把「複雜數據」翻譯成「直觀圖表」的過程。
敘述性分析(貓看著搗亂現場,問發生什麼事);診斷性分析(偵探貓找原因,問為什麼);預測性分析(法師貓看水晶球,問未來趨勢);規範性分析(商務貓按執行鈕,給出行動建議)。
敘述性分析(貓看著搗亂現場,問發生什麼事);診斷性分析(偵探貓找原因,問為什麼);預測性分析(法師貓看水晶球,問未來趨勢);規範性分析(商務貓按執行鈕,給出行動建議)。

1. 分析類型 (Analytics Types)

  • 敘述性分析 (Descriptive)
    • 說明:總結和描述過去發生的數據情況,回答「發生了什麼?」。
    • 舉例:這款商品上架至今的總銷售量是多少?客戶的平均年齡是多少?
  • 診斷性分析 (Diagnostic)
    • 說明:深入挖掘數據,找出導致特定結果的根本原因,回答「為什麼會發生?」。
    • 舉例:為什麼這個月的 App 活躍用戶下降了 15%? 經過分析後,發現是因為上週的系統更新導致某個核心功能無法使用
  • 預測性分析 (Predictive)
    • 說明:使用統計模型或機器學習來預測未來可能發生的結果,回答「未來可能發生什麼?
    • 舉例:根據過去的數據,預測下個月的新用戶註冊數量會是多少?預測某個客戶流失的機率有多高?
  • 規範性分析 (Prescriptive)
    • 說明:在預測未來的基礎上,進一步建議最佳的行動方案,回答「我們應該怎麼做?」。
    • 舉例:系統建議:「為了最大化點擊率,你應該將這篇廣告在週二早上 10 點發佈,並對特定年齡層用戶投放。」

2. 進階視覺化:高維降維 (Dimensionality Reduction)

當資料特徵太多(例如 100 維)畫不出來時,需要用「降維」把它壓扁成 2D 或 3D。
高維降維方法:t-SNE / UMAP、LDA (線性判別分析)、MDS / Isomap
高維降維方法:t-SNE / UMAP、LDA (線性判別分析)、MDS / Isomap
① t-SNE / UMAP —— 「看群聚」 (非線性)
  • 說明:擅長保留鄰近關係,把相似的資料聚在一起。
  • 舉例:將客戶的上百個行為特徵壓扁,肉眼就能看到自動分成了「小資族」和「大戶」兩群。
② LDA (線性判別分析) —— 「看分類」 (有監督)
  • 說明:目的是讓不同類別分得越開越好
  • 舉例:已知客戶有「流失」跟「留存」,LDA 會想辦法畫出一條線,把這兩群人遠遠分開。
③ MDS / Isomap —— 「看距離」
  • 說明:試圖保持數據點之間的原始距離比例
  • 舉例:把地球儀 (3D) 上的城市壓到地圖 (2D) 上,但盡量保持城市間的相對距離不變。
  • 視覺化工具: Excel、Tableau、Power BI、Python (Matplotlib, Seaborn)
    • 說明:用於創建圖表和儀表板,將數據洞察轉化為易於理解的視覺形式的軟體或函式庫。
    • 舉例:你使用 Tableau 製作一個即時更新的客戶儀表板,隨時監控客戶的行為趨勢。

3. 決策檢查點:圖表該選哪一張?

四種視覺化圖表:長條圖 (Bar Chart)、折線圖 (Line Chart)、散佈圖 (Scatter Plot)、箱型圖 (Boxplot)
四種視覺化圖表:長條圖 (Bar Chart)、折線圖 (Line Chart)、散佈圖 (Scatter Plot)、箱型圖 (Boxplot)
你想展示什麼?
推薦圖表
用途舉例
比較數量大小
長條圖 (Bar)
台北 vs 台中 營收
觀察時間趨勢
折線圖 (Line)
股價走勢、月營收變化
找兩個變數的關係
散佈圖 (Scatter)
年齡 vs 消費力 (有關嗎?)
找異常值 / 看分佈
箱型圖 (Boxplot)
抓出評分特別低的異常產品

第七步:安全紅線——能力越強,責任越大?

📌
情境兩難:便利 vs. 隱私的拔河
你想開發一個「超精準的購物推薦 AI」,需要用戶的購買紀錄、瀏覽習慣、甚至位置資訊。
  • 收集越多 👉 AI 越準,用戶覺得好用。
  • 收集越多 👉 風險越高,用戶覺得被監控(毛骨悚然)。
  • 隱私技術:就是要在「讓 AI 變聰明」與「保護用戶秘密」之間找到平衡點。

1. 隱私原則與法規

  • 隱私原則:
    • 說明:資料收集、儲存、使用必須遵循的倫理與法律規範,確保不濫用個人資訊。
    • 舉例:企業只能收集「完成交易」所需最少的客戶資訊,且不能把客戶電話用於非交易目的的廣告
  • 法規規範:
    • 說明:規範企業如何處理個人資料的法律,違規將面臨巨額罰款。
    • 舉例:GDPR(歐盟)賦予用戶「被遺忘權」;台灣個資法規範企業必須告知客戶資料會被用在哪裡。
數據隱私技術措施:去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning)
數據隱私技術措施:去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning)

2. 隱私保護技術

  • 去識別化/匿名化
    • 說明:移除或修改個人識別資訊 (PII),使資料無法追溯到特定個體。
    • 舉例:你將客戶名單中的「姓名、電話」欄位全部刪除或替換成一個隨機代號,這樣即使資料外洩,也沒人知道是哪個客戶
  • 加密 (Encryption)
    • 說明:將資料轉換成無法讀取的亂碼格式,只有擁有金鑰才能解密。
    • 舉例:你把客戶的重要交易紀錄存到雲端資料庫時,必須對它進行加密保護,這樣即使駭客拿到檔案,看到的也只是一堆亂碼。
  • 差分隱私 (Differential Privacy)
    • 說明:在數據集中故意加入數學雜訊,讓單一資料點被隱藏,但整體統計趨勢不變。
    • 舉例:你問大家是否贊成某個政策,為了保護個人意見,你在每個人的回答中隨機加入一點點「是」或「否」的雜訊,總體統計結果仍準確,但無法確定任何一個人的真實答案。
  • 聯邦學習 (Federated Learning)
    • 說明:將模型訓練的過程分散到多個用戶的本地設備上,只有模型參數(而不是原始數據)會被傳回中心伺服器。
    • 舉例:你手機的輸入法預測不斷學習你的打字習慣,但你的打字內容永遠不會離開你的手機,只會將學習到的「規律」傳回雲端。

結語

從收集資料、清洗髒值、設計特徵,到用統計檢定驗證假設——你會發現,資料科學家的日常,就是一場與混沌對抗的理性修行。
這段旅程教會我們:
  • Garbage In,Garbage Out —— 數據品質決定了 AI 能看見什麼樣的世界
  • 特徵工程是翻譯的藝術 —— 把「日期」變成「是否為聖誕節」,才是真正有意義的訊號
  • 統計是理性的盔甲 —— 用 p-value 與假設檢定武裝自己,不再被直覺或運氣牽著鼻子走
  • 視覺化是溝通的語言 —— 一張圖表勝過千言萬語,再精密的分析也要能讓人秒懂
數據讓我們從混亂的世界裡撥雲見日,假設檢定讓我們更清晰地認識真相——即使有時候,客觀世界的答案並不如我們的意。
當 p-value 低到 0.000001% 時,再多的自我安慰也擋不住冷酷的數據真相。
但也正是這份理性與嚴謹,讓我們在面對不確定性時,依然能夠保持清醒,做出更好的判斷。
這,就是資料科學最珍貴的價值。
為了證明他不愛我,我竟然學會了整套統計學!!
為了證明他不愛我,我竟然學會了整套統計學!!
 
L113︱機器學習全景圖:從演算法圖鑑、訓練優化到 MLOps 維運L111︱AI 人機協作、可解釋性與治理的真實問題
Loading...
目錄
0%
2025-2026閃電煎餃.

煎餃的調味實驗室 | 一顆外皮酥脆、內餡熱騰騰的煎餃,在這裡把生活、技術與靈感通通拿來調味。

Powered byNotionNext 4.9.2.