iPAS AI︱資料分析入門：一次搞懂資料處理、清理、特徵與統計

type

status

date

slug

summary

前言

這篇文章是我在準備「iPAS AI 規劃師初級」時留下的筆記，我按照官方學習指引科目一（L112）的架構將內容重組，並加入了一些圖解與輔助說明，希望能讓準備考試的人可以快速建立架構，也讓第一次接觸 AI 的人能在短時間抓到全貌。

第一步：認識資料的本質與形態

1. 數據的宇宙：大數據 4V 特性

大數據的 4V 特性：數據量（Volume）、速度（Velocity）、多樣性（Variety）、價值（Value）以貓咪插圖呈現。

數量 (Volume)

資料規模龐大。
舉例：全球每天新增數億張照片或影片；單一智慧工廠每分鐘產生數 TB 的感測器數據。

速度 (Velocity)

資料產生與處理速度快。
舉例：Google 地圖或即時導航 App 的路況更新，必須每幾秒鐘就分析數百萬輛汽車的回傳數據；或是短影音平台根據你觀看時間的微小變化，即時推送下一個影片。

多樣性 (Variety)： 包含各種格式。

你的手機每天生成的數據：(1) 聯絡人清單 (結構化) + (2) 你拍的照片/短片 (非結構化) + (3) App 的設定檔或網頁的快取 (半結構化)。

價值 (Value)

數據背後蘊藏的商業價值。
影音串流平台（如 Netflix 或 YouTube）：從數十億次的觀看紀錄中，精準預測你接下來會點擊哪部影片，讓你持續「黏」在平台上，願意續訂。

2. 資料的「長相」：資料型態分類

三隻貓咪用不同方式呈現資料類型：透明盒中代表結構化資料、掛滿標籤代表半結構化資料、從牛奶灘冒出的貓象徵非結構化資料。

結構化資料 (Structured Data)

關聯式資料庫、欄位明確、易於統計（如 SQL, CSV）。
就像銀行存摺或身份證。它的格式是「固定死」的，電腦一掃描就知道哪裡是「姓名」、哪裡是「餘額」。因為欄位規矩，所以計算總數或平均數非常快。

非結構化資料 (Unstructured Data)

影像、文字、語音等，需要 AI 轉換特徵。
就像你家抽屜裡塞滿的舊照片、隨手寫的便條紙或錄音檔。電腦無法直接用 Excel 的方式去計算它們。你需要靠 AI（例如：人臉辨識或語音轉文字）先幫它「看懂」或「聽懂」，把內容轉成數字後才能分析。

半結構化資料 (Semi-structured Data)

JSON、XML、YAML，有欄位但格式不固定。
就像網購的電子訂單。雖然有固定的標籤（例如：訂單編號、收件地址），但裡面的商品細節欄位可以隨時增加或減少（這次買書，下次買電器），比存摺靈活，比抽屜裡的雜物有條理。

第二步：資料處理、清理與異常偵測

1. 資料處理標準流程

💡

步驟：收集 → 清理 → 分析 → 視覺化

2. 資料來源 (Data Sources)

1. 企業內部運營數據 (Internal Operational Data)

企業系統紀錄： 來自公司自己的 ERP、CRM 或銷售系統的交易資料、客戶名單等。

感測器/IoT 訊號： 來自工廠設備、智慧建築或車輛等實體世界的回傳資料。

2. 用戶與外部互動數據 (External Interaction Data)

使用者行為紀錄： 來自網站、App 或遊戲的點擊、瀏覽、購買路徑等數據。

網路平台： 來自各大社群媒體（如 Facebook、X）或電商平台的評論、貼文、流量等資料。

3. 第三方與公開數據 (Third-Party & Public Data)

開放資料集： 由政府或組織公開發布的免費資料，例如天氣、人口統計、地圖資訊等。

網路爬蟲： 透過程式自動從外部網站或網路服務抓取資訊的方法，作為數據來源。

3. 資料清理 (Data Cleaning) 關鍵任務

**一隻濕淋淋的白貓象徵資料清理流程，代表處理缺值、錯值、重複值與雜訊，像清洗髒污一樣讓資料變乾淨。**

四隻貓示範資料問題：缺值像拼圖少一塊、重複值像鏡子中反覆出現、錯誤值像年齡負數、離群值像一隻彩色鸚鵡站在貓群中，用視覺比喻數據品質問題。

缺值處理 (Missing Values)：

說明：處理數據集中缺少值的欄位，避免模型訓練時發生錯誤或偏差。
舉例：客戶名單中，某人沒填「年齡」。你可以選擇刪除此人、用所有人的平均年齡填補、或用迴歸模型預測他可能的年齡來填。

重複值處理 (Duplicates)：

說明：找出並移除完全相同的多筆數據紀錄，確保每筆資訊的唯一性。
舉例：你因為網路問題，重複送出了兩次相同的訂單資料，必須移除其中一筆，否則會讓銷售額看起來膨脹一倍。

錯誤值 (Error/Invalid Value)：

說明：數據中的值不符合合理或邏輯範圍（如年齡為負數、產品價格標為$10$億）。
舉例：客戶註冊時，年齡欄位輸入了 -5，這明顯是個錯誤，必須修正或移除。

異常值 / 離群值（Outlier Value）：

說明：數據點明顯偏離大多數其他數據點，可能是錯誤但也可能代表特殊現象，需謹慎處理。
舉例：你店裡單日銷售額突然飆到平常的十倍。這可能是大單（特殊現象），但也可能是系統計錯了（錯誤），需要用箱型圖或Z-score檢查。

4. 資料異常偵測類型 (Data Anomaly Types)

貓群裡混入大象代表點異常，一群貓集體做怪動作顯示群體異常，客廳裡穿太空衣的貓象徵情境異常。

點異常 (Point Anomaly)：

說明：單一、獨立的資料點與其他大部分數據點顯著不同。
舉例：你的信用卡在國外突然出現一筆高額刷卡，但前後都沒有任何異常交易或登入紀錄，就只有那單獨一筆交易怪怪的。

群體異常 (Collective Anomaly)：

說明：單獨看每個數據點都正常，但以序列或群組方式觀察時，整體模式異常。
舉例：你的健身 App 紀錄顯示，你連續兩週每天凌晨 3:00 準時完成 100 次仰臥起坐。單獨一次仰臥起坐很正常，但這種固定的、非人類作息的連續模式合起來看，就很可疑（可能是 App 故障或被盜用）。

情境異常 (Contextual Anomaly)：

說明：數據點在一般情況下正常，但在特定背景或時間範圍內就變得異常。
舉例：伺服器在凌晨三點流量暴增是異常；但聖誕節當天流量暴增卻是正常的。判斷異常需考慮「情境」。

第三步：數據轉換與特徵工程

這是將原始資料變成 AI 模型「懂的語言」的過程。

1. 資料轉換與整理核心概念

可愛貓咪示範 ETL 流程：從混亂資料抓取原始資訊、在大鍋中清洗轉換格式，最後把整理好的資料放進資料倉儲的新家。

ETL (Extract, Transform, Load)： 傳統資料整合流程。

1️⃣ Extract（提取）： 從資料來源擷取原始數據。
2️⃣ Transform（轉換）： 進行清洗、整合與格式轉換。
3️⃣ Load（加載）： 將處理後的資料載入目標系統（如資料倉儲）。

這張圖說明機器學習前的三大步驟：先把雜亂資料提煉成有意義的特徵，再貼上正確標籤，最後刪除噪音讓模型更聚焦。

特徵工程 (Feature Engineering)：

說明：運用領域知識，從原始數據中創造或轉換出新的、對模型更有判斷力的特徵。
舉例：從原始欄位「出生日期」轉換出新的特徵「客戶年齡」或「是否為本月壽星」，讓預測模型更容易學習。

數據標註 (Data Labeling)：

說明：為輸入資料（圖片、文字等）手動貼上正確的「答案」或「標籤」，以訓練監督式學習模型。
舉例：你把 1000 張攝影作品給 AI 訓練，必須手動告訴 AI 每一張圖是「室內」還是「戶外」攝影，AI 才知道要學什麼。

數據縮減 (Data Reduction)：

說明：減少資料集的規模，例如透過刪除不重要的特徵（特徵選擇）或合併特徵（降維）。
舉例：你的客戶資料有 300 個欄位，但你只挑出年齡、性別、消費總額這 3 個欄位來訓練模型，以加快速度和避免過度複雜。

2. 數值型資料轉換技術

這張圖示範資料前處理方式：用正規化讓不同尺度的數值變得可比較，用離散化把連續數據分群，讓模型更容易理解。

標準化 (Standardization, Z-score)

說明：將數據轉換成平均數為 0、標準差為 1 的分佈，適用於多個特徵尺度差異大的情況。
舉例：就像把所有學生的考試成績換算成 Z 分數，這樣一個考 95 分的學生，無論他的科目的滿分是 100 還是 1000，都能用同一把尺衡量。

正規化 (Normalization, Min-Max scaling)

說明：將所有數據線性縮放到一個固定範圍內，通常是 [0, 1]，適用於要求固定範圍的場景。
舉例：將客戶的所有消費金額都縮放到 0 到 100 之間，讓模型知道「100」是消費最高的，而不是一個巨大的原始金額。

離散化 (Discretization / Binning)

說明：將連續的數值變數劃分成有限的區間或類別。
舉例：將客戶的「年齡」欄位，從連續數字轉換成「青年 (0-30)」、「中年 (31-59)」、「老年 (60+)」這三個離散的類別。

💡

標準化就像氣象局說：「今天比歷史平均溫度熱 3 度。」

它只關心你比平均數 (0) 多出或少多少，不設上下限。

正規化就像你手機螢幕上的亮度條：「亮度從 0% 調到 100%。」

它強制把你的數據塞進 0 到 100% 的固定範圍內，讓它們有明確的邊界。

3. 類別資料編碼 (Categorical Encoding)

將非數值類別特徵轉換成數值格式：

示範類別資料編碼差異的圖表，包含顏色的 One-hot Encoding 轉換向量，以及尺寸由小到大的 Label Encoding 順序編碼。

One-hot encoding

說明：將一個類別特徵轉換成多個二元 (0 或 1) 特徵，避免模型誤判類別間有數量關係。
舉例：想像你要告訴 AI 一件衣服的顏色（紅、黃、藍）。我們將「紅」轉成三個獨立的投票：紅=1, 黃=0, 藍=0。這樣 AI 就只知道「紅色的票開了」，不會誤以為「藍色 (3)」比「紅色 (1)」更好或更大。

Label encoding

說明：將類別特徵轉換成連續的整數數值，通常適用於類別本身具有順序關係（如：大、中、小）。
舉例：想像你要告訴 AI 一個包裹的尺寸（小、中、大）。我們直接編碼成 小=0, 中=1, 大=2。這樣 AI 看到「2」時，就知道它比「0」或「1」大，完美保留了尺寸的順序關係。

第四步：資料儲存與治理架構

資料儲存的四種方式：資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh) — 資料儲存的四種方式：**資料倉儲 (Data Warehouse)、資料湖 (Data Lake)、數據中台 (Data Middle Platform)、數據網格 (Data Mesh)**

1. 資料儲存與管理架構

資料倉儲 (Data Warehouse)

說明：集中式的儲存庫，用於儲存經過清理和結構化的歷史資料，主要目的在於分析和報表。
舉例：公司所有過去十年的財務報表和銷售數據，都整理得乾乾淨淨、有規有矩地放在這裡。

資料湖 (Data Lake)

說明：儲存所有原始、未經處理的結構化與非結構化數據，具有高度靈活性，適合 AI 訓練。
舉例：你把所有未剪輯的原始影片素材、客戶的語音留言、網站點擊日誌等，一股腦地丟進這個大湖裡，等需要時再撈出來處理。

數據中台 (Data Middle Platform)

說明：建構一個共享的數據服務層，將底層數據標準化，讓各業務部門能快速調用。
舉例：就像建立一個中央廚房，底層數據是食材，中台把食材處理成標準化的半成品，各部門（行銷、業務）可以直接拿去用，不必每次都從頭處理食材。

數據網格 (Data Mesh)

說明：去中心化的數據架構，將數據所有權和管理責任分散給各業務領域團隊，將數據視為一種「產品」。
舉例：行銷部門自己管行銷數據、財務部門自己管財務數據，各部門像獨立的數據小商店，提供標準化的數據產品給其他部門使用。

資料融合 (Data Integration)

說明：將來自不同來源、格式各異的資料合併、協調一致，形成一個統一的視角。
舉例：將你的攝影作品清單（存在 Excel）、客戶聯絡資料（存在 CRM）、和客戶在社群上的留言（存在社群平台），全部統合成一個完整的客戶畫像。

向量資料庫 (Vector Database)

說明：專門用來儲存和快速檢索高維向量（AI 模型將文字、圖片轉換的數組），是語意搜尋的關鍵。
舉例：你問 AI 機器人一個問題，機器人會把問題轉成一組向量，然後在向量資料庫裡**瞬間找到語意最相近的「知識點」**來回答你。

2. 資料管理與治理 (Governance)

四組貓咪示意圖展示數據治理流程：主資料管理、數據目錄、數據編排與資料庫索引優化。

主資料管理 (MDM)

管理企業內最關鍵的數據（如客戶、產品、供應商），確保它們在所有系統中都是唯一、準確、一致的。

數據目錄 (Data Catalog)

一個組織內所有數據的「圖書館目錄」，記錄了資料在哪裡、誰擁有、包含什麼內容（元數據）。

數據編排 (Data Orchestration)

自動化、監控和協調多個複雜的資料處理步驟（Pipeline），確保它們按照正確的順序執行。

資料庫索引優化

說明：在資料庫的欄位上建立索引，就像書本的目錄一樣，可以大幅加快查詢（讀取）的速度。

第五步：數據統計與推論概念

這是理解數據特徵和 AI 模型評估的數學語言。

貓貓描述三種集中趨勢 (Central Tendency)：平均數 (Mean)、中位數 (Median)、眾數 (Mode) — 貓貓描述三種集中趨勢 (Central Tendency)：**平均數 (Mean)、中位數 (Median)、眾數 (Mode)**

1. 集中趨勢 (Central Tendency)

平均數 (Mean)

說明：所有數據加總後除以資料個數，計算簡單、概念直觀，適合用來表示整體情況。
缺點：極易受極端值（Outliers）影響，失去代表性。
舉例：你這間來客的「平均消費金額」，最能直觀告訴你客群的消費能力。

中位數 (Median)

說明：將數據排序後，位於最中間的那個數值，特別適用於有極端值（異常值）的情況。
舉例：當你的薪資清單中突然出現一個年薪千萬的高管時，平均數會被拉高，此時中位數更能代表公司「一般」員工的薪資水準

眾數 (Mode)

說明：數據集中出現頻率最高的數值或類別。
舉例：在所有購買你產品的客戶中，最常出現的「居住城市」（例如：新北市），就是眾數。

貓貓描述離散程度 (Dispersion)：全距 (Range)、四分位距 (IQR)、變異數 (Variance) / 標準差 (Standard Deviation) — 貓貓描述離散程度 (Dispersion)：**全距 (Range)、四分位距 (IQR)、變異數 (Variance) / 標準差 (Standard Deviation)**

2. 離散程度 (Dispersion)

全距 (Range)

說明：數據集中最大值減去最小值，衡量數據分佈的總跨度。
舉例：這款產品最高和最低的月銷售量之間的差距。

四分位距 (IQR)

說明：衡量數據中間 50% 範圍的分散程度，不受極端值影響，常用於定義箱型圖的異常值。
舉例：把所有交易金額按高低分成四等份，中間 50% 的交易，它們之間的差距有多大。

變異數 (Variance) / 標準差 (Standard Deviation)

說明：衡量所有數據點與平均數之間的平均距離（分散程度），標準差更直觀。
舉例：這間店的每日客流量是否穩定。標準差小，代表每天來的客人數差不多；標準差大，代表客流量起伏不定（假日爆滿，平日冷清）。

3. 統計推論與假設檢定

假設檢定 (Hypothesis Testing)

說明：一種統計方法，用於判斷從樣本中得到的證據是否足夠強大，足以拒絕一個預先設定的「虛無假設」（無效假設）。
舉例：你假設「新的廣告詞對銷售量沒有影響」（虛無假設），然後跑實驗去驗證你的新廣告詞是否真的有效。

顯著水準 α / Type I Error

說明：在虛無假設為真時，你卻錯誤地拒絕它的機率，即「誤報」的風險上限。常見值為 0.05（5%）。
舉例：你錯判新廣告詞「有效」，但實際上它根本沒用（把沒問題的當成有問題），你願意承擔這個錯誤判斷的機率。

檢定力 (Power) / Type II Error

說明：檢定力是正確地拒絕錯誤虛無假設的機率；Type II Error（β 錯誤）是錯誤地未拒絕虛無假設的機率（漏報）。
舉例：新廣告詞「真的有效」，但你卻判斷它「無效」而錯失機會（漏掉真正有效的），這是你最不想犯的錯誤。

p 值 (p-value)

說明：在虛無假設成立的前提下，觀察到目前樣本結果（或更極端結果）的機率。若 p < α，則拒絕虛無假設。
舉例：如果 p 值很小，例如 p=0.01，代表「假設新廣告詞無效」的條件下，你看到現在這個「廣告詞有效的結果」的機率只有 1%，因此你應該拒絕這個「新廣告詞無效」的假設。

4. 常用統計檢定類型

貓貓使用t 檢定 (t-test)、Z 檢定 (Z-test)、卡方檢定 (Chi-square test)、ANOVA (變異數分析) — 貓貓使用**t 檢定 (t-test)、Z 檢定 (Z-test)、卡方檢定 (Chi-square test)、ANOVA (變異數分析)**

t 檢定 (t-test)

說明：用於比較兩個群體的平均數之間是否有顯著差異，適用於小樣本或母體標準差未知時。
舉例：比較使用舊網站版本的客戶平均停留時間，與使用新網站版本的客戶平均停留時間是否有差異。

Z 檢定 (Z-test)

說明：用於檢定平均數差異，通常適用於大樣本 ($n>30$) 或母體標準差已知時。
舉例：你對數十萬名客戶進行大規模調查，想知道這次的滿意度分數是否顯著高於歷史平均。

卡方檢定 (Chi-square test)

說明：用於檢定兩個或多個類別變數之間是否相互獨立（不相關）。
舉例：檢定「客戶居住的城市」（類別）和「是否購買某項產品」（類別）這兩個變數之間是否有關聯。

ANOVA (變異數分析)

說明：用於同時比較三組或三組以上群體的平均數是否有顯著差異。
舉例：比較你三個不同的廣告活動（A組、B組、C組），它們所帶來的平均點擊率是否有顯著不同。

5. 分布與抽樣

常態分佈 (Normal Distribution)

說明：一種最常見的機率分佈，分佈圖形呈現左右對稱的鐘形。
舉例：大多數人的身高、智商、考試成績等，都會呈現這種分佈：中間最多，兩邊很少。

偏態分佈 (Skewness Distribution)

說明：衡量數據分佈左右不對稱的程度。正偏（右偏）代表尾巴在右邊，負偏（左偏）代表尾巴在左邊。
舉例：如果你公司的產品價格分佈是右偏，代表大部分產品的價格都較低，但極少數高階產品價格非常高（尾巴被高價產品拉長）。

峰度 (Kurtosis)

說明：衡量數據分佈的集中程度和尾部厚度（極端值多寡）。高峰度代表數據集中，且尾部厚。
舉例：這款遊戲的玩家在線時間非常集中在某個數字（例如 2 小時），但偶爾會有玩非常久的核心玩家（尾部厚）。

抽樣與母體 (Sample & Population)

說明：母體 (Population) 是所有研究對象的總和；樣本 (Sample) 是從母體中選取出來進行實際測量的一小部分。
舉例：台灣所有大學生是母體，但你只訪問了其中 100 位學生，這 100 位就是樣本。

抽樣誤差 (Sampling Error)：

說明：由於只觀察樣本而不是整個母體，導致樣本統計結果與真實母體參數之間的差異。
舉例：你調查的 100 位顧客平均滿意度是 8 分，但實際上所有顧客的平均滿意度是 7.5 分，這個 0.5 的差距就是抽樣誤差。

第六步：分析類型與視覺化

四種資料分析的類型 (Analytics Types)：敘述性分析 (Descriptive)、診斷性分析 (Diagnostic)、規範性分析 (Prescriptive) — 四種資料分析的類型 (Analytics Types)：**敘述性分析 (Descriptive)、診斷性分析 (Diagnostic)、規範性分析 (Prescriptive)**

1. 分析類型 (Analytics Types)

敘述性分析 (Descriptive)

說明：總結和描述過去發生的數據情況，回答「發生了什麼？」。
舉例：這款商品上架至今的總銷售量是多少？；客戶的平均年齡是多少？

診斷性分析 (Diagnostic)

說明：深入挖掘數據，找出導致特定結果的根本原因，回答「為什麼會發生？」。
舉例：為什麼這個月的 App 活躍用戶下降了 15%？ 經過分析後，發現是因為上週的系統更新導致某個核心功能無法使用。

預測性分析 (Predictive)

說明：使用統計模型或機器學習來預測未來可能發生的結果，回答「未來可能發生什麼？」
舉例：根據過去的數據，預測下個月的新用戶註冊數量會是多少？預測某個客戶流失的機率有多高？

規範性分析 (Prescriptive)

說明：在預測未來的基礎上，進一步建議最佳的行動方案，回答「我們應該怎麼做？」。
舉例：系統建議：「為了最大化點擊率，你應該將這篇廣告在週二早上 10 點發佈，並對特定年齡層用戶投放。」

2. 資料視覺化與降維

四種視覺化圖表：長條圖 (Bar Chart)、折線圖 (Line Chart)、散佈圖 (Scatter Plot)、箱型圖 (Boxplot)

圖表：

長條圖 (Bar Chart)

說明：用於比較不同類別的數量、頻率或比例。
舉例：比較「台北、台中、台南」三個地區的銷售總額。

折線圖 (Line Chart)

說明：用於顯示數據隨時間或其他連續變數的變化趨勢。
舉例：顯示你公司過去一年的每月營收變化趨勢。

散佈圖 (Scatter Plot)

說明：用於顯示兩個數值變數之間的關係、相關性或分佈。
舉例：觀察「客戶年齡」和「平均消費金額」之間是否有關係。

箱型圖 (Boxplot)

說明：以四分位數顯示數據的分佈、集中趨勢、離散程度和離群值。
舉例：用它來快速檢查所有產品的評論星級，是否有特別高或特別低的異常評論。

**高維降維方法：t-SNE / UMAP、LDA (線性判別分析)、MDS / Isomap**

高維降維方法 (用於視覺化)

t-SNE / UMAP

說明：非線性降維技術，能將高維數據降到 2D 或 3D 進行視覺化，尤其擅長保留鄰近關係，看群聚分布。
舉例：將客戶的上百個行為特徵降維成 2D 圖表，這樣你就可以直接用肉眼看到客戶被 AI 分成了「高價位買家」和「折扣追逐者」兩群。

LDA (線性判別分析)

說明：有監督式的降維方法，目的是最大化不同類別之間的距離，以利於分類。
舉例：你已經知道客戶分成了「會流失」和「不會流失」兩類，用 LDA 降維是為了讓這兩類客戶在圖上分得越開越好。

MDS / Isomap

說明：降維方法，試圖在低維度空間中保持數據點之間的距離關係。
舉例：將一組地理距離資料降維到 2D 平面，保持城市與城市之間原始的距離比例。

視覺化工具： Excel、Tableau、Power BI、Python (Matplotlib, Seaborn)

說明：用於創建圖表和儀表板，將數據洞察轉化為易於理解的視覺形式的軟體或函式庫。
舉例：你使用 Tableau 製作一個即時更新的客戶儀表板，隨時監控客戶的行為趨勢。

第七步：資料隱私與安全底線

1. 隱私保護與法規

隱私原則：

說明：資料收集、儲存、使用必須遵循的倫理與法律規範，確保不濫用個人資訊。
舉例：企業只能收集「完成交易」所需最少的客戶資訊，且不能把客戶電話用於非交易目的的廣告。

國際法規：

說明：規範企業如何處理個人資料的法律，違規將面臨巨額罰款。
舉例：GDPR（歐盟）賦予用戶「被遺忘權」；台灣個資法規範企業必須告知客戶資料會被用在哪裡。

數據隱私技術措施：去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning) — 數據隱私技術措施：**去識別化/匿名化、加密 (Encryption)、差分隱私 (Differential Privacy)、聯邦學習 (Federated Learning)**

2. 數據隱私技術措施

去識別化/匿名化

說明：移除或修改個人識別資訊 (PII)，使資料無法追溯到特定個體。
舉例：你將客戶名單中的「姓名、電話」欄位全部刪除或替換成一個隨機代號，這樣即使資料外洩，也沒人知道是哪個客戶。

加密 (Encryption)

說明：將資料轉換成無法讀取的亂碼格式，只有擁有金鑰才能解密。
舉例：你把客戶的重要交易紀錄存到雲端資料庫時，必須對它進行加密保護，這樣即使駭客拿到檔案，看到的也只是一堆亂碼。

差分隱私 (Differential Privacy)

說明：在數據集中故意加入數學雜訊，讓單一資料點被隱藏，但整體統計趨勢不變。
舉例：你問大家是否贊成某個政策，為了保護個人意見，你在每個人的回答中隨機加入一點點「是」或「否」的雜訊，總體統計結果仍準確，但無法確定任何一個人的真實答案。

聯邦學習 (Federated Learning)

說明：將模型訓練的過程分散到多個用戶的本地設備上，只有模型參數（而不是原始數據）會被傳回中心伺服器。
舉例：你手機的輸入法預測不斷學習你的打字習慣，但你的打字內容永遠不會離開你的手機，只會將學習到的「規律」傳回雲端。