type
status
date
slug
summary
tags
category
icon
password
前言
這篇文章是我在準備「iPAS AI 規劃師初級」時留下的筆記,我按照官方學習指引科目一(L112)的架構將內容重組,並加入了一些圖解與輔助說明,希望能讓準備考試的人可以快速建立架構,也讓第一次接觸 AI 的人能在短時間抓到全貌。
第一步:認識資料的本質與形態
1. 數據的宇宙:大數據 4V 特性

- 數量 (Volume)
- 資料規模龐大。
- 舉例:全球每天新增數億張照片或影片;單一智慧工廠每分鐘產生數 TB 的感測器數據。
- 速度 (Velocity)
- 資料產生與處理速度快。
- 舉例:Google 地圖或即時導航 App 的路況更新,必須每幾秒鐘就分析數百萬輛汽車的回傳數據;或是短影音平台根據你觀看時間的微小變化,即時推送下一個影片。
- 多樣性 (Variety): 包含各種格式。
- 你的手機每天生成的數據:(1) 聯絡人清單 (結構化) + (2) 你拍的照片/短片 (非結構化) + (3) App 的設定檔或網頁的快取 (半結構化)。
- 價值 (Value)
- 數據背後蘊藏的商業價值。
- 影音串流平台(如 Netflix 或 YouTube):從數十億次的觀看紀錄中,精準預測你接下來會點擊哪部影片,讓你持續「黏」在平台上,願意續訂。
2. 資料的「長相」:資料型態分類

- 結構化資料 (Structured Data)
- 關聯式資料庫、欄位明確、易於統計(如 SQL, CSV)。
- 就像銀行存摺或身份證。它的格式是「固定死」的,電腦一掃描就知道哪裡是「姓名」、哪裡是「餘額」。因為欄位規矩,所以計算總數或平均數非常快。
- 非結構化資料 (Unstructured Data)
- 影像、文字、語音等,需要 AI 轉換特徵。
- 就像你家抽屜裡塞滿的舊照片、隨手寫的便條紙或錄音檔。電腦無法直接用 Excel 的方式去計算它們。你需要靠 AI(例如:人臉辨識或語音轉文字)先幫它「看懂」或「聽懂」,把內容轉成數字後才能分析。
- 半結構化資料 (Semi-structured Data)
- JSON、XML、YAML,有欄位但格式不固定。
- 就像網購的電子訂單。雖然有固定的標籤(例如:
訂單編號、收件地址),但裡面的商品細節欄位可以隨時增加或減少(這次買書,下次買電器),比存摺靈活,比抽屜裡的雜物有條理。
第二步:資料處理、清理與異常偵測
1. 資料處理標準流程
步驟: 收集 → 清理 → 分析 → 視覺化

2. 資料來源 (Data Sources)

1. 企業內部運營數據 (Internal Operational Data)
- 企業系統紀錄: 來自公司自己的 ERP、CRM 或銷售系統的交易資料、客戶名單等。
- 感測器/IoT 訊號: 來自工廠設備、智慧建築或車輛等實體世界的回傳資料。
2. 用戶與外部互動數據 (External Interaction Data)
- 使用者行為紀錄: 來自網站、App 或遊戲的點擊、瀏覽、購買路徑等數據。
- 網路平台: 來自各大社群媒體(如 Facebook、X)或電商平台的評論、貼文、流量等資料。
3. 第三方與公開數據 (Third-Party & Public Data)
- 開放資料集: 由政府或組織公開發布的免費資料,例如天氣、人口統計、地圖資訊等。
- 網路爬蟲: 透過程式自動從外部網站或網路服務抓取資訊的方法,作為數據來源。
3. 資料清理 (Data Cleaning) 關鍵任務


- 缺值處理 (Missing Values):
- 說明:處理數據集中缺少值的欄位,避免模型訓練時發生錯誤或偏差。
- 舉例:客戶名單中,某人沒填「年齡」。你可以選擇刪除此人、用所有人的平均年齡填補、或用迴歸模型預測他可能的年齡來填。
- 重複值處理 (Duplicates):
- 說明:找出並移除完全相同的多筆數據紀錄,確保每筆資訊的唯一性。
- 舉例:你因為網路問題,重複送出了兩次相同的訂單資料,必須移除其中一筆,否則會讓銷售額看起來膨脹一倍。
- 錯誤值 (Error/Invalid Value):
- 說明:數據中的值不符合合理或邏輯範圍(如年齡為負數、產品價格標為$10$億)。
- 舉例:客戶註冊時,年齡欄位輸入了 -5,這明顯是個錯誤,必須修正或移除。
- 異常值 / 離群值(Outlier Value):
- 說明:數據點明顯偏離大多數其他數據點,可能是錯誤但也可能代表特殊現象,需謹慎處理。
- 舉例:你店裡單日銷售額突然飆到平常的十倍。這可能是大單(特殊現象),但也可能是系統計錯了(錯誤),需要用箱型圖或Z-score檢查。
4. 資料異常偵測類型 (Data Anomaly Types)

- 點異常 (Point Anomaly):
- 說明:單一、獨立的資料點與其他大部分數據點顯著不同。
- 舉例:你的信用卡在國外突然出現一筆高額刷卡,但前後都沒有任何異常交易或登入紀錄,就只有那單獨一筆交易怪怪的。
- 群體異常 (Collective Anomaly):
- 說明:單獨看每個數據點都正常,但以序列或群組方式觀察時,整體模式異常。
- 舉例:你的健身 App 紀錄顯示,你連續兩週每天凌晨 3:00 準時完成 100 次仰臥起坐。單獨一次仰臥起坐很正常,但這種固定的、非人類作息的連續模式合起來看,就很可疑(可能是 App 故障或被盜用)。
- 情境異常 (Contextual Anomaly):
- 說明:數據點在一般情況下正常,但在特定背景或時間範圍內就變得異常。
- 舉例:伺服器在凌晨三點流量暴增是異常;但聖誕節當天流量暴增卻是正常的。判斷異常需考慮「情境」。
第三步:數據轉換與特徵工程
這是將原始資料變成 AI 模型「懂的語言」的過程。
1. 資料轉換與整理核心概念

- ETL (Extract, Transform, Load): 傳統資料整合流程。
- 1️⃣ Extract(提取): 從資料來源擷取原始數據。
- 2️⃣ Transform(轉換): 進行清洗、整合與格式轉換。
- 3️⃣ Load(加載): 將處理後的資料載入目標系統(如資料倉儲)。

- 特徵工程 (Feature Engineering):
- 說明:運用領域知識,從原始數據中創造或轉換出新的、對模型更有判斷力的特徵。
- 舉例:從原始欄位「出生日期」轉換出新的特徵「客戶年齡」或「是否為本月壽星」,讓預測模型更容易學習。
- 數據標註 (Data Labeling):
- 說明:為輸入資料(圖片、文字等)手動貼上正確的「答案」或「標籤」,以訓練監督式學習模型。
- 舉例:你把 1000 張攝影作品給 AI 訓練,必須手動告訴 AI 每一張圖是「室內」還是「戶外」攝影,AI 才知道要學什麼。
- 數據縮減 (Data Reduction):
- 說明:減少資料集的規模,例如透過刪除不重要的特徵(特徵選擇)或合併特徵(降維)。
- 舉例:你的客戶資料有 300 個欄位,但你只挑出年齡、性別、消費總額這 3 個欄位來訓練模型,以加快速度和避免過度複雜。
2. 數值型資料轉換技術

- 標準化 (Standardization, Z-score)
- 說明:將數據轉換成平均數為 0、標準差為 1 的分佈,適用於多個特徵尺度差異大的情況。
- 舉例:就像把所有學生的考試成績換算成 Z 分數,這樣一個考 95 分的學生,無論他的科目的滿分是 100 還是 1000,都能用同一把尺衡量。
- 正規化 (Normalization, Min-Max scaling)
- 說明:將所有數據線性縮放到一個固定範圍內,通常是 [0, 1],適用於要求固定範圍的場景。
- 舉例:將客戶的所有消費金額都縮放到 0 到 100 之間,讓模型知道「100」是消費最高的,而不是一個巨大的原始金額。
- 離散化 (Discretization / Binning)
- 說明:將連續的數值變數劃分成有限的區間或類別。
- 舉例:將客戶的「年齡」欄位,從連續數字轉換成「青年 (0-30)」、「中年 (31-59)」、「老年 (60+)」這三個離散的類別。
標準化就像氣象局說:「今天比歷史平均溫度熱 3 度。」
- 它只關心你比平均數 (0) 多出或少多少,不設上下限。
正規化就像你手機螢幕上的亮度條:「亮度從 0% 調到 100%。」
- 它強制把你的數據塞進 0 到 100% 的固定範圍內,讓它們有明確的邊界。
3. 類別資料編碼 (Categorical Encoding)
將非數值類別特徵轉換成數值格式:

- One-hot encoding
- 說明:將一個類別特徵轉換成多個二元 (0 或 1) 特徵,避免模型誤判類別間有數量關係。
- 舉例:想像你要告訴 AI 一件衣服的顏色(紅、黃、藍)。我們將「紅」轉成三個獨立的投票:
紅=1, 黃=0, 藍=0。這樣 AI 就只知道「紅色的票開了」,不會誤以為「藍色 (3)」比「紅色 (1)」更好或更大。
- Label encoding
- 說明:將類別特徵轉換成連續的整數數值,通常適用於類別本身具有順序關係(如:大、中、小)。
- 舉例:想像你要告訴 AI 一個包裹的尺寸(小、中、大)。我們直接編碼成 小=0, 中=1, 大=2。這樣 AI 看到「2」時,就知道它比「0」或「1」大,完美保留了尺寸的順序關係。
第四步:資料儲存與治理架構

1. 資料儲存與管理架構
- 資料倉儲 (Data Warehouse)
- 說明:集中式的儲存庫,用於儲存經過清理和結構化的歷史資料,主要目的在於分析和報表。
- 舉例:公司所有過去十年的財務報表和銷售數據,都整理得乾乾淨淨、有規有矩地放在這裡。
- 資料湖 (Data Lake)
- 說明:儲存所有原始、未經處理的結構化與非結構化數據,具有高度靈活性,適合 AI 訓練。
- 舉例:你把所有未剪輯的原始影片素材、客戶的語音留言、網站點擊日誌等,一股腦地丟進這個大湖裡,等需要時再撈出來處理。
- 數據中台 (Data Middle Platform)
- 說明:建構一個共享的數據服務層,將底層數據標準化,讓各業務部門能快速調用。
- 舉例:就像建立一個中央廚房,底層數據是食材,中台把食材處理成標準化的半成品,各部門(行銷、業務)可以直接拿去用,不必每次都從頭處理食材。
- 數據網格 (Data Mesh)
- 說明:去中心化的數據架構,將數據所有權和管理責任分散給各業務領域團隊,將數據視為一種「產品」。
- 舉例:行銷部門自己管行銷數據、財務部門自己管財務數據,各部門像獨立的數據小商店,提供標準化的數據產品給其他部門使用。
- 資料融合 (Data Integration)
- 說明:將來自不同來源、格式各異的資料合併、協調一致,形成一個統一的視角。
- 舉例:將你的攝影作品清單(存在 Excel)、客戶聯絡資料(存在 CRM)、和客戶在社群上的留言(存在社群平台),全部統合成一個完整的客戶畫像。
- 向量資料庫 (Vector Database)
- 說明:專門用來儲存和快速檢索高維向量(AI 模型將文字、圖片轉換的數組),是語意搜尋的關鍵。
- 舉例:你問 AI 機器人一個問題,機器人會把問題轉成一組向量,然後在向量資料庫裡**瞬間找到語意最相近的「知識點」**來回答你。
2. 資料管理與治理 (Governance)

- 主資料管理 (MDM)
- 管理企業內最關鍵的數據(如客戶、產品、供應商),確保它們在所有系統中都是唯一、準確、一致的。
- 數據目錄 (Data Catalog)
- 一個組織內所有數據的「圖書館目錄」,記錄了資料在哪裡、誰擁有、包含什麼內容(元數據)。
- 數據編排 (Data Orchestration)
- 自動化、監控和協調多個複雜的資料處理步驟(Pipeline),確保它們按照正確的順序執行。
- 資料庫索引優化
- 說明:在資料庫的欄位上建立索引,就像書本的目錄一樣,可以大幅加快查詢(讀取)的速度。
第五步:數據統計與推論概念
這是理解數據特徵和 AI 模型評估的數學語言。

1. 集中趨勢 (Central Tendency)
- 平均數 (Mean)
- 說明:所有數據加總後除以資料個數,計算簡單、概念直觀,適合用來表示整體情況。
- 缺點:極易受極端值(Outliers)影響,失去代表性。
- 舉例:你這間來客的「平均消費金額」,最能直觀告訴你客群的消費能力。
- 中位數 (Median)
- 說明:將數據排序後,位於最中間的那個數值,特別適用於有極端值(異常值)的情況。
- 舉例:當你的薪資清單中突然出現一個年薪千萬的高管時,平均數會被拉高,此時中位數更能代表公司「一般」員工的薪資水準
- 眾數 (Mode)
- 說明:數據集中出現頻率最高的數值或類別。
- 舉例:在所有購買你產品的客戶中,最常出現的「居住城市」(例如:新北市),就是眾數。

2. 離散程度 (Dispersion)
- 全距 (Range)
- 說明:數據集中最大值減去最小值,衡量數據分佈的總跨度。
- 舉例:這款產品最高和最低的月銷售量之間的差距。
- 四分位距 (IQR)
- 說明:衡量數據中間 50% 範圍的分散程度,不受極端值影響,常用於定義箱型圖的異常值。
- 舉例:把所有交易金額按高低分成四等份,中間 50% 的交易,它們之間的差距有多大。
- 變異數 (Variance) / 標準差 (Standard Deviation)
- 說明:衡量所有數據點與平均數之間的平均距離(分散程度),標準差更直觀。
- 舉例:這間店的每日客流量是否穩定。標準差小,代表每天來的客人數差不多;標準差大,代表客流量起伏不定(假日爆滿,平日冷清)。
3. 統計推論與假設檢定

- 假設檢定 (Hypothesis Testing)
- 說明:一種統計方法,用於判斷從樣本中得到的證據是否足夠強大,足以拒絕一個預先設定的「虛無假設」(無效假設)。
- 舉例:你假設「新的廣告詞對銷售量沒有影響」(虛無假設),然後跑實驗去驗證你的新廣告詞是否真的有效。
- 顯著水準 α / Type I Error
- 說明:在虛無假設為真時,你卻錯誤地拒絕它的機率,即「誤報」的風險上限。常見值為 0.05(5%)。
- 舉例:你錯判新廣告詞「有效」,但實際上它根本沒用(把沒問題的當成有問題),你願意承擔這個錯誤判斷的機率。
- 檢定力 (Power) / Type II Error
- 說明:檢定力是正確地拒絕錯誤虛無假設的機率;Type II Error(β 錯誤)是錯誤地未拒絕虛無假設的機率(漏報)。
- 舉例:新廣告詞「真的有效」,但你卻判斷它「無效」而錯失機會(漏掉真正有效的),這是你最不想犯的錯誤。
- p 值 (p-value)
- 說明:在虛無假設成立的前提下,觀察到目前樣本結果(或更極端結果)的機率。若 p < α,則拒絕虛無假設。
- 舉例:如果 p 值很小,例如 p=0.01,代表「假設新廣告詞無效」的條件下,你看到現在這個「廣告詞有效的結果」的機率只有 1%,因此你應該拒絕這個「新廣告詞無效」的假設。
4. 常用統計檢定類型

- t 檢定 (t-test)
- 說明:用於比較兩個群體的平均數之間是否有顯著差異,適用於小樣本或母體標準差未知時。
- 舉例:比較使用舊網站版本的客戶平均停留時間,與使用新網站版本的客戶平均停留時間是否有差異。
- Z 檢定 (Z-test)
- 說明:用於檢定平均數差異,通常適用於大樣本 ($n>30$) 或母體標準差已知時。
- 舉例:你對數十萬名客戶進行大規模調查,想知道這次的滿意度分數是否顯著高於歷史平均。
- 卡方檢定 (Chi-square test)
- 說明:用於檢定兩個或多個類別變數之間是否相互獨立(不相關)。
- 舉例:檢定「客戶居住的城市」(類別)和「是否購買某項產品」(類別)這兩個變數之間是否有關聯。
- ANOVA (變異數分析)
- 說明:用於同時比較三組或三組以上群體的平均數是否有顯著差異。
- 舉例:比較你三個不同的廣告活動(A組、B組、C組),它們所帶來的平均點擊率是否有顯著不同。
5. 分布與抽樣


- 常態分佈 (Normal Distribution)
- 說明:一種最常見的機率分佈,分佈圖形呈現左右對稱的鐘形。
- 舉例:大多數人的身高、智商、考試成績等,都會呈現這種分佈:中間最多,兩邊很少。
- 偏態分佈 (Skewness Distribution)
- 說明:衡量數據分佈左右不對稱的程度。正偏(右偏)代表尾巴在右邊,負偏(左偏)代表尾巴在左邊。
- 舉例:如果你公司的產品價格分佈是右偏,代表大部分產品的價格都較低,但極少數高階產品價格非常高(尾巴被高價產品拉長)。
- 峰度 (Kurtosis)
- 說明:衡量數據分佈的集中程度和尾部厚度(極端值多寡)。高峰度代表數據集中,且尾部厚。
- 舉例:這款遊戲的玩家在線時間非常集中在某個數字(例如 2 小時),但偶爾會有玩非常久的核心玩家(尾部厚)。
- 抽樣與母體 (Sample & Population)
- 說明:母體 (Population) 是所有研究對象的總和;樣本 (Sample) 是從母體中選取出來進行實際測量的一小部分。
- 舉例:台灣所有大學生是母體,但你只訪問了其中 100 位學生,這 100 位就是樣本。
- 抽樣誤差 (Sampling Error):
- 說明:由於只觀察樣本而不是整個母體,導致樣本統計結果與真實母體參數之間的差異。
- 舉例:你調查的 100 位顧客平均滿意度是 8 分,但實際上所有顧客的平均滿意度是 7.5 分,這個 0.5 的差距就是抽樣誤差。
第六步:分析類型與視覺化

1. 分析類型 (Analytics Types)
- 敘述性分析 (Descriptive)
- 說明:總結和描述過去發生的數據情況,回答「發生了什麼?」。
- 舉例:這款商品上架至今的總銷售量是多少?;客戶的平均年齡是多少?
- 診斷性分析 (Diagnostic)
- 說明:深入挖掘數據,找出導致特定結果的根本原因,回答「為什麼會發生?」。
- 舉例:為什麼這個月的 App 活躍用戶下降了 15%? 經過分析後,發現是因為上週的系統更新導致某個核心功能無法使用。
- 預測性分析 (Predictive)
- 說明:使用統計模型或機器學習來預測未來可能發生的結果,回答「未來可能發生什麼?」
- 舉例:根據過去的數據,預測下個月的新用戶註冊數量會是多少?預測某個客戶流失的機率有多高?
- 規範性分析 (Prescriptive)
- 說明:在預測未來的基礎上,進一步建議最佳的行動方案,回答「我們應該怎麼做?」。
- 舉例:系統建議:「為了最大化點擊率,你應該將這篇廣告在週二早上 10 點發佈,並對特定年齡層用戶投放。」
2. 資料視覺化與降維

- 圖表:
- 長條圖 (Bar Chart)
- 說明:用於比較不同類別的數量、頻率或比例。
- 舉例:比較「台北、台中、台南」三個地區的銷售總額。
- 折線圖 (Line Chart)
- 說明:用於顯示數據隨時間或其他連續變數的變化趨勢。
- 舉例:顯示你公司過去一年的每月營收變化趨勢。
- 散佈圖 (Scatter Plot)
- 說明:用於顯示兩個數值變數之間的關係、相關性或分佈。
- 舉例:觀察「客戶年齡」和「平均消費金額」之間是否有關係。
- 箱型圖 (Boxplot)
- 說明:以四分位數顯示數據的分佈、集中趨勢、離散程度和離群值。
- 舉例:用它來快速檢查所有產品的評論星級,是否有特別高或特別低的異常評論。

- 高維降維方法 (用於視覺化)
- t-SNE / UMAP
- 說明:非線性降維技術,能將高維數據降到 2D 或 3D 進行視覺化,尤其擅長保留鄰近關係,看群聚分布。
- 舉例:將客戶的上百個行為特徵降維成 2D 圖表,這樣你就可以直接用肉眼看到客戶被 AI 分成了「高價位買家」和「折扣追逐者」兩群。
- LDA (線性判別分析)
- 說明:有監督式的降維方法,目的是最大化不同類別之間的距離,以利於分類。
- 舉例:你已經知道客戶分成了「會流失」和「不會流失」兩類,用 LDA 降維是為了讓這兩類客戶在圖上分得越開越好。
- MDS / Isomap
- 說明:降維方法,試圖在低維度空間中保持數據點之間的距離關係。
- 舉例:將一組地理距離資料降維到 2D 平面,保持城市與城市之間原始的距離比例。
- 視覺化工具: Excel、Tableau、Power BI、Python (Matplotlib, Seaborn)
- 說明:用於創建圖表和儀表板,將數據洞察轉化為易於理解的視覺形式的軟體或函式庫。
- 舉例:你使用 Tableau 製作一個即時更新的客戶儀表板,隨時監控客戶的行為趨勢。
第七步:資料隱私與安全底線
1. 隱私保護與法規
- 隱私原則:
- 說明:資料收集、儲存、使用必須遵循的倫理與法律規範,確保不濫用個人資訊。
- 舉例:企業只能收集「完成交易」所需最少的客戶資訊,且不能把客戶電話用於非交易目的的廣告。
- 國際法規:
- 說明:規範企業如何處理個人資料的法律,違規將面臨巨額罰款。
- 舉例:GDPR(歐盟)賦予用戶「被遺忘權」;台灣個資法規範企業必須告知客戶資料會被用在哪裡。

2. 數據隱私技術措施
- 去識別化/匿名化
- 說明:移除或修改個人識別資訊 (PII),使資料無法追溯到特定個體。
- 舉例:你將客戶名單中的「姓名、電話」欄位全部刪除或替換成一個隨機代號,這樣即使資料外洩,也沒人知道是哪個客戶。
- 加密 (Encryption)
- 說明:將資料轉換成無法讀取的亂碼格式,只有擁有金鑰才能解密。
- 舉例:你把客戶的重要交易紀錄存到雲端資料庫時,必須對它進行加密保護,這樣即使駭客拿到檔案,看到的也只是一堆亂碼。
- 差分隱私 (Differential Privacy)
- 說明:在數據集中故意加入數學雜訊,讓單一資料點被隱藏,但整體統計趨勢不變。
- 舉例:你問大家是否贊成某個政策,為了保護個人意見,你在每個人的回答中隨機加入一點點「是」或「否」的雜訊,總體統計結果仍準確,但無法確定任何一個人的真實答案。
- 聯邦學習 (Federated Learning)
- 說明:將模型訓練的過程分散到多個用戶的本地設備上,只有模型參數(而不是原始數據)會被傳回中心伺服器。
- 舉例:你手機的輸入法預測不斷學習你的打字習慣,但你的打字內容永遠不會離開你的手機,只會將學習到的「規律」傳回雲端。

.png?table=collection&id=2ba70f01-9634-81f4-8376-000b1aff7bf1&t=2ba70f01-9634-81f4-8376-000b1aff7bf1)


