標準化的方法

封面圖片由 ChatGPT 生成。
前言
在進行統計分析時,往往會接觸到各種類型的資料,而這些資料可能具有不同的單位與數值範圍。為了消除單位差異所帶來的影響,並提升資料之間的可比性,常需透過適當的尺度轉換來進行標準化處理,也就是讓它們在同一個尺度下進行分析。根據應用需求的不同,標準化的方法也各式各樣,不同方法所帶來的差異,甚至可能左右後續的統計推論與模型表現。
但問題來了,「標準化」的方法有很多,常聽到的有「Normalization」和「Standardization」,這兩個詞到底是什麼意思?有什麼差別?該用哪一種?接下來就來一一說明。
標準化
我們常聽到的標準化(standardization),又稱作標準分數(standard score)、 Z 分數標準化(Z-score standardization),是將原始數據扣除其平均值後再除以標準差,如下所示:
$$ Z = \frac{X - \mu}{\sigma}, $$
其中, $Z$ 是經過標準化後的數值、向量, $X$ 是原始數值、向量, $\mu$ 是 $X$ 的樣本或母體平均值(mean), $\sigma$ 是 $X$ 的樣本或母體標準差(standard deviation)。經過標準化後會使數據的平均值為 0 ,標準差為 1 ,也就是數據會服從常態分布(Normal distribution / Gaussian distribution),讓進行統計分析時減少離群值或異常值(outliers)對於模型的影響。
$$ Z = \frac{X - \mu}{\sigma} \sim N(0, 1). $$
正規化
正規化(normalization),又稱為歸一化、特徵縮放(feature scaling),是將數據縮放到指定區間的一種方法,常見的方法是最小值-最大值歸一化(Min-Max normalization),可以將數據依比例縮放到 $[0, 1]$ 區間,公式如下
$$ X’ = \frac{X - X_{\min}}{X_{\max} - X_{\min}} \in [0, 1], $$
其中, $X’$ 是經過最小值-最大值歸一化後的數值、向量, $X$ 是原始數值、向量, $X_{\min}$ 是原始數據的最小值, $X_{\max}$ 是原始數據的最大值。歸一化僅會縮放數據到指定區間,而不改變原數據的分布情形。
我們也可以將數據縮放到指定的 $[a, b]$ 區間,公式如下
$$ X’ = a + \frac{(X - X_{\min})(b - a)}{X_{\max} - X_{\min}} \in [a, b]. $$
結語
Standardization 適合處理服從常態分布、需要消除平均與變異差異的資料,而 Normalization 則用於需將數據壓縮至特定範圍、避免特徵值差異過大影響模型的情境。雖然兩者在中文中常被統稱為「標準化」,但實際上所做的轉換與目的並不相同。
資料來源
Normalization (statistics)。(2025年6月19日)。維基百科,自由的百科全書。2025年7月9日參考自 https://en.wikipedia.org/wiki/Normalization_(statistics)
Standard score。(2025年5月24日)。維基百科,自由的百科全書。2025年7月9日參考自 https://en.wikipedia.org/wiki/Standard_score
anonymous9007。(2022年9月6日)。[Day8]資料正規化(Normalization)與標準化(Standardization)。 iT 邦幫忙。2025年7月9日參考自 https://ithelp.ithome.com.tw/articles/10293893
歸一化、標準化、中心化分別是什麼?。(2022年6月20日)。AI共學社群。2025年7月9日參考自 https://www.cupoy.com/collection/0000018008CD5D70000000046375706F795F72656C656173654355/00000181709BCC8F000000056375706F795F72656C656173654349
Feature scaling。(2024年8月24日)。維基百科,自由的百科全書。2025年7月9日參考自 https://en.wikipedia.org/wiki/Feature_scaling