目錄

標準化的方法

封面圖片由 ChatGPT 生成。

前言

在進行統計分析時,往往會接觸到各種類型的資料,而這些資料可能具有不同的單位與數值範圍。為了消除單位差異所帶來的影響,並提升資料之間的可比性,常需透過適當的尺度轉換來進行標準化處理,也就是讓它們在同一個尺度下進行分析。根據應用需求的不同,標準化的方法也各式各樣,不同方法所帶來的差異,甚至可能左右後續的統計推論與模型表現。

但問題來了,「標準化」的方法有很多,常聽到的有「Normalization」和「Standardization」,這兩個詞到底是什麼意思?有什麼差別?該用哪一種?接下來就來一一說明。

標準化

我們常聽到的標準化(standardization),又稱作標準分數(standard score)、 Z 分數標準化(Z-score standardization),是將原始數據扣除其平均值後再除以標準差,如下所示:

$$ Z = \frac{X - \mu}{\sigma}, $$

其中, $Z$ 是經過標準化後的數值、向量, $X$ 是原始數值、向量, $\mu$ 是 $X$ 的樣本或母體平均值(mean), $\sigma$ 是 $X$ 的樣本或母體標準差(standard deviation)。經過標準化後會使數據的平均值為 0 ,標準差為 1 ,也就是數據會服從常態分布(Normal distribution / Gaussian distribution),讓進行統計分析時減少離群值或異常值(outliers)對於模型的影響。

$$ Z = \frac{X - \mu}{\sigma} \sim N(0, 1). $$

正規化

正規化(normalization),又稱為歸一化、特徵縮放(feature scaling),是將數據縮放到指定區間的一種方法,常見的方法是最小值-最大值歸一化(Min-Max normalization),可以將數據依比例縮放到 $[0, 1]$ 區間,公式如下

$$ X’ = \frac{X - X_{\min}}{X_{\max} - X_{\min}} \in [0, 1], $$

其中, $X’$ 是經過最小值-最大值歸一化後的數值、向量, $X$ 是原始數值、向量, $X_{\min}$ 是原始數據的最小值, $X_{\max}$ 是原始數據的最大值。歸一化僅會縮放數據到指定區間,而不改變原數據的分布情形。

我們也可以將數據縮放到指定的 $[a, b]$ 區間,公式如下

$$ X’ = a + \frac{(X - X_{\min})(b - a)}{X_{\max} - X_{\min}} \in [a, b]. $$

結語

Standardization 適合處理服從常態分布、需要消除平均與變異差異的資料,而 Normalization 則用於需將數據壓縮至特定範圍、避免特徵值差異過大影響模型的情境。雖然兩者在中文中常被統稱為「標準化」,但實際上所做的轉換與目的並不相同。

資料來源