/images/website/avatar.png
發佈日期 / 更新日期

從梯度下降到隨機梯度下降

封面圖片由 ChatGPT 生成。

梯度下降是現今多數模型都會使用到的迭代方法,能夠幫助模型找到適合的參數。但對於現在的大數據時代,龐大的資料對梯度下降所帶來的後果就是巨大的時間成本,如何快速且不失準確性的計算參數是現今應要考慮的目標之一。

抽樣方法

封面圖片由 ChatGPT 生成。

為什麼需要抽樣的方法呢?抽樣對資料分析有什麼好處?我們在建立模型時,有時候會發現需要訓練的資料量實在是太多,導致模型的訓練時間被拉長。而抽樣的目的在於,從龐大的母群體(population ,母體)中選取具有代表性的有限樣本(sample),並依據選取的樣本進行統計,從而反推樣本所在的母群體的性質或特性。

從以上敘述,我們可以知道樣本是母體的子集合。而如何從母體中找出合理的子集合作為樣本,就是抽樣方法(sampling method)。由於抽樣的樣本與母體仍會存在數量上的差異,我們希望經由抽樣選擇的樣本所計算出的樣本統計量(sample statistic),能夠靠近母體統計量(population statistic),並儘量降低因抽樣所造成的偏誤(bias)。

邏輯迴歸

封面圖片由 ChatGPT 生成。

前言

邏輯迴歸(logistic regression),又稱為邏輯斯迴歸、羅吉斯迴歸,是由線性迴歸(linear regression)變化而成的一種二元分類模型。與線性迴歸模型不同的是,線性迴歸會找出一條能夠穿越所有數據點的迴歸線,且每個點到迴歸線的平方和是最小的,稱為最小平方法(least squares method);而邏輯迴歸模型的目標則是找出一條迴歸線,使迴歸線能夠明確地將所有數據點分為兩類。

貝爾曼-福特演算法

為了解決戴克斯特拉演算法中無法計算路徑為**負**權重的,貝爾曼-福特演算法(Bellman-Ford Algorithm)就此誕生。貝爾曼-福特演算法會對 $V$ 個節點做 $V - 1$ 次鬆弛操作,重複鬆弛所有邊,進而持續改善、找尋最短路徑。

圖片壓縮工具

在平時建立網站頁面時,我們會發現有時候有些頁面需要讀取一段時間才能出現,而有些頁面卻沒有。經過比較不同網頁後得出一個結論,網頁內的圖片如果大小過大,會造成網頁讀取速度較慢,因此萌生出要找到一款能夠壓縮目前網站目錄下所有圖片工具。但找來找去,網路上都沒有找到合適的應用程式,最後決定自己製作一款能夠壓縮所有圖片的程式。

k-平均聚類分析

k-平均聚類分析(k-means clustering),在中文地區常被稱為 k-平均演算法,簡稱 k-means。這是一種將 $n$ 個資料點分成 $k$ 個群集(clusters)的分群方法,使得每一個點都能歸屬於距離它最近的群集中心(centroid)。

標準化的方法

在進行統計分析時,往往會接觸到各種類型的資料,而這些資料可能具有不同的單位與數值範圍。為了消除單位差異所帶來的影響,並提升資料之間的可比性,常需透過適當的尺度轉換來進行標準化處理,也就是讓它們在同一個尺度下進行分析。根據應用需求的不同,標準化的方法也各式各樣,不同方法所帶來的差異,甚至可能左右後續的統計推論與模型表現。