/images/website/avatar.png
發佈日期 / 更新日期

【心得】第 34 屆 南區統計研討會

感知機簡介

感知機(Perceptron)是最早期的人工神經網路模型之一,其發展奠定了現代機器學習的基礎,可以說是神經網路的「始祖」。它能執行簡單的二元分類任務,並以數學方式模擬神經元的運作邏輯,至今仍常被作為機器學習入門的教學範例。

資料集的定義

在這大數據時代,生活中處處充滿著不同的資訊,如果將每筆數據(data)列為一筆觀測值(observation)並收集起來,我們就能粗略地得到一組由多筆數據結合在一起,可能是結構化(structured)或非結構化(unstructured)的數據集(dataset)。加以整理與篩選,把認為對自己有用的資訊(information)提出,並將無用的資訊剔除,就能得到一個可用於進行分析、訓練模型、或作為研究依據的資料集(dataset)。資料集可以包含數值、文字、圖片、音訊或影片等各種類型的資料,視其應用目的決定如何收集與整理。

交叉驗證的方法

交叉驗證(Cross-Validation, CV)是常用於機器學習的模型驗證技術,用於評估模型在未見資料上的泛化能力。透過將資料集切分為訓練集、驗證集與測試集,並反覆進行訓練與評估,交叉驗證能在資料量有限的情況下,有效測試模型的性能,評估模型的泛化能力並用於減少過擬合和與偏差等問題。交叉驗證在控制過擬合、選擇最佳模型、調整超參數等方面扮演重要角色,特別是能預測模型面對新資料的表現,是現代機器學習流程中不可或缺的一環。