目錄

資料集的定義

封面圖片是由 ChatGPT 生成的資料集定義圖片,提示詞為 “A flat-style digital illustration representing the concept of “dataset definition”, without any text. The scene features a computer monitor displaying a simple dataset table (columns and rows), surrounded by minimalistic icons such as a database, document, network, and a checkmark. These elements are connected with dotted lines, symbolizing relationships and data structure. The color palette is clean and modern, using tones like teal, blue, and white. The overall composition follows a 16:9 aspect ratio, with a professional and conceptual data visualization feel.” 。

前言

在這大數據時代,生活中處處充滿著不同的資訊,如果將每筆數據(data)列為一筆觀測值(observation)並收集起來,我們就能粗略地得到一組由多筆數據結合在一起,可能是結構化(structured)或非結構化(unstructured)的數據集(dataset)。加以整理與篩選,把認為對自己有用的資訊(information)提出,並將無用的資訊剔除,就能得到一個可用於進行分析、訓練模型、或作為研究依據的資料集(dataset)。資料集可以包含數值、文字、圖片、音訊或影片等各種類型的資料,視其應用目的決定如何收集與整理。

資料集的類型

資料集依照其結構與用途,大致可分為以下幾種:

  • 結構化資料集(Structured Dataset)

    以表格、列表等形式呈現的資料,每筆資料擁有固定的欄位(features)與統一的格式,方便儲存、查詢與分析。

    例如:表格、資料庫的資料、以 .csv 儲存的檔案。

  • 非結構化資料集(Unstructured Dataset)

    不具有固定結構,無法直接對應為表格的資料。可能需要經過特定處理,才能使用的資料。

    例如:圖片、影片、文字文件、小說。

  • 標註資料集(Labeled Dataset)

    每筆資料都附有一個對應的標籤(label),且能幫助模型學習輸入與輸出之間的關係。常用於監督式學習(supervised learning)。

    例如:手寫數字辨識資料集、鳶尾花資料集等具有標籤的資料集。

  • 未標註資料集(Unlabeled Dataset)

    資料沒有附加標籤,可能需要先進行資料分群、降維等分析的資料集。常用於非監督學習(unsupervised learning)。

    例如:顧客購買紀錄、氣候資料、水溫資料等。

資料集的拆分

透過機器學習擬合資料集時,為了能測試模型對新資料的預測能力(即泛化能力),我們通常會將原始資料集進行拆分。由於可能無法即時取得全新的資料用於測試模型,因此我們會預先保留一部分資料作為測試用途。

最簡單的方法是將資料集拆分為兩份,分別為測試集(training set)與訓練集(test set)。但這種區分方式使模型無法根據測試結果及時做出調整,因此,我們會在訓練集中再拆分一份資料集作為驗證集(validation set),用於調整模型的超參數(hyperparameter)。

訓練集

訓練集是模型學習的基礎,用於讓模型擬合資料並找出輸入與輸出之間的關係,使模型能夠擬合並逼近資料集。

以直觀的例子來說,訓練集就像是學生在學校進行學習,透過反覆練習學習知識。

驗證集

驗證集是在模型訓練時,於每一個訓練週期的最後評估模型學習能力的資料集,並用於超參數調整。

驗證集就像學生在學校的平時小考,老師能夠依據學生的作答情況調整上課內容與教學策略。

同時,如果模型不需要調整超參數,則驗證集並不是必要的,可以省略。

測試集

測試集是整個模型訓練完,最後用來評估模型泛化能力的資料集,目的是測試模型在從未見過的新資料上的表現。與驗證集不同的是,測試集僅用於測試模型,不用於調整超參數。

舉例而言,測試集就是學校的期末考,用於評估、檢測學生整個學期的學習成果。

拆分比例

資料集的拆分比例並無硬性規定,常見的比例有

訓練集驗證集測試集
80%10%10%
70%10%20%
70%20%10%
60%20%20%
70%0%30%
80%0%20%
90%0%10%

結語

資料集是大數據科學中重要的部分,無論是模型訓練、特徵抓取、研究分析等,都與資料集密不可分。學習並了解資料集的類型與拆分方式,讓我們更有效地管理與處理資料,提升模型的準確度與實用性。