資料集的定義

發佈於 2025-05-09 更新於 2025-05-10 約 1529 字預計閱讀 4 分鐘次閱讀

https://raw.githubusercontent.com/Josh-test-lab/website-assets-repository/main/posts/Definition%20of%20Dataset/cover%20image.png

封面圖片是由 ChatGPT 生成的資料集定義圖片，提示詞為 “A flat-style digital illustration representing the concept of “dataset definition”, without any text. The scene features a computer monitor displaying a simple dataset table (columns and rows), surrounded by minimalistic icons such as a database, document, network, and a checkmark. These elements are connected with dotted lines, symbolizing relationships and data structure. The color palette is clean and modern, using tones like teal, blue, and white. The overall composition follows a 16:9 aspect ratio, with a professional and conceptual data visualization feel.” 。

前言

在這大數據時代，生活中處處充滿著不同的資訊，如果將每筆數據（data）列為一筆觀測值（observation）並收集起來，我們就能粗略地得到一組由多筆數據結合在一起，可能是結構化（structured）或非結構化（unstructured）的數據集（dataset）。加以整理與篩選，把認為對自己有用的資訊（information）提出，並將無用的資訊剔除，就能得到一個可用於進行分析、訓練模型、或作為研究依據的資料集（dataset）。資料集可以包含數值、文字、圖片、音訊或影片等各種類型的資料，視其應用目的決定如何收集與整理。

資料集的類型

資料集依照其結構與用途，大致可分為以下幾種：

結構化資料集（Structured Dataset）
以表格、列表等形式呈現的資料，每筆資料擁有固定的欄位（features）與統一的格式，方便儲存、查詢與分析。
例如：表格、資料庫的資料、以 .csv 儲存的檔案。
非結構化資料集（Unstructured Dataset）
不具有固定結構，無法直接對應為表格的資料。可能需要經過特定處理，才能使用的資料。
例如：圖片、影片、文字文件、小說。
標註資料集（Labeled Dataset）
每筆資料都附有一個對應的標籤（label），且能幫助模型學習輸入與輸出之間的關係。常用於監督式學習（supervised learning）。
例如：手寫數字辨識資料集、鳶尾花資料集等具有標籤的資料集。
未標註資料集（Unlabeled Dataset）
資料沒有附加標籤，可能需要先進行資料分群、降維等分析的資料集。常用於非監督學習（unsupervised learning）。
例如：顧客購買紀錄、氣候資料、水溫資料等。

資料集的拆分

透過機器學習擬合資料集時，為了能測試模型對新資料的預測能力（即泛化能力），我們通常會將原始資料集進行拆分。由於可能無法即時取得全新的資料用於測試模型，因此我們會預先保留一部分資料作為測試用途。

最簡單的方法是將資料集拆分為兩份，分別為測試集（training set）與訓練集（test set）。但這種區分方式使模型無法根據測試結果及時做出調整，因此，我們會在訓練集中再拆分一份資料集作為驗證集（validation set），用於調整模型的超參數（hyperparameter）。