/images/website/avatar.png
發佈日期 / 更新日期

資料集的定義

在這大數據時代,生活中處處充滿著不同的資訊,如果將每筆數據(data)列為一筆觀測值(observation)並收集起來,我們就能粗略地得到一組由多筆數據結合在一起,可能是結構化(structured)或非結構化(unstructured)的數據集(dataset)。加以整理與篩選,把認為對自己有用的資訊(information)提出,並將無用的資訊剔除,就能得到一個可用於進行分析、訓練模型、或作為研究依據的資料集(dataset)。資料集可以包含數值、文字、圖片、音訊或影片等各種類型的資料,視其應用目的決定如何收集與整理。

交叉驗證的方法

交叉驗證(Cross-Validation, CV)是常用於機器學習的模型驗證技術,用於評估模型在未見資料上的泛化能力。透過將資料集切分為訓練集、驗證集與測試集,並反覆進行訓練與評估,交叉驗證能在資料量有限的情況下,有效測試模型的性能,評估模型的泛化能力並用於減少過擬合和與偏差等問題。交叉驗證在控制過擬合、選擇最佳模型、調整超參數等方面扮演重要角色,特別是能預測模型面對新資料的表現,是現代機器學習流程中不可或缺的一環。

【國網中心探險】#2 臺灣 AI 雲介紹與使用

臺灣 AI 雲(Taiwan Computing Cloud, TWCC)是國家高速網路與計算中心(國網中心)旗下單位,是提供 AI 技術研發與雲端運算服務的平臺。 TWCC 擁有快速部署、有效統御、智算兼備、數據匯集等特點,能以先進容器與 GPU 技術迅速建構安全彈性的運算環境,支援大規模平行運算與高效資料管理,加速開發流程,滿足多元應用需求。

【國網中心探險】#1 帳號建立

財團法人國家實驗研究院國家高速網路與計算中心(簡稱國網中心)是一個致力於高效能計算、儲存、網路、平臺整合等技術的研究機構。隨著大數據與人工智慧的普及,擁有一個良好的模型訓練環境就顯得尤為重要。作為臺灣頂尖的大型計算平臺和學術研究網路設施的國家實驗室,國網中心的電腦設備不僅在資安與資料加密方面出色,更積極研發先進高速計算方法、量子計算與巨量資料分析技術。利用國網中心的設備進行模型訓練與預測,不僅能夠實現快速運算,還能確保過程的安全性與穩定性,是研究人員首屈一指的選擇。