發佈日期 / 更新日期
直角坐標、極坐標與球坐標
常見的坐標系包含直角坐標系、極坐標系與球坐標系,每一種坐標系各有其不同的使用情形與優缺點。
安斯庫姆四重奏
今天在聽取報告時,偶然聽見一個名詞——安斯庫姆四重奏(Anscombe's quartet),這是一個我從未聽說過的詞,但卻與統計學與資料視覺化有著重要的影響。
感知機簡介
感知機(Perceptron)是最早期的人工神經網路模型之一,其發展奠定了現代機器學習的基礎,可以說是神經網路的「始祖」。它能執行簡單的二元分類任務,並以數學方式模擬神經元的運作邏輯,至今仍常被作為機器學習入門的教學範例。
多維尺度分析(MDS)
多維尺度分析(Multi-dimensional Scaling, MDS)是一種降維方法,透過計算資料集中物件兩兩之間的距離,並呈現在低維空間中,同時保留原資料的相對距離結構。 MDS 可視為一種將資料視覺化的方法,以便直觀地觀察資料的相對關係。
資料集的定義
在這大數據時代,生活中處處充滿著不同的資訊,如果將每筆數據(data)列為一筆觀測值(observation)並收集起來,我們就能粗略地得到一組由多筆數據結合在一起,可能是結構化(structured)或非結構化(unstructured)的數據集(dataset)。加以整理與篩選,把認為對自己有用的資訊(information)提出,並將無用的資訊剔除,就能得到一個可用於進行分析、訓練模型、或作為研究依據的資料集(dataset)。資料集可以包含數值、文字、圖片、音訊或影片等各種類型的資料,視其應用目的決定如何收集與整理。
交叉驗證的方法
交叉驗證(Cross-Validation, CV)是常用於機器學習的模型驗證技術,用於評估模型在未見資料上的泛化能力。透過將資料集切分為訓練集、驗證集與測試集,並反覆進行訓練與評估,交叉驗證能在資料量有限的情況下,有效測試模型的性能,評估模型的泛化能力並用於減少過擬合和與偏差等問題。交叉驗證在控制過擬合、選擇最佳模型、調整超參數等方面扮演重要角色,特別是能預測模型面對新資料的表現,是現代機器學習流程中不可或缺的一環。
資料集探索與分析 #2
恐龍遊戲
經典的 Chrome 瀏覽器離線小遊戲,該遊戲由 Google 的 Chrome 使用者體驗團隊於 2014 年開發。