發佈日期 / 更新日期
前言
最近在翻閱文章時,發現閱讀完某文章後,要找到類似的文章是很麻煩的一件事。也由於在查找資料時,看到其他網站都有「類似文章」、「你可能也想看」等區塊,因此萌生在個人網站製作「相關文章」區塊的想法。
既然是相關文章,那總是需要知道那些文章會相似,對吧?但需要重新標記所有文章,或大費周章使用模型分類是一件很累(很蠢?)的事。在看到我的文章都有使用標籤或是分類進行標記時,就想到:「為什麼不就地取材呢?」因此,決定使用現有的標記作為分類依據。
以下介紹如何在每篇文章中增加「相關文章」區塊。
Josh
發佈於 更新於 封面圖片由 ChatGPT 生成。
前言
如何計算距離是現今統計分析中重要的一個環節,選擇不同的距離度量方式對於統計分析方法可能會產生不同的結果。以下介紹常用的距離度量方法。
Josh
發佈於 更新於 常見的坐標系包含直角坐標系、極坐標系與球坐標系,每一種坐標系各有其不同的使用情形與優缺點。
Josh
發佈於 更新於 今天在聽取報告時,偶然聽見一個名詞——安斯庫姆四重奏(Anscombe's quartet),這是一個我從未聽說過的詞,但卻與統計學與資料視覺化有著重要的影響。
Josh
發佈於 更新於 收錄於 機器學習 感知機(Perceptron)是最早期的人工神經網路模型之一,其發展奠定了現代機器學習的基礎,可以說是神經網路的「始祖」。它能執行簡單的二元分類任務,並以數學方式模擬神經元的運作邏輯,至今仍常被作為機器學習入門的教學範例。
Josh
發佈於 更新於 收錄於 機器學習 多維尺度分析(Multi-dimensional Scaling, MDS)是一種降維方法,透過計算資料集中物件兩兩之間的距離,並呈現在低維空間中,同時保留原資料的相對距離結構。 MDS 可視為一種將資料視覺化的方法,以便直觀地觀察資料的相對關係。
Josh
發佈於 更新於 收錄於 機器學習 在這大數據時代,生活中處處充滿著不同的資訊,如果將每筆數據(data)列為一筆觀測值(observation)並收集起來,我們就能粗略地得到一組由多筆數據結合在一起,可能是結構化(structured)或非結構化(unstructured)的數據集(dataset)。加以整理與篩選,把認為對自己有用的資訊(information)提出,並將無用的資訊剔除,就能得到一個可用於進行分析、訓練模型、或作為研究依據的資料集(dataset)。資料集可以包含數值、文字、圖片、音訊或影片等各種類型的資料,視其應用目的決定如何收集與整理。
Josh
發佈於 更新於 收錄於 機器學習 交叉驗證(Cross-Validation, CV)是常用於機器學習的模型驗證技術,用於評估模型在未見資料上的泛化能力。透過將資料集切分為訓練集、驗證集與測試集,並反覆進行訓練與評估,交叉驗證能在資料量有限的情況下,有效測試模型的性能,評估模型的泛化能力並用於減少過擬合和與偏差等問題。交叉驗證在控制過擬合、選擇最佳模型、調整超參數等方面扮演重要角色,特別是能預測模型面對新資料的表現,是現代機器學習流程中不可或缺的一環。