/images/website/avatar.png
發佈日期 / 更新日期

在 LoveIt 主題的文章中新增相關文章區塊

前言

最近在翻閱文章時,發現閱讀完某文章後,要找到類似的文章是很麻煩的一件事。也由於在查找資料時,看到其他網站都有「類似文章」、「你可能也想看」等區塊,因此萌生在個人網站製作「相關文章」區塊的想法。

既然是相關文章,那總是需要知道那些文章會相似,對吧?但需要重新標記所有文章,或大費周章使用模型分類是一件很累(很蠢?)的事。在看到我的文章都有使用標籤或是分類進行標記時,就想到:「為什麼不就地取材呢?」因此,決定使用現有的標記作為分類依據。

以下介紹如何在每篇文章中增加「相關文章」區塊。

【心得】第 34 屆 南區統計研討會

感知機簡介

感知機(Perceptron)是最早期的人工神經網路模型之一,其發展奠定了現代機器學習的基礎,可以說是神經網路的「始祖」。它能執行簡單的二元分類任務,並以數學方式模擬神經元的運作邏輯,至今仍常被作為機器學習入門的教學範例。

資料集的定義

在這大數據時代,生活中處處充滿著不同的資訊,如果將每筆數據(data)列為一筆觀測值(observation)並收集起來,我們就能粗略地得到一組由多筆數據結合在一起,可能是結構化(structured)或非結構化(unstructured)的數據集(dataset)。加以整理與篩選,把認為對自己有用的資訊(information)提出,並將無用的資訊剔除,就能得到一個可用於進行分析、訓練模型、或作為研究依據的資料集(dataset)。資料集可以包含數值、文字、圖片、音訊或影片等各種類型的資料,視其應用目的決定如何收集與整理。

交叉驗證的方法

交叉驗證(Cross-Validation, CV)是常用於機器學習的模型驗證技術,用於評估模型在未見資料上的泛化能力。透過將資料集切分為訓練集、驗證集與測試集,並反覆進行訓練與評估,交叉驗證能在資料量有限的情況下,有效測試模型的性能,評估模型的泛化能力並用於減少過擬合和與偏差等問題。交叉驗證在控制過擬合、選擇最佳模型、調整超參數等方面扮演重要角色,特別是能預測模型面對新資料的表現,是現代機器學習流程中不可或缺的一環。