《西瓜書》筆記01:機器學習緒論 -开发者知识库

《西瓜書》筆記01:機器學習緒論 -开发者知识库,第1张

1. 概述

“朝霞不出門,晚霞行千里”

日常生活中,我們積累了許多經驗,通過對經驗的利用,就能對新情況做出有效決策。

機器學習:致力於研究如何通過計算的手段,利用經驗來改善系統自身性能。計算機系統中,經驗以數據形式存在。

ML研究的主要內容:關於在計算機上從數據中產生模型的算法。有了學習算法,把經驗數據提供給它,就能基於這些數據產生模型。面對新情況,模型會提供相應判斷。

2. 基本術語

數據集,樣本/示例,屬性/特征,屬性值/特征值

屬性空間/特征空間/輸入空間

特征向量:空間中的點,對應一個樣本

學習/訓練:從數據中學得模型的過程,執行某個學習算法

訓練數據,訓練樣本,訓練集

分類任務:預測的離散值

回歸任務:預測的是連續值

二分類,多分類

學習任務分類:監督學習,無監督學習。根據訓練數據是否擁有標記信息來區分。前者如分類、回歸任務;后者如聚類任務。

泛化能力:學得的模型適用於新樣本的能力。

獨立同分布:通常假設樣本空間中的全體樣本服從一個未知分布,我們獲得的每個樣本都是獨立地從這個分布中采樣獲得的。

3. 假設空間

機械學習,亦稱死記硬背式學習,“記住”所有訓練樣本。

我們可將學習過程看作一個在所有假設組成的空間中,進行搜索的過程。搜索目標是找到與訓練集匹配的假設,能夠將訓練集中的瓜判斷爭取的假設。

假設的表示一旦確定,假設空間及其規模確定。如假設空間由形如“(色澤=? )&& (根蒂=?)&&(敲聲=?)”的可能取值所形成的假設組成。

《西瓜書》筆記01:機器學習緒論 -开发者知识库,這里寫圖片描述,第2张

對該假設空間進行搜索,不斷刪除與正例不一致的假設,或與反例一致的假設,最終得到與訓練集一致的假設,即為學習結果。

現實中經常面臨很大的假設空間。學習過程是在有限樣本訓練集進行的,因此,可能有多個假設與訓練集一致,存在着一個與訓練集一致的“假設集合”,稱為“版本空間”。

樣本集:
《西瓜書》筆記01:機器學習緒論 -开发者知识库,這里寫圖片描述,第3张

版本空間(3個假設):
《西瓜書》筆記01:機器學習緒論 -开发者知识库,這里寫圖片描述,第4张

4. 歸納偏好

科學推理2大手段:歸納(induction)和演繹(deduction)。

歸納:從特殊到一般的泛化過程。演繹:從一般到特殊的特化過程。

從樣例中學習,是一個歸納的過程,亦稱歸納學習。

如上節,有三個假設,學習算法本身的偏好,會在生成模型時起到關鍵作用。例如算法喜歡盡可能特殊,即適應情況盡可能少的情況,則會選(色澤=*,根蒂=緊縮,敲聲=濁響);而算法若喜歡盡可能一般,即適應情況盡可能多的情況,並且由於某種原因更相信根蒂,則選擇(色澤=*, 根蒂=蜷縮,敲聲=*)。

機器學習算法在學習過程中,對某種類型假設的偏好,稱為“歸納偏好”。

這看起來和特征選擇有點像,但不是一回事。特征選擇是基於對訓練樣本的分析進行的。此處的例如對“根蒂”的信賴,並非基於特征選擇,而可視為基於某種領域知識而產生的歸納偏好。

任何一個有效的ML算法,必有其歸納偏好。否則模型不確定。

學習算法的某種偏好,體現在其設計流程,優化目標等綜合反映。如算法認為相似樣本應用相似輸出,則對應的學習算法可能偏好下圖較平滑的曲線。

《西瓜書》筆記01:機器學習緒論 -开发者知识库,這里寫圖片描述,第5张

歸納偏好可看作是:學習算法自身在一個很龐大的假設空間中對假設選擇時的啟發式或價值觀。即有自己的某種個性,或者癖好來做出一個選擇。

一個一般性的原則,引導算法確定“正確性”偏好:奧卡姆剃刀原則。即若有多個假設與觀察一致,則選最簡單的那個。

但是這只是某一方面的准則。對於一個算法A,若在某些問題上比B好,則必然存在另一些問題,在那里B比A好。

P8的簡單證明:算法A在訓練集之外的所有樣本上的誤差,與算法無關。這就是說對於任意兩個算法,其訓練集外誤差都是相同的。對於一個算法A,若在某些問題上比B好,則必然存在另一些問題,在那里B比A好。

這就是“沒有免費的午餐”定理(NFL)。

那既然所有學習算法的期望性能和隨即猜測差不多,ML的意義何在?

NFL定理的前提是:所有問題出現機會相同。但實際中不是這樣,我們只關注某個具體應用任務,希望這個正在試圖解決的問題,找到一個方案。至於在別的問題上如何,並不關心。對當前最好即可。

NFL定理意義在於:脫離具體問題,空泛談論什么學習算法更好,是沒有意義的。必須針對具體問題具體分析。

5. 發展歷程

二十世紀五十年代開始。

二十世紀八十年代,從樣例中學習的一大主流是符號主義學習,代表包括決策樹等。

二十世紀九十年代中期之前,從樣例中學習的另一大主流是基於神經網絡的連接主義學習。BP算法1986年出現。

二十世紀九十年代中期,統計學習迅速占領舞台。代表有SVM。以統計學習理論為直接支撐的統計學習技術。

如今,連接主義學習卷土重來,掀起了以深度學習為名的熱潮。模型復雜度雖高,但只要下功夫調參,性能往往會好。但缺乏嚴格的理論基礎。

熱起來有兩個原因:

  • 數據大。深度學習模型擁有大量參數,若樣本少,容易過擬合。
  • 計算能力強。數據儲量和GPU大發展。

上世紀80年代走紅,與當時的X86系列微處理器和內存條技術顯著提高不無關系,歷史在重演。

想起操作系統書的作者曾說過:計算機界很有趣,往往很多東西被淘汰了但若干年后又將煥發新生。

6. 應用現狀

2012年,美國政府啟動大數據研發計划,強調三大技術:

  • 機器學習:提供數據分析能力
  • 雲計算:提供數據處理能力
  • 眾包:提供數據標注能力

數據挖掘,20世紀90年代出現。其兩大支撐;

  • 機器學習技術
  • 數據庫技術

最佳答案:

本文经用户投稿或网站收集转载,如有侵权请联系本站。

发表评论

0条回复