機器學習:開啟智能創(chuàng)新之門
(五)機器學習的算法分類
機器學習基于學習形式的不同通常可分為三類:
1.監(jiān)督學習(Supervised Learning)
給學習算法提供標記的數(shù)據(jù)和所需的輸出,對于每一個輸入,學習者都被提供了一個回應的目標。監(jiān)督學習主要被應用于快速高效地教熟AI現(xiàn)有的知識,被用于解決分類和回歸的問題。常見的算法有:
(1)決策樹(Decision Trees):決策樹可看作一個樹狀預測模型,它通過把實例從根節(jié)點排列到某個葉子節(jié)點來分類實例,葉子節(jié)點即為實例所屬的分類。決策樹的核心問題是選擇分裂屬性和決策樹的剪枝。決策樹是一個決策支持工具,它用樹形的圖或者模型表示決策及其可能的后果,包括隨機事件的影響、資源消耗、以及用途。用于分析判斷有無貸款意向的決策樹示如圖 所示,從商業(yè)角度看,常用于基于規(guī)則的信用評估、賽馬結果預測等。
圖6 決策樹
(2)Adaboost算法:這是一種迭代算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然后把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。算法本身是改變數(shù)據(jù)分布實現(xiàn)的,它根據(jù)每次訓練集之中的每個樣本的分類是否正確,以及上次的總體分類的準確率,來確定每個樣本的權值。將修改權值的新數(shù)據(jù)送給下層分類器進行訓練,然后將每次訓練得到的分類器融合起來,作為最后的決策分類器。AdaBoost算法主要解決了:兩類問題、多類單標簽問題、多類多標簽問題、大類單標簽問題和回歸問題; 優(yōu)點:學習精度明顯增加,并且不會出現(xiàn)過擬合問題,AdaBoost算法技術常用于人臉識別和目標跟蹤領域。
圖7 Adaboost
(3)人工神經(jīng)網(wǎng)絡(Artificial Neural Network -ANN)算法:人工神經(jīng)網(wǎng)絡是由大量處理單元互聯(lián)組成的非線性、自適應信息處理系統(tǒng)。它是在現(xiàn)代神經(jīng)科學研究成果的基礎上提出的,試圖通過模擬大腦神經(jīng)網(wǎng)絡處理、記憶信息的方式進行信息處理。人工神經(jīng)網(wǎng)絡是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術完全不同的機理,克服了傳統(tǒng)的基于邏輯符號的人工智能在處理直覺、非結構化信息方面的缺陷,具有自適應、自組織和實時學習的特點。
圖8 人工神經(jīng)網(wǎng)絡
(4)SVM(Support Vector Machine):SVM 法即支持向量機算法,由Vapnik等人于1995年提出,具有相對優(yōu)良的性能指標。該方法是建立在統(tǒng)計學習理論基礎上的機器學習方法!VM是一種二分算法。假設在N維空間,有一組點,包含兩種類型,SVM生成a(N-1) 維的超平面,把這些點分成兩組。比如你有一些點在紙上面,這些點是線性分離的。SVM會找到一個直線,把這些點分成兩類,并且會盡可能遠離這些點。從規(guī)?磥,SVM(包括適當調整過的)解決的一些特大的問題有:廣告、人類基因剪接位點識別、基于圖片的性別檢測、大規(guī)模圖片分類,適用于新聞分類、手寫識別等應用。
圖9 支持向量機算法
(5)樸素貝葉斯(Naive Bayesian):貝葉斯法是一種在已知先驗概率與類條件概率的情況下的模式分類方法,待分樣本的分類結果取決于各類域中樣本的全體。樸素貝葉斯分類器基于把貝葉斯定理運用在特征之間關系的強獨立性假設上。優(yōu)點:在數(shù)據(jù)較少的情況下仍然有效,可以處理多類別問題。缺點:對于輸入數(shù)據(jù)的準備方式較為敏感。適用數(shù)據(jù)類型:標稱型數(shù)據(jù),F(xiàn)實生活中的應用例子:電子郵件垃圾副過濾、判定文章屬性分類、分析文字表達的內容含義和人臉識別、情感分析、消費者分類。
圖10 樸素貝葉斯算法
(6)K-近鄰(k-Nearest Neighbors,KNN):這是一種分類算法,其核心思想是如果一個樣本在特征空間中的k個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。 kNN方法在類別決策時,只與極少量的相鄰樣本有關。由于kNN方法主要靠周圍有限的鄰近的樣本,而不是靠判別類域的方法來確定所屬類別的,因此對于類域的交叉或重疊較多的待分樣本集來說,kNN方法較其他方法更為適合。
圖11 K-近鄰算法
(7)邏輯回歸(Logistic Regression):這是一種分類算法,主要用于二分類問題。邏輯回歸是一種非常強大的統(tǒng)計方法,可以把有一個或者多個解釋變量的數(shù)據(jù),建立為二項式類型的模型,通過用累積邏輯分布的邏輯函數(shù)估計概率,測量分類因變量和一個或多個獨立變量之間的關系。邏輯回歸是一種非線性回歸模型,相比于線性回歸,它多了一個sigmoid函數(shù)(或稱為Logistic函數(shù))。通常,回歸在現(xiàn)實生活中的用途如下:信用評估、測量市場營銷的成功度、預測某個產(chǎn)品的收益、特定的某天是否會發(fā)生地震,路面交通流量分析、郵件過濾。
圖12 邏輯回歸算法
(8)隨機森林算法(Random Forest):隨機森林算法可以用于處理回歸、分類、聚類以及生存分析等問題,當用于分類或回歸問題時,它的主要思想是通過自助法重采樣,生成很多個樹回歸器或分類器。在機器學習中,隨機森林是一個包含多個決策樹的分類器, 并且其輸出的類別是由個別樹輸出的類別的眾數(shù)而定,常用于用戶流失分析、風險評估。
圖13 隨機森林算法
(9)線形回歸( Linear Regression):這是利用數(shù)理統(tǒng)計中回歸分析,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法,運用十分廣泛。線性回歸是回歸分析中第一種經(jīng)過嚴格研究并在實際應用中廣泛使用的類型。這是因為線性依賴于其未知參數(shù)的模型比非線性依賴于其位置參數(shù)的模型更容易擬合,而且產(chǎn)生的估計的統(tǒng)計特性也更容易確定。
圖14 線形回歸算法

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產(chǎn)業(yè)對接會成功舉辦