色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于集成學(xué)習(xí)的決策介紹(上)

jf_78858299 ? 來源:人工智能大講堂 ? 作者:阿澤 復(fù)旦大學(xué) ? 2023-02-17 15:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文主要介紹基于集成學(xué)習(xí)的決策樹,其主要通過不同學(xué)習(xí)框架生產(chǎn)基學(xué)習(xí)器,并綜合所有基學(xué)習(xí)器的預(yù)測結(jié)果來改善單個基學(xué)習(xí)器的識別率和泛化性。

1. 集成學(xué)習(xí)

常見的集成學(xué)習(xí)框架有三種:Bagging,Boosting 和 Stacking。三種集成學(xué)習(xí)框架在基學(xué)習(xí)器的產(chǎn)生和綜合結(jié)果的方式上會有些區(qū)別,我們先做些簡單的介紹。

1.1 Bagging

Bagging 全稱叫 Bootstrap aggregating,看到 Bootstrap 我們立刻想到著名的開源前端框架(抖個機(jī)靈,是 Bootstrap 抽樣方法) ,每個基學(xué)習(xí)器都會對訓(xùn)練集進(jìn)行有放回抽樣得到子訓(xùn)練集,比較著名的采樣法為 0.632 自助法。每個基學(xué)習(xí)器基于不同子訓(xùn)練集進(jìn)行訓(xùn)練,并綜合所有基學(xué)習(xí)器的預(yù)測值得到最終的預(yù)測結(jié)果。Bagging 常用的綜合方法是投票法,票數(shù)最多的類別為預(yù)測類別。

圖片

1.2 Boosting

Boosting 訓(xùn)練過程為階梯狀,基模型的訓(xùn)練是有順序的,每個基模型都會在前一個基模型學(xué)習(xí)的基礎(chǔ)上進(jìn)行學(xué)習(xí),最終綜合所有基模型的預(yù)測值產(chǎn)生最終的預(yù)測結(jié)果,用的比較多的綜合方式為加權(quán)法。

圖片

1.3 Stacking

Stacking 是先用全部數(shù)據(jù)訓(xùn)練好基模型,然后每個基模型都對每個訓(xùn)練樣本進(jìn)行的預(yù)測,其預(yù)測值將作為訓(xùn)練樣本的特征值,最終會得到新的訓(xùn)練樣本,然后基于新的訓(xùn)練樣本進(jìn)行訓(xùn)練得到模型,然后得到最終預(yù)測結(jié)果。

圖片

那么,為什么集成學(xué)習(xí)會好于單個學(xué)習(xí)器呢?原因可能有三:

  1. 訓(xùn)練樣本可能無法選擇出最好的單個學(xué)習(xí)器,由于沒法選擇出最好的學(xué)習(xí)器,所以干脆結(jié)合起來一起用;
  2. 假設(shè)能找到最好的學(xué)習(xí)器,但由于算法運算的限制無法找到最優(yōu)解,只能找到次優(yōu)解,采用集成學(xué)習(xí)可以彌補算法的不足;
  3. 可能算法無法得到最優(yōu)解,而集成學(xué)習(xí)能夠得到近似解。比如說最優(yōu)解是一條對角線,而單個決策樹得到的結(jié)果只能是平行于坐標(biāo)軸的,但是集成學(xué)習(xí)可以去擬合這條對角線。

2. 偏差與方差

上節(jié)介紹了集成學(xué)習(xí)的基本概念,這節(jié)我們主要介紹下如何從偏差和方差的角度來理解集成學(xué)習(xí)。

2.1 集成學(xué)習(xí)的偏差與方差

偏差(Bias)描述的是預(yù)測值和真實值之差;方差(Variance)描述的是預(yù)測值作為隨機(jī)變量的離散程度。放一場很經(jīng)典的圖:

圖片

模型的偏差與方差

  • 偏差:描述樣本擬合出的模型的預(yù)測結(jié)果的期望與樣本真實結(jié)果的差距,要想偏差表現(xiàn)的好,就需要復(fù)雜化模型,增加模型的參數(shù),但這樣容易過擬合,過擬合對應(yīng)上圖的 High Variance,點會很分散。低偏差對應(yīng)的點都打在靶心附近,所以喵的很準(zhǔn),但不一定很穩(wěn);
  • 方差:描述樣本上訓(xùn)練出來的模型在測試集上的表現(xiàn),要想方差表現(xiàn)的好,需要簡化模型,減少模型的復(fù)雜度,但這樣容易欠擬合,欠擬合對應(yīng)上圖 High Bias,點偏離中心。低方差對應(yīng)就是點都打的很集中,但不一定是靶心附近,手很穩(wěn),但不一定瞄的準(zhǔn)。

我們常說集成學(xué)習(xí)中的基模型是弱模型,通常來說弱模型是偏差高(在訓(xùn)練集上準(zhǔn)確度低)方差小(防止過擬合能力強(qiáng))的模型,但并不是所有集成學(xué)習(xí)框架中的基模型都是弱模型。Bagging 和 Stacking 中的基模型為強(qiáng)模型(偏差低,方差高),而Boosting 中的基模型為弱模型(偏差高,方差低)。

在 Bagging 和 Boosting 框架中,通過計算基模型的期望和方差我們可以得到模型整體的期望和方差。為了簡化模型,我們假設(shè)基模型的期望為圖片,方差 圖片 ,模型的權(quán)重為 r ,兩兩模型間的相關(guān)系數(shù)圖片相等。由于 Bagging 和 Boosting 的基模型都是線性組成的,那么有:

模型總體期望:

圖片

模型總體方差(公式推導(dǎo)參考協(xié)方差的性質(zhì),協(xié)方差與方差的關(guān)系):

圖片

模型的準(zhǔn)確度可由偏差和方差共同決定:

圖片

2.2 Bagging 的偏差與方差

對于 Bagging 來說,每個基模型的權(quán)重等于 1/m 且期望近似相等,故我們可以得到:

圖片

通過上式我們可以看到:

  • 整體模型的期望等于基模型的期望,這也就意味著整體模型的偏差和基模型的偏差近似。
  • 整體模型的方差小于等于基模型的方差,當(dāng)且僅當(dāng)相關(guān)性為 1 時取等號,隨著基模型數(shù)量增多,整體模型的方差減少,從而防止過擬合的能力增強(qiáng),模型的準(zhǔn)確度得到提高。 但是,模型的準(zhǔn)確度一定會無限逼近于 1 嗎?并不一定,當(dāng)基模型數(shù)增加到一定程度時,方差公式第一項的改變對整體方差的作用很小,防止過擬合的能力達(dá)到極限,這便是準(zhǔn)確度的極限了。

在此我們知道了為什么 Bagging 中的基模型一定要為強(qiáng)模型,如果 Bagging 使用弱模型則會導(dǎo)致整體模型的偏差提高,而準(zhǔn)確度降低。

Random Forest 是經(jīng)典的基于 Bagging 框架的模型,并在此基礎(chǔ)上通過引入特征采樣和樣本采樣來降低基模型間的相關(guān)性,在公式中顯著降低方差公式中的第二項,略微升高第一項,從而使得整體降低模型整體方差。

2.3 Boosting 的偏差與方差

對于 Boosting 來說,由于基模型共用同一套訓(xùn)練集,所以基模型間具有強(qiáng)相關(guān)性,故模型間的相關(guān)系數(shù)近似等于 1,針對 Boosting 化簡公式為:

圖片

通過觀察整體方差的表達(dá)式我們?nèi)菀装l(fā)現(xiàn):

  • 整體模型的方差等于基模型的方差,如果基模型不是弱模型,其方差相對較大,這將導(dǎo)致整體模型的方差很大,即無法達(dá)到防止過擬合的效果。因此,Boosting 框架中的基模型必須為弱模型。
  • 此外 Boosting 框架中采用基于貪心策略的前向加法,整體模型的期望由基模型的期望累加而成,所以隨著基模型數(shù)的增多,整體模型的期望值增加,整體模型的準(zhǔn)確度提高。

基于 Boosting 框架的 Gradient Boosting Decision Tree 模型中基模型也為樹模型,同 Random Forrest,我們也可以對特征進(jìn)行隨機(jī)抽樣來使基模型間的相關(guān)性降低,從而達(dá)到減少方差的效果。

2.4 小結(jié)

  • 我們可以使用模型的偏差和方差來近似描述模型的準(zhǔn)確度;
  • 對于 Bagging 來說,整體模型的偏差與基模型近似,而隨著模型的增加可以降低整體模型的方差,故其基模型需要為強(qiáng)模型;
  • 對于 Boosting 來說,整體模型的方差近似等于基模型的方差,而整體模型的偏差由基模型累加而成,故基模型需要為弱模型。

?那么這里有一個小小的疑問,Bagging 和 Boosting 到底用的是什么模型呢?

3. Random Forest

Random Forest(隨機(jī)森林),用隨機(jī)的方式建立一個森林。RF 算法由很多決策樹組成,每一棵決策樹之間沒有關(guān)聯(lián)。建立完森林后,當(dāng)有新樣本進(jìn)入時,每棵決策樹都會分別進(jìn)行判斷,然后基于投票法給出分類結(jié)果。

3.1 思想

Random Forest(隨機(jī)森林)是 Bagging 的擴(kuò)展變體,它在以決策樹為基學(xué)習(xí)器構(gòu)建 Bagging 集成的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練過程中引入了隨機(jī)特征選擇,因此可以概括 RF 包括四個部分:

  1. 隨機(jī)選擇樣本(放回抽樣);
  2. 隨機(jī)選擇特征;
  3. 構(gòu)建決策樹;
  4. 隨機(jī)森林投票(平均)。

隨機(jī)選擇樣本和 Bagging 相同,采用的是 Bootstrap 自助采樣法;隨機(jī)選擇特征是指在每個節(jié)點在分裂過程中都是隨機(jī)選擇特征的(區(qū)別與每棵樹隨機(jī)選擇一批特征)。

這種隨機(jī)性導(dǎo)致隨機(jī)森林的偏差會有稍微的增加(相比于單棵不隨機(jī)樹),但是由于隨機(jī)森林的“平均”特性,會使得它的方差減小,而且方差的減小補償了偏差的增大,因此總體而言是更好的模型。

隨機(jī)采樣由于引入了兩種采樣方法保證了隨機(jī)性,所以每棵樹都是最大可能的進(jìn)行生長就算不剪枝也不會出現(xiàn)過擬合。

3.2 優(yōu)缺點

優(yōu)點

  1. 在數(shù)據(jù)集上表現(xiàn)良好,相對于其他算法有較大的優(yōu)勢
  2. 易于并行化,在大數(shù)據(jù)集上有很大的優(yōu)勢;
  3. 能夠處理高維度數(shù)據(jù),不用做特征選擇。

4 Adaboost

AdaBoost(Adaptive Boosting,自適應(yīng)增強(qiáng)),其自適應(yīng)在于:前一個基本分類器分錯的樣本會得到加強(qiáng),加權(quán)后的全體樣本再次被用來訓(xùn)練下一個基本分類器。同時,在每一輪中加入一個新的弱分類器,直到達(dá)到某個預(yù)定的足夠小的錯誤率或達(dá)到預(yù)先指定的最大迭代次數(shù)。

4.1 思想

Adaboost 迭代算法有三步:

  1. 初始化訓(xùn)練樣本的權(quán)值分布,每個樣本具有相同權(quán)重;
  2. 訓(xùn)練弱分類器,如果樣本分類正確,則在構(gòu)造下一個訓(xùn)練集中,它的權(quán)值就會被降低;反之提高。用更新過的樣本集去訓(xùn)練下一個分類器;
  3. 將所有弱分類組合成強(qiáng)分類器,各個弱分類器的訓(xùn)練過程結(jié)束后,加大分類誤差率小的弱分類器的權(quán)重,降低分類誤差率大的弱分類器的權(quán)重。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 集成學(xué)習(xí)
    +關(guān)注

    關(guān)注

    0

    文章

    10

    瀏覽量

    7446
  • 機(jī)器學(xué)習(xí)

    關(guān)注

    66

    文章

    8500

    瀏覽量

    134486
  • 決策樹
    +關(guān)注

    關(guān)注

    3

    文章

    96

    瀏覽量

    13816
收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    機(jī)器學(xué)習(xí)中常用的決策樹算法技術(shù)解析

    決策樹是最重要的機(jī)器學(xué)習(xí)算法之一,其可被用于分類和回歸問題。本文中,我們將介紹分類部分。
    發(fā)表于 10-12 16:39 ?1501次閱讀
    機(jī)器<b class='flag-5'>學(xué)習(xí)</b>中常用的<b class='flag-5'>決策</b>樹算法技術(shù)解析

    不可錯過 | 集成學(xué)習(xí)入門精講

    的估計區(qū)間 4、隨機(jī)森林隨機(jī)森林(Random Forest)是Bagging的擴(kuò)展變體。隨機(jī)森林在以決策樹為基學(xué)習(xí)器構(gòu)建Bagging集成的基礎(chǔ),進(jìn)一步在
    發(fā)表于 06-06 10:11

    決策樹在機(jī)器學(xué)習(xí)的理論學(xué)習(xí)與實踐

    決策樹在機(jī)器學(xué)習(xí)的理論學(xué)習(xí)與實踐
    發(fā)表于 09-20 12:48

    機(jī)器學(xué)習(xí)決策介紹

    機(jī)器學(xué)習(xí)——決策樹算法分析
    發(fā)表于 04-02 11:48

    介紹支持向量機(jī)與決策集成等模型的應(yīng)用

    本文主要介紹支持向量機(jī)、k近鄰、樸素貝葉斯分類 、決策樹、決策集成等模型的應(yīng)用。講解了支持向量機(jī)SVM線性與非線性模型的適用環(huán)境,并對核函數(shù)技巧作出深入的分析,對線性Linear核函
    發(fā)表于 09-01 06:57

    決策樹的生成資料

    在本文中,我們將討論一種監(jiān)督式學(xué)習(xí)算法。最新一代意法半導(dǎo)體 MEMS 傳感器內(nèi)置一個基于決策樹分類器的機(jī)器學(xué)習(xí)核心(MLC)。這些產(chǎn)品很容易通過后綴中的 X 來識別(例如,LSM6DSOX)。這種
    發(fā)表于 09-08 06:50

    決策樹的介紹

    關(guān)于決策樹的介紹,是一些很基礎(chǔ)的介紹,不過是英文介紹
    發(fā)表于 09-18 14:55 ?0次下載

    機(jī)器學(xué)習(xí)決策滲透著偏見,能把決策權(quán)完全交給機(jī)器嗎?

    隨著人工智能的發(fā)展,人類將會把越來越多的決策權(quán)交給機(jī)器。但是,從目前的一些事例看,基于機(jī)器學(xué)習(xí)決策并非那么公正完美,相反,那些決策也滲透著偏見。近期的一份研究報告中,Google的一
    發(fā)表于 05-11 10:33 ?1570次閱讀

    決策樹的原理和決策樹構(gòu)建的準(zhǔn)備工作,機(jī)器學(xué)習(xí)決策樹的原理

    希望通過所給的訓(xùn)練數(shù)據(jù)學(xué)習(xí)一個貸款申請的決策樹,用于對未來的貸款申請進(jìn)行分類,即當(dāng)新的客戶提出貸款申請時,根據(jù)申請人的特征利用決策樹決定是否批準(zhǔn)貸款申請。
    的頭像 發(fā)表于 10-08 14:26 ?6419次閱讀

    強(qiáng)化學(xué)習(xí)在智能對話的應(yīng)用介紹

    本文主要介紹深度強(qiáng)化學(xué)習(xí)在任務(wù)型對話的應(yīng)用,兩者的結(jié)合點主要是將深度強(qiáng)化學(xué)習(xí)應(yīng)用于任務(wù)型對話的策略學(xué)習(xí)上來源:騰訊技術(shù)工程微信號
    的頭像 發(fā)表于 12-10 19:02 ?1280次閱讀

    決策樹的基本概念/學(xué)習(xí)步驟/算法/優(yōu)缺點

    本文將介紹決策樹的基本概念、決策學(xué)習(xí)的3個步驟、3種典型的決策樹算法、決策樹的10個優(yōu)缺點。
    發(fā)表于 01-27 10:03 ?2905次閱讀
    <b class='flag-5'>決策</b>樹的基本概念/<b class='flag-5'>學(xué)習(xí)</b>步驟/算法/優(yōu)缺點

    強(qiáng)化學(xué)習(xí)與智能駕駛決策規(guī)劃

    本文介紹了強(qiáng)化學(xué)習(xí)與智能駕駛決策規(guī)劃。智能駕駛中的決策規(guī)劃模塊負(fù)責(zé)將感知模塊所得到的環(huán)境信息轉(zhuǎn)化成具體的駕駛策略,從而指引車輛安全、穩(wěn)定的行駛。真實的駕駛場景往往具有高度的復(fù)雜性及不確
    的頭像 發(fā)表于 02-08 14:05 ?2225次閱讀

    基于集成學(xué)習(xí)決策介紹(下)

    本文主要介紹基于集成學(xué)習(xí)決策樹,其主要通過不同學(xué)習(xí)框架生產(chǎn)基學(xué)習(xí)器,并綜合所有基
    的頭像 發(fā)表于 02-17 15:52 ?639次閱讀
    基于<b class='flag-5'>集成</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>決策</b><b class='flag-5'>介紹</b>(下)

    基于 Boosting 框架的主流集成算法介紹

    本文是決策樹的第三篇,主要介紹基于 Boosting 框架的主流集成算法,包括 XGBoost 和 LightGBM。 XGBoost
    的頭像 發(fā)表于 02-17 15:57 ?1281次閱讀
    基于 Boosting 框架的主流<b class='flag-5'>集成</b>算法<b class='flag-5'>介紹</b>(<b class='flag-5'>上</b>)

    什么是集成學(xué)習(xí)算法-1

    同質(zhì)集成:只包含同種類型算法,比如決策集成全是決策樹,異質(zhì)集成:包含不同種類型算法,比如同時包含神經(jīng)網(wǎng)絡(luò)和
    的頭像 發(fā)表于 02-24 16:37 ?1620次閱讀
    什么是<b class='flag-5'>集成</b><b class='flag-5'>學(xué)習(xí)</b>算法-1
    主站蜘蛛池模板: 久久九九精品国产自在现线拍 | 红尘影院手机在线观看 | 精品国产mmd在线观看 | 善良的小峓子2在钱免费中文字 | 亚洲视频免费 | no视频在线观看 | 亚洲精品无码AV中文字幕蜜桃 | 菠萝菠萝蜜高清观看在线 | 久久久久久久久免费视频 | 亚洲精品无夜久久久久久久久 | 亚洲精品永久免费 | 亚洲视频在线免费 | 九九热在线视频观看这里只有精品 | 扒开女人下面使劲桶动态图 | 扒开腿狂躁女人GIF动态图 | 亚欧免费观看在线观看更新 | 久久re视频这里精品青 | 暗卫受被肉到失禁各种PLAY | 啦啦啦 中文 中国 免费 高清在线 | 久久视频在线视频观看精品15 | 国内精品久久久久影院网站 | 国产日韩在线欧美视频 | 国产精品免费观看视频播放 | 亚州AV中文无码乱人伦在线 | 精品无码国产污污污免费网站2 | 国内精品视频久久久久免费 | 中文字幕免费视频精品一 | 成人国产在线观看 | 狠狠狠狠狠狠干 | 欧美色妞AV重囗味视频 | 狠狠色综合久久婷婷 | 牛牛自拍国产免费视频 | 动漫护士被乳羞羞漫 | 亚洲AV 日韩 国产 有码 | 国产精品久免费的黄网站 | 文中字幕一区二区三区视频播放 | 色吧最新网址 | 国产亚洲精品福利视频 | 亚洲绝美精品一区二区 | 日韩一区二区三区四区区区 | 国产亚洲精品久久久久小 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品