色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

DeepMind為視覺(jué)問(wèn)題回答提出了一種新的硬注意力機(jī)制

DPVg_AI_era ? 來(lái)源:未知 ? 作者:李倩 ? 2018-08-10 08:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepMind為視覺(jué)問(wèn)題回答提出了一種新的硬注意力機(jī)制,它只保留了回答問(wèn)題所需的少量視覺(jué)特征。減少需要處理的特征使得能夠訓(xùn)練更大的關(guān)系模型,并在CLEVR上實(shí)現(xiàn)98.8%的準(zhǔn)確率。

視覺(jué)注意力在許多方面都有助于人類的復(fù)雜視覺(jué)推理。例如,如果想要在一群人中認(rèn)出一只狗的主人,人的視覺(jué)系統(tǒng)會(huì)自適應(yīng)地分配更多的計(jì)算資源來(lái)處理與狗和可能的主人相關(guān)聯(lián)的視覺(jué)信息,而非場(chǎng)景中的其他信息。感知效果是非常明顯的,然而,注意力機(jī)制并不是計(jì)算機(jī)視覺(jué)領(lǐng)域的變革性力量,這可能是因?yàn)樵S多標(biāo)準(zhǔn)的計(jì)算機(jī)視覺(jué)任務(wù),比如檢測(cè)、分割和分類,都沒(méi)有涉及有助于強(qiáng)化注意力機(jī)制的復(fù)雜推理。

要回答關(guān)于特定圖像的細(xì)節(jié)問(wèn)題,這種任務(wù)就需要更復(fù)雜的推理模式。最近,用于解決視覺(jué)問(wèn)答(Visual QA)任務(wù)的計(jì)算機(jī)視覺(jué)方法出現(xiàn)了迅速發(fā)展。成功的Visual QA架構(gòu)必須能夠處理多個(gè)目標(biāo)及其之間的復(fù)雜關(guān)系,同時(shí)還要整合豐富的背景知識(shí),注意力已成為一種實(shí)現(xiàn)優(yōu)秀性能的、有前途的計(jì)算機(jī)視覺(jué)方面的策略。

我們發(fā)現(xiàn),計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)中的注意力機(jī)制存在很大的區(qū)別,即軟注意力(soft attention)和硬注意力(hard attention)?,F(xiàn)有的注意力模型主要是基于soft attention的,所有信息在被聚合之前會(huì)以自適應(yīng)的方式進(jìn)行重新加權(quán)。這樣可以分離出重要信息,并避免這些信息受到不重要信息的干擾,從而提高準(zhǔn)確性。隨著不同信息之間相互作用的復(fù)雜度的降低,學(xué)習(xí)就變得越有效。

圖1:我們使用給定的自然圖像和文本問(wèn)題作為輸入,通過(guò)Visual QA架構(gòu)輸出答案。該架構(gòu)使用硬注意力(hard attention)機(jī)制,僅為任務(wù)選擇重要的視覺(jué)特征,進(jìn)行進(jìn)一步處理。我們的架構(gòu)基于視覺(jué)特征的規(guī)范與其相關(guān)性相關(guān)的前提,那些具有高幅的特征向量對(duì)應(yīng)的是包含重要語(yǔ)義內(nèi)容的圖像區(qū)域。

相比之下,hard attention僅僅選擇一部分信息,對(duì)其進(jìn)行進(jìn)一步處理,這一方法現(xiàn)在已經(jīng)得到越來(lái)越廣泛地使用。和soft attention機(jī)制一樣,hard attention也有可能通過(guò)將計(jì)算重點(diǎn)放在圖像中的重要部分來(lái)提高準(zhǔn)確性和學(xué)習(xí)效率。但除此之外,hard attention的計(jì)算效率更高,因?yàn)樗粚?duì)認(rèn)為相關(guān)度最高的那部分信息做完全處理。

然而,在基于梯度的學(xué)習(xí)框架(如深度學(xué)習(xí))中存在一個(gè)關(guān)鍵的缺點(diǎn):因?yàn)檫x擇要處理的信息的過(guò)程是離散化的,因此也就是不可微分的,所以梯度不能反向傳播到選擇機(jī)制中來(lái)支持基于梯度的優(yōu)化。目前研究人員正在努力來(lái)解決視覺(jué)注意力、文本注意力,乃至更廣泛的機(jī)器學(xué)習(xí)領(lǐng)域內(nèi)的這一缺點(diǎn),這一領(lǐng)域的研究仍然非?;钴S。

本文中,我們探討了一種簡(jiǎn)單的hard attention方法,它在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征表示中引發(fā)有趣的現(xiàn)象:對(duì)于hard attention選擇而言,已被學(xué)習(xí)過(guò)的特征通常是易于訪問(wèn)的。特別是,選擇那些具有最大L2范數(shù)值的特征向量有助于hard attention方法的實(shí)現(xiàn),并體現(xiàn)出性能和效率上的優(yōu)勢(shì)(見(jiàn)圖1)。這種注意力信號(hào)間接來(lái)自標(biāo)準(zhǔn)的監(jiān)督任務(wù)損失,并且不需要明確的監(jiān)督與對(duì)象存在、顯著性或其他可能有意義的相關(guān)指標(biāo)。

硬注意力網(wǎng)絡(luò)和自適應(yīng)硬注意力網(wǎng)絡(luò)

我們使用規(guī)范化的Visual QA pipeline,利用特征向量的L2-norms來(lái)選擇信息的子集,以進(jìn)行進(jìn)一步處理。第一個(gè)版本稱為硬注意力網(wǎng)絡(luò)(Hard Attention Network, HAN),它可以選擇固定數(shù)量的規(guī)范度最高的特征向量,對(duì)其對(duì)應(yīng)的信息作進(jìn)一步處理。

第二個(gè)版本稱為自適應(yīng)硬注意力網(wǎng)絡(luò)(Adaptive Hard Attention Network ,AdaHAN),它會(huì)根據(jù)輸入選擇可變數(shù)量的特征向量。我們的實(shí)驗(yàn)結(jié)果表明,在具有挑戰(zhàn)性的Visual QA任務(wù)中,我們的算法實(shí)際上可以勝過(guò)類似的soft attention架構(gòu)。該方法還能生成可解釋的hard attention masks,其中與被選中特征相關(guān)的圖像區(qū)域通常包含在語(yǔ)義上有意義的信息。我們的模型在與非局部成對(duì)模型相結(jié)合時(shí)也表現(xiàn)出強(qiáng)大的性能。我們的算法通過(guò)成對(duì)的輸入特征進(jìn)行計(jì)算,因此在特征圖中的規(guī)模與向量數(shù)量的平方成正比,這也突出了特征選擇的重要性。

方法

回答有關(guān)圖像的問(wèn)題通常是根據(jù)預(yù)測(cè)模型制定的。這些結(jié)構(gòu)將相對(duì)回答a的條件分布最大化,給定問(wèn)題q和圖像x:

其中A是所有可能答案的可數(shù)集合。就像常見(jiàn)的問(wèn)題-回答一樣,問(wèn)題是一個(gè)單詞序列q = [q1,...,qn],而輸出被簡(jiǎn)化為一組常見(jiàn)答案之間的分類問(wèn)題。我們用于從圖像和問(wèn)題中學(xué)習(xí)映射的架構(gòu)如圖2所示。

圖2:hard attention取代了常用的soft attention機(jī)制。

我們用CNN(在這個(gè)例子中是預(yù)訓(xùn)練過(guò)的ResNet-101,或者從頭開(kāi)始訓(xùn)練的一個(gè)小型CNN)對(duì)圖像進(jìn)行編碼,然后用LSTM將問(wèn)題編碼成固定長(zhǎng)度的向量表示。通過(guò)將問(wèn)題表示復(fù)制到CNN的每個(gè)空間位置來(lái)計(jì)算組合表示,并將其與視覺(jué)特性連接在一起。

在經(jīng)過(guò)幾層組合處理之后,我們將注意力放在了空間位置上,就跟應(yīng)用soft attention機(jī)制的先前工作一樣。最后,我們使用sum-pooling或relational 模塊聚合特性。我們用一個(gè)對(duì)應(yīng)答案類別的標(biāo)準(zhǔn)邏輯回歸損失來(lái)端到端地訓(xùn)練整個(gè)網(wǎng)絡(luò)。

結(jié)果

為了說(shuō)明對(duì)于Visual QA,hard attention的重要性,我們首先在VQA-CP v2上將HAN與現(xiàn)有的soft attention(SAN)架構(gòu)進(jìn)行比較,并通過(guò)直接控制卷積圖中注意空間單元的數(shù)量來(lái)探究不同程度的hard attention的影響。

然后,我們對(duì)AdaHAN進(jìn)行了實(shí)驗(yàn),AdaHAN自適應(yīng)地選擇了attended cell的數(shù)量。我們也簡(jiǎn)要地研究了網(wǎng)絡(luò)深度和預(yù)訓(xùn)練的影響。最后,我們給出了定性的結(jié)果,并提供了在CLEVR數(shù)據(jù)集上的結(jié)果,以說(shuō)明該方法的通用性。

Hard Attention的效果

表1:不同數(shù)量的attended cell(整個(gè)輸入的百分比)和聚合操作的比較

結(jié)果顯示, 有 hard attention下,相比沒(méi)有 hard attention,模型的性能得到了提報(bào)。

表2:不同的自適應(yīng)hard-attention技術(shù)與平均參與數(shù)、以及聚合操作的比較

結(jié)果顯示,soft attention并不優(yōu)于基本的sum polling方法。我們的結(jié)果盡管比state-of-the-art略差,但這可能是由于實(shí)驗(yàn)中未包含的一些架構(gòu)決策,例如不同類型問(wèn)題的分離路徑,特殊問(wèn)題嵌入和使用問(wèn)題提取器( question extractor)。

Adaptive hard attention

表3:不同數(shù)量的attended cells 占整個(gè)輸入的百分比

結(jié)果顯示,即使是以非常簡(jiǎn)單的方法來(lái)適應(yīng)圖像和問(wèn)題,也可以導(dǎo)致計(jì)算和性能的提高,這表明更復(fù)雜的方法將是未來(lái)工作的重要方向。

CLEVR數(shù)據(jù)集上的表現(xiàn)

圖3: hard attention機(jī)制的不同變體與不同聚合方法之間的定性比較。綠色表示正確答案,紅色表示不正確,橙色表示和人類的答案之間的存在部分共識(shí)。這張圖說(shuō)明了不同方法的優(yōu)點(diǎn)。

圖4:我AdaHAN +成pairwise的其他結(jié)果。圖中,被注意的區(qū)域突出顯示,不被注意的區(qū)域則用暗色表示。綠色表示正確,紅色不正確的答案。 橙色表示存在部分共識(shí)。

表4:在CLEVR上的準(zhǔn)確率

由于hard-attention,我們能夠訓(xùn)練更大的模型,我們稱之為HAN + sum?,HAN + RN?,以及HAN + RN??。這些模型使用更大的CNN和LSTM,而且HAN + RN??還使用更高的輸入分辨率。模型在CLEVR上的準(zhǔn)確率分別達(dá)到94.7%、96.9%和98.8%。

總結(jié)

我們?cè)谟?jì)算機(jī)視覺(jué)領(lǐng)域引入了一種新的方法,可以選擇特征向量的子集,以便根據(jù)它們的大小進(jìn)行進(jìn)一步處理。我們研究了兩個(gè)模型,其中一個(gè)模型(HAN)會(huì)選擇數(shù)目預(yù)先確定的向量的子集,另一個(gè)模型(AdaHAN)則自適應(yīng)地選擇子集規(guī)模作為輸入的函數(shù)。現(xiàn)有文獻(xiàn)中經(jīng)常避免提到hard attention,因?yàn)樗豢晌⒎?,?duì)基于梯度的方法提出了挑戰(zhàn)。但是,我們發(fā)現(xiàn)特征向量的大小與相關(guān)信息有關(guān),hard attention機(jī)制可以利用這個(gè)屬性來(lái)進(jìn)行選擇。

結(jié)果顯示,HAN和AdaHAN方法在具有挑戰(zhàn)性的Visual QA數(shù)據(jù)集上的表現(xiàn)具備很強(qiáng)的競(jìng)爭(zhēng)力。我們的方法至少和更常見(jiàn)的soft attention方法的表現(xiàn)一樣好,同時(shí)還提升了計(jì)算的效率。hard attention方法對(duì)于越來(lái)越常見(jiàn)的non-local方法而言尤其重要,這類方法通常需要的計(jì)算量和存儲(chǔ)器數(shù)量與輸入向量的平方成正比。最后,我們的方法還提供了可解釋的表示,因?yàn)檫@種方法所選擇的特征的空間位置與圖像中最重要的部分構(gòu)成最強(qiáng)的相關(guān)性。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴

原文標(biāo)題:DeepMind提出視覺(jué)問(wèn)題回答新模型,CLEVR準(zhǔn)確率達(dá)98.8%

文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 0人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    基于注意力機(jī)制的用戶行為建??蚣芗捌湓谕扑]領(lǐng)域的應(yīng)用

    摘要本文提出一種基于注意力機(jī)制的用戶異構(gòu)行為序列的建??蚣埽⑵鋺?yīng)用到推薦場(chǎng)景中。
    的頭像 發(fā)表于 01-25 17:59 ?5079次閱讀
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的用戶行為建??蚣芗捌湓谕扑]領(lǐng)域的應(yīng)用

    一種通過(guò)引入注意力機(jī)制來(lái)引導(dǎo)學(xué)習(xí)視覺(jué)回答任務(wù)的研究

    此外,通過(guò)對(duì)特征向量的 L2 正則化處理來(lái)選擇重要性特征,我們的視覺(jué)問(wèn)答框架進(jìn)步采用注意力機(jī)制進(jìn)行增強(qiáng)。我們將最初的版本成為
    的頭像 發(fā)表于 10-04 09:23 ?5844次閱讀

    深度分析NLP中的注意力機(jī)制

    注意力機(jī)制越發(fā)頻繁的出現(xiàn)在文獻(xiàn)中,因此對(duì)注意力機(jī)制的學(xué)習(xí)、掌握與應(yīng)用顯得十分重要。本文便對(duì)注意力機(jī)制
    的頭像 發(fā)表于 02-17 09:18 ?4157次閱讀

    注意力機(jī)制的誕生、方法及幾種常見(jiàn)模型

    簡(jiǎn)而言之,深度學(xué)習(xí)中的注意力機(jī)制可以被廣義地定義個(gè)描述重要性的權(quán)重向量:通過(guò)這個(gè)權(quán)重向量為了預(yù)測(cè)或者推斷個(gè)元素,比如圖像中的某個(gè)像素或
    的頭像 發(fā)表于 03-12 09:49 ?4.2w次閱讀

    基于注意力機(jī)制的深度學(xué)習(xí)模型AT-DPCNN

    情感分析是自然語(yǔ)言處理領(lǐng)域的個(gè)重要分支,卷積神經(jīng)網(wǎng)絡(luò)(CNN)在文本情感分析方面取得了較好的效果,但其未充分提取文本信息中的關(guān)鍵情感信息。為此,建立一種基于注意力機(jī)制的深度學(xué)習(xí)模型A
    發(fā)表于 03-17 09:53 ?12次下載
    基于<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>的深度學(xué)習(xí)模型AT-DPCNN

    基于通道注意力機(jī)制的SSD目標(biāo)檢測(cè)算法

    提升原始SSD算法的小目標(biāo)檢測(cè)精度及魯棒性,提出一種基于通道注意力機(jī)制的SSD目標(biāo)檢測(cè)算法。在原始SSD算法的基礎(chǔ)上對(duì)高層特征圖進(jìn)行全局池
    發(fā)表于 03-25 11:04 ?20次下載

    一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESIM

    在自然語(yǔ)言處理任務(wù)中使用注意力機(jī)制可準(zhǔn)確衡量單詞重要度。為此,提出一種注意力增強(qiáng)的自然語(yǔ)言推理模型aESM。將詞
    發(fā)表于 03-25 11:34 ?9次下載
    <b class='flag-5'>一種</b><b class='flag-5'>注意力</b>增強(qiáng)的自然語(yǔ)言推理模型aESIM

    結(jié)合注意力機(jī)制的跨域服裝檢索方法

    針對(duì)跨域服裝檢索中服裝商品圖像拍攝嚴(yán)格約束光照、背景等條件,而用戶圖像源自復(fù)雜多變的日常生活場(chǎng)景,難以避免背景干擾以及視角、姿態(tài)引起的服裝形變等問(wèn)題。提出一種結(jié)合注意力機(jī)制的跨域服裝檢
    發(fā)表于 05-12 14:19 ?2次下載

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型

    基于注意力機(jī)制等的社交網(wǎng)絡(luò)熱度預(yù)測(cè)模型
    發(fā)表于 06-07 15:12 ?14次下載

    基于多通道自注意力機(jī)制的電子病歷架構(gòu)

    基于多通道自注意力機(jī)制的電子病歷架構(gòu)
    發(fā)表于 06-24 16:19 ?75次下載

    基于注意力機(jī)制的跨域服裝檢索方法綜述

    基于注意力機(jī)制的跨域服裝檢索方法綜述
    發(fā)表于 06-27 10:33 ?2次下載

    基于注意力機(jī)制的新聞文本分類模型

    基于注意力機(jī)制的新聞文本分類模型
    發(fā)表于 06-27 15:32 ?30次下載

    計(jì)算機(jī)視覺(jué)中的注意力機(jī)制

    計(jì)算機(jī)視覺(jué)中的注意力機(jī)制 卷積神經(jīng)網(wǎng)絡(luò)中常用的Attention 參考 注意力機(jī)制簡(jiǎn)介與分類 注意力
    發(fā)表于 05-22 09:46 ?1次下載
    計(jì)算機(jī)<b class='flag-5'>視覺(jué)</b>中的<b class='flag-5'>注意力</b><b class='flag-5'>機(jī)制</b>

    一種新的深度注意力算法

    本文簡(jiǎn)介了一種新的深度注意力算法,即深度殘差收縮網(wǎng)絡(luò)(Deep Residual Shrinkage Network)。從功能上講,深度殘差收縮網(wǎng)絡(luò)是一種面向強(qiáng)噪聲或者高度冗余數(shù)據(jù)的特征學(xué)習(xí)方法
    發(fā)表于 05-24 16:28 ?0次下載
    <b class='flag-5'>一種</b>新的深度<b class='flag-5'>注意力</b>算法

    基于YOLOv5s基礎(chǔ)上實(shí)現(xiàn)五視覺(jué)注意力模塊的改進(jìn)

    基礎(chǔ)上實(shí)現(xiàn)五視覺(jué)注意力模塊的改進(jìn),然后訓(xùn)練相同的輪次,橫向比較模型的精度。 YOLOv5添加注意模塊魔改 ?視覺(jué)
    的頭像 發(fā)表于 06-02 14:52 ?2064次閱讀
    基于YOLOv5s基礎(chǔ)上實(shí)現(xiàn)五<b class='flag-5'>種</b><b class='flag-5'>視覺(jué)</b><b class='flag-5'>注意力</b>模塊的改進(jìn)
    主站蜘蛛池模板: 嗯啊快拔出来我是你老师视频 | 国产精品久久久久久久人人看 | 寂寞夜晚在线视频观看 | 野花香HD免费高清版6高清版 | 中文字幕亚洲无线码一区 | 99青草青草久热精品视频 | 亚洲AV 无码AV 中文字幕 | 亚久久伊人精品青青草原2020 | 日本人xxxⅹ18hd19hd | 恋夜影院安卓免费列表uc | 中文字幕偷乱免费视频在线 | 乱叫抽搐流白浆免费视频 | 老司机福利在 线影院 | 亚洲日韩中文字幕区 | 囯产少妇BBBBBB高潮喷水一 | 日本经典片免费看 | 成年人在线视频免费观看 | 美女教师朝桐光在线播放 | 第七色 夜夜撸 | 偷拍自偷拍亚洲精品 | 免费看大黄高清网站视频在线 | 99在线免费观看 | 99久久99久久久精品齐齐鬼色 | 九九热这里只有精品2 | 91交换论坛 | 卫生间被教官做好爽HH视频 | 久久久无码精品无码国产人妻丝瓜 | 日本超A大片在线观看 | 人人澡人人爽人人精品 | 欧美四虎精品二区免费 | 女人吃男人的鸡鸡 | china18一19 第一次 | 蜜柚免费视频高清观看在线 | 91精品国产91| 伊人久久大香线蕉观看 | 国产ZZJJZZJJ视频全免费 | 国产午夜人成在线视频麻豆 | 色播播电影 | 在线成 人av影院 | 人妻免费久久久久久久了 | 菠萝菠萝蜜视频在线看1 |

    電子發(fā)燒友

    中國(guó)電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會(huì)員交流學(xué)習(xí)
    • 獲取您個(gè)性化的科技前沿技術(shù)信息
    • 參加活動(dòng)獲取豐厚的禮品