色哟哟视频在线观看-色哟哟视频在线-色哟哟欧美15最新在线-色哟哟免费在线观看-国产l精品国产亚洲区在线观看-国产l精品国产亚洲区久久

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
电子发烧友
开通电子发烧友VIP会员 尊享10大特权
海量资料免费下载
精品直播免费看
优质内容免费畅学
课程9折专享价
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

SimANS:簡單有效的困惑負(fù)樣本采樣方法

深度學(xué)習(xí)自然語言處理 ? 來源:RUC AI Box ? 2023-03-03 10:56 ? 次閱讀

本文介紹了本小組發(fā)表于EMNLP2022 Industry Track的論文SimANS,其設(shè)計了一簡單有效的通用困惑負(fù)樣本采樣方法,在5個數(shù)據(jù)集上提升了SOTA的稠密檢索模型的效果。

論文下載地址:https://arxiv.org/pdf/2210.11773.pdf

論文開源代碼:https://github.com/microsoft/SimXNS

前言

在各類檢索任務(wù)中,為訓(xùn)練好一個高質(zhì)量的檢索模型,往往需要從大量的候選樣本集合中采樣高質(zhì)量的負(fù)例,配合正例一起進(jìn)行訓(xùn)練。已有的負(fù)采樣方法往往采用隨機(jī)采樣策略(Random Sampling)或直接基于該檢索模型自身選擇Top-K負(fù)例(Top-K Hard Negative Sampling),前者易得到過于簡單的樣例,無法為模型訓(xùn)練提供足夠信息;后者很可能采樣得到假負(fù)例(False Negative),反而干擾模型訓(xùn)練。本文針對稠密檢索場景,通過一系列基于負(fù)例梯度的實驗對隨機(jī)采樣和Top-K采樣兩種方式導(dǎo)致的問題進(jìn)行分析,發(fā)現(xiàn)前一種負(fù)例產(chǎn)生的梯度均值較小、后一種負(fù)例產(chǎn)生的梯度方差較大,這兩者都不利于檢索模型訓(xùn)練。此外,以上實驗還發(fā)現(xiàn),在所有負(fù)例候選中,與Query的語義相似度接近于正例的負(fù)例可以同時具有較大的梯度均值和較小的梯度方差,是更加高質(zhì)量的困惑負(fù)樣本。因此我們設(shè)計了一個簡單的困惑負(fù)樣本采樣方法SimANS,在4個篇章和文檔檢索數(shù)據(jù)集,以及Bing真實數(shù)據(jù)集上均成功提升了SOTA模型的效果,且該方法已經(jīng)應(yīng)用于Bing搜索系統(tǒng)。

一、研究背景與動機(jī)

1、稠密檢索

給出用戶的查詢Query,檢索任務(wù)關(guān)注于從大量的候選文檔集中檢索最相關(guān)的Top-K文檔。隨著近年來文本表示方法的發(fā)展,稠密檢索任務(wù)開始成為該任務(wù)的主流方法,其通常采用一雙塔模型架構(gòu),分別將查詢Query和候選Document轉(zhuǎn)換成低維的稠密表示,然后基于Query和Document稠密表示的點積來預(yù)測兩者的語義相關(guān)性,并依此進(jìn)行候選文檔的排序。這一計算方式支持ANN等方法加速,故可以推廣到千萬級別文檔的查詢。

近年來,由于預(yù)訓(xùn)練語言模型的出現(xiàn),已有的稠密檢索方法往往采用預(yù)訓(xùn)練語言模型作為Query和Document的Encoder,然后將其編碼后生成的[CLS]表示作為其稠密表示。

2、負(fù)采樣方法

為訓(xùn)練該稠密檢索模型,已有方法通常基于一對比學(xué)習(xí)訓(xùn)練目標(biāo),即拉近語義一致的Query和Document的表示(Positive),并推遠(yuǎn)語義無關(guān)的Document(Negative)。由于在大量的候選文檔集中,大量的文檔都是語義無關(guān)的,故需要采用一合適的負(fù)采樣方法,從中選擇高質(zhì)量的負(fù)例來進(jìn)行訓(xùn)練,依此減少需要的負(fù)樣本數(shù)量。

2.1.隨機(jī)負(fù)采樣

該類方法直接基于一均勻分布從所有的候選Document中隨機(jī)抽取Document作為負(fù)例,這一過程中由于無法保證采樣得到的負(fù)例的質(zhì)量,故經(jīng)常會采樣得到過于簡單的負(fù)例,其不僅無法給模型帶來有用信息,還可能導(dǎo)致模型過擬合,進(jìn)而無法區(qū)分某些較難的負(fù)例樣本。

2.2.Top-K負(fù)采樣

該類方法往往基于一稠密檢索模型對所有候選Document與Query計算匹配分?jǐn)?shù),然后直接選擇其中Top-K的候選Document作為負(fù)例。該方法雖然可以保證采樣得到的負(fù)例是模型未能較好區(qū)分的較難負(fù)例,但是其很可能將潛在的正例也誤判為負(fù)例,即假負(fù)例(False Negative)。如果訓(xùn)練模型去將該部分假負(fù)例與正例區(qū)分開來,反而會導(dǎo)致模型無法準(zhǔn)確衡量Query-Document的語義相似度。

二、先導(dǎo)實驗

1、理論分析不同負(fù)例訓(xùn)練時對梯度的影響

以稠密檢索常用的BCE loss為例,正例與采樣的負(fù)例在計算完語義相似度分?jǐn)?shù)后,均會被softmax歸一化,之后計算得到的梯度如下所示:

上式中是經(jīng)過softmax歸一化后的語義相似度分?jǐn)?shù)。對于隨機(jī)采樣方法,由于其采樣得到的負(fù)例往往過于簡單,其會導(dǎo)致該分?jǐn)?shù)接近于零,,進(jìn)而導(dǎo)致其生成的梯度均值也接近于零,,這樣過于小的梯度均值會導(dǎo)致模型不易于收斂。對于Top-K采樣方法,由于其很容易采樣得到語義與正例一致的假負(fù)例,其會導(dǎo)致正負(fù)樣本的右項值相似,但是左項符號相反,這樣會導(dǎo)致計算得到的梯度方差很大,同樣導(dǎo)致模型訓(xùn)練不穩(wěn)定。

2、實驗驗證不同負(fù)例的梯度與語義相似度關(guān)系

我們基于SOTA的稠密檢索模型AR2,在MS-MARCO數(shù)據(jù)集上,首先計算候選Document與Query的語義相似度分?jǐn)?shù),然后將這些Document進(jìn)行排序,并計算其梯度的均值與方差。如下圖所示,我們可以看到實驗結(jié)論與以上分析一致,排名靠前的Top-K負(fù)例產(chǎn)生的梯度均值和方差均很大;而排名靠后的負(fù)例產(chǎn)生的均值和方差均很小,兩者不能很好的平衡大均值和小方差這兩個很重要的負(fù)例性質(zhì)。作為對比的是,與正例語義相似度接近的負(fù)例往往能夠同時取得較大的梯度均值和較小的梯度方差,有利于模型訓(xùn)練。我們將其命名為困惑樣本(既不過于難又不過于容易區(qū)分),并關(guān)注于對其進(jìn)行采樣。

7bed60ce-b91e-11ed-bfe3-dac502259ad0.png

三、SimANS:簡單的困惑樣本采樣方法

基于上述實驗,我們考慮對與正例語義相似度接近的困惑負(fù)例樣本進(jìn)行采樣。故設(shè)計的采樣方法應(yīng)該具有以下特點:(1)與Query無關(guān)的Document應(yīng)被賦予較低的相關(guān)分?jǐn)?shù),因其可提供的信息量不足;(2)與Query很可能相關(guān)的Document應(yīng)被賦予較低的相關(guān)分?jǐn)?shù),因其可能是假負(fù)例;(3)與正例語義相似度接近的Document應(yīng)該被賦予較高的相關(guān)分?jǐn)?shù),因其既需要被學(xué)習(xí),同時是假負(fù)例的概率相對較低。

7c0827e2-b91e-11ed-bfe3-dac502259ad0.png

困惑樣本采樣分布

通過以上分析可得,在該采樣分布中,隨著Query與候選Document相關(guān)分?jǐn)?shù)和與正例的相關(guān)分?jǐn)?shù)的差值的縮小,該候選Document被采樣作為負(fù)例的概率應(yīng)該逐漸增大,故可將該差值作為輸入,配合任意一單調(diào)遞減函數(shù)即可實現(xiàn)(如)。故可設(shè)計采樣分布如下所示:

其中為控制該分布密度的超參數(shù),為控制該分布極值點的超參數(shù),是一隨機(jī)采樣的正例樣本,是Top-K的負(fù)例。通過調(diào)節(jié)K的大小,我們可以控制該采樣分布的計算開銷。以下為該采樣方法具體實現(xiàn)的偽代碼:

7c17d3fe-b91e-11ed-bfe3-dac502259ad0.png

四、實驗結(jié)果

1、主實驗

我們在4個公開的文檔檢索數(shù)據(jù)集上進(jìn)行實驗,分別是Natural Question(NQ)、Trivia QA(TQ)、MS-MARCO Passage Ranking(MS-Pas)和MS-MARCO Document Ranking(MS-Doc)數(shù)據(jù)集;同時還在Bing真實工業(yè)數(shù)據(jù)集上進(jìn)行實驗,實驗結(jié)果如下表所示。通過對比可以清晰地看出我們的方法可以提升SOTA的AR2模型的效果,進(jìn)一步領(lǐng)先其他模型。

7c4138fc-b91e-11ed-bfe3-dac502259ad0.png

7c5b1506-b91e-11ed-bfe3-dac502259ad0.png

2、該負(fù)采樣方法的通用性

我們還在RocketQA和ANCE這兩個經(jīng)典的稠密檢索模型上實現(xiàn)了我們提出的SimANS方法,來提升這些模型的性能。可以看出,在采用該方法之后,以上兩個模型的的表現(xiàn)都超過了原始模型,證明了我們提出的方法的通用性。

7c70fa74-b91e-11ed-bfe3-dac502259ad0.png

3、負(fù)采樣分布的可視化

在實驗的最后,我們將SimANS得到的采樣分布制作成圖,可以看到我們的采樣分布函數(shù)確實能夠懲罰過于難和過于簡單的負(fù)例,并保證與正例的語義相似度接近的負(fù)例的采樣概率較大。實現(xiàn)了我們的設(shè)計初衷。

7c87cb32-b91e-11ed-bfe3-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 參數(shù)
    +關(guān)注

    關(guān)注

    11

    文章

    1866

    瀏覽量

    32851
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    558

    瀏覽量

    10659
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1222

    瀏覽量

    25268

原文標(biāo)題:EMNLP2022 | SimANS:簡單有效的困惑負(fù)樣本采樣方法

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 0人收藏

    評論

    相關(guān)推薦
    熱點推薦

    機(jī)器學(xué)習(xí)的5種采樣方法介紹

    一種廣泛采用的處理高度不平衡數(shù)據(jù)集的技術(shù)稱為重采樣。它包括從多數(shù)類(欠采樣)中刪除樣本或向少數(shù)類(過采樣)中添加更多示例。
    發(fā)表于 05-17 09:53 ?5803次閱讀

    PCB接地設(shè)計寶典4:采樣時鐘考量和混合信號接地的困惑根源

    的噪聲源來自rms采樣時鐘抖動tj。通過簡單示例可知,如果tj = 50 ps (rms),f = 100 kHz,則SNR = 90 dB,相當(dāng)于約15位的動態(tài)范圍。應(yīng)注意,以上示例中的tj 實際上
    發(fā)表于 11-20 10:58

    怎么使用UART向PC發(fā)送數(shù)字樣本

    你好,我正在研究我們的語音信號,并使用UART向PC發(fā)送這些數(shù)字樣本,并使用超終端在PC中進(jìn)行采集。問題是我丟失了很多樣品。對于16000個BPS采樣率,我只收集每秒1600個樣本。我沒有使用DMA
    發(fā)表于 04-28 10:28

    一種先分割后分類的兩階段同步端到端缺陷檢測方法

    作者:SFXiang首發(fā):AI算法修煉營本文是一種端到端的先分割后分類的表面缺陷檢測方法。主要的創(chuàng)新點在于如何將兩類任務(wù)更好地進(jìn)行同步學(xué)習(xí),本文首先平衡分割損失和分類損失,然后對負(fù)樣本采樣
    發(fā)表于 07-24 11:01

    有什么簡單可行的方法可以實現(xiàn)負(fù)壓輸出呢

    BUCK電路的接法是怎樣的?有什么簡單可行的方法可以實現(xiàn)負(fù)壓輸出呢?
    發(fā)表于 11-03 07:16

    測量功率二極管的反向恢復(fù)時間簡單有效方法

    測量功率二極管的反向恢復(fù)時間簡單有效方法 在互聯(lián)網(wǎng)上很少看到測量二極管的反向恢復(fù)時間(trr and Irr)簡單有效
    發(fā)表于 11-11 09:48 ?101次下載

    什么是采樣頻率?什么叫采樣頻率

    什么是采樣頻率?什么叫采樣頻率 采樣頻率:即取樣頻率,指每秒鐘取得聲音樣本的次數(shù).它的采樣頻率越高,聲音的
    發(fā)表于 05-04 19:42 ?2.2w次閱讀
    什么是<b class='flag-5'>采樣</b>頻率?什么叫<b class='flag-5'>采樣</b>頻率

    入侵檢測樣本數(shù)據(jù)優(yōu)化方法

    ,分析了算法的時間復(fù)雜度。實驗結(jié)果表明,該方法有效減少數(shù)據(jù)信息損失,具有迭代次數(shù)少、收斂速度快等優(yōu)點,可有效提高入侵檢測樣本數(shù)據(jù)的優(yōu)化效率。
    發(fā)表于 02-26 10:29 ?0次下載

    經(jīng)典的采樣方法有哪些?

    可以看到蒙特卡洛法其實就是按一定的概率分布中獲取大量樣本,用于計算函數(shù)在樣本的概率分布上的期望。其中最關(guān)鍵的一個步驟就是如何按照指定的概率分布 p 進(jìn)行樣本采樣,拋硬幣這個 case
    的頭像 發(fā)表于 07-09 09:43 ?1.4w次閱讀
    經(jīng)典的<b class='flag-5'>采樣</b><b class='flag-5'>方法</b>有哪些?

    基于構(gòu)造性覆蓋算法的過采樣技術(shù)CMOTE

    如何提高對少數(shù)類樣本的識別能力是不平衡數(shù)據(jù)分類中的一個研究熱點。合成少數(shù)類過采樣技術(shù)( SMOTE)是解決此類問題的代表性方法之一。近年來,不少研究者對 SMOTE做出了一些改進(jìn),較好地提高了該
    發(fā)表于 04-12 16:09 ?5次下載
    基于構(gòu)造性覆蓋算法的過<b class='flag-5'>采樣</b>技術(shù)CMOTE

    一種從患者血液樣本有效分離異質(zhì)性CTCs的簡單、廣譜的方法

    針對上述挑戰(zhàn),中國科學(xué)院蘇州納米所裴仁軍研究團(tuán)隊利用單寧酸(TA)功能化磁性納米顆粒(MNPs),建立了一種從患者血液樣本有效分離異質(zhì)性CTCs的簡單、廣譜的方法
    的頭像 發(fā)表于 06-11 09:19 ?2379次閱讀
    一種從患者血液<b class='flag-5'>樣本</b>中<b class='flag-5'>有效</b>分離異質(zhì)性CTCs的<b class='flag-5'>簡單</b>、廣譜的<b class='flag-5'>方法</b>

    基于有效樣本的類別不平衡損失

    導(dǎo)讀 使用每個類的有效樣本數(shù)量來重新為每個類的Loss分配權(quán)重,效果優(yōu)于RetinaNet中的Focal Loss。 本文綜述了康奈爾大學(xué)、康奈爾科技、谷歌Brain和Alphabet公司的基于有效
    的頭像 發(fā)表于 08-16 11:14 ?2060次閱讀
    基于<b class='flag-5'>有效</b><b class='flag-5'>樣本</b>的類別不平衡損失

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

    融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述 來源:《系統(tǒng)工程與電子技術(shù)》,作者潘崇煜等 摘 要:?深度學(xué)習(xí)模型嚴(yán)重依賴于大量人工標(biāo)注的數(shù)據(jù),使得其在數(shù)據(jù)缺乏的特殊領(lǐng)域內(nèi)應(yīng)用嚴(yán)重受限。面對數(shù)據(jù)缺乏
    發(fā)表于 02-09 11:22 ?2611次閱讀
    融合零<b class='flag-5'>樣本</b>學(xué)習(xí)和小<b class='flag-5'>樣本</b>學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)<b class='flag-5'>方法</b>綜述

    雙塔模型擴(kuò)量負(fù)樣本方法比較

    雙塔模型在訓(xùn)練時是對一個batch內(nèi)樣本訓(xùn)練。一個batch內(nèi)每個樣本 (user和item對)為正樣本,該user與batch內(nèi)其它item為負(fù)
    的頭像 發(fā)表于 07-08 10:57 ?1480次閱讀

    基于有效樣本數(shù)的類平衡損失

    本文綜述了康奈爾大學(xué)、康奈爾科技、谷歌Brain和Alphabet公司的基于有效樣本數(shù)的類平衡損失(CB損失)。
    的頭像 發(fā)表于 08-25 09:41 ?1426次閱讀
    主站蜘蛛池模板: 99视频免费在线 | 欧美自拍亚洲综合图区 | 国产婷婷午夜无码A片 | 变形金刚7免费观看完整 | 欧美在线看费视频在线 | 日韩精品一区二区三区AV在线观看 | 国产精品久久欧美一区 | 被滋润的艳妇疯狂呻吟白洁老七 | 又黄又粗又爽免费观看 | 精品国产乱码久久久久久免费流畅 | 97视频在线观看免费视频 | 天龙八部慕容属性加点 | 国产精品99久久久精品无码 | 国产一区二区波多野结衣 | 免费观看视频成人国产 | 97久久精品人人槡人妻人 | 国产精品自产拍在线观看中文 | 国产女合集第六部 | 婷婷精品国产亚洲AV在线观看 | 色99久久久久高潮综合影院 | 欧美一区二区视频97色伦 | 18岁男人女人插孔 | 国产成人v视频在线观看 | 国产99久久久国产精品免费看 | 最近2019年日本中文免费字幕 | 国产乱码精品一区二区三区四川 | 99视频久九热精品 | 日韩精品一区二区亚洲AV观看 | 小SAO货边洗澡边CAO你动漫 | OLDMAN老头456 TUBE | 欧美伊人久久大香线蕉综合69 | 久久精品免费观看久久 | 久久综久久美利坚合众国 | 中文无码第3页不卡av | A级毛片高清免费网站不卡 a级毛片高清免费视频 | 精品国产午夜福利在线观看蜜月 | 小蝌蚪视频在线观看免费观看WWW | 亚洲 欧美 清纯 校园 另类 | 精品午夜久久福利大片免费 | 深夜释放自己在线观看 | 久草草在线视视频 |

    電子發(fā)燒友

    中國電子工程師最喜歡的網(wǎng)站

    • 2931785位工程師會員交流學(xué)習(xí)
    • 獲取您個性化的科技前沿技術(shù)信息
    • 參加活動獲取豐厚的禮品