xxxx日本熟妇hd,欧美va久久久噜噜噜久久

當(dāng)前位置： OFweek 人工智能網(wǎng) > 正文

中科院計(jì)算所副研究員馮洋：神經(jīng)機(jī)器翻譯的訓(xùn)練改進(jìn)和解碼提速

2020-04-07 16:18

將門創(chuàng)投

關(guān)注

2．可導(dǎo)的序列級(jí)目標(biāo)

接下來介紹如果解決詞級(jí)匹配的對(duì)于好一點(diǎn)的匹配和差的匹配一視同仁的問題。

這個(gè)是我們在EMNLP 2018上所做的工作。通過使用可導(dǎo)的序列級(jí)目標(biāo)來解決詞級(jí)匹配的問題。

首先介紹一下傳統(tǒng)的序列級(jí)損失函數(shù)。傳統(tǒng)的序列級(jí)損失函數(shù)基本上都是基于N－gram正確率的損失函數(shù)，比如，BLEU，GLEU等等。計(jì)算方法為，命中n－gram的個(gè)數(shù)／總共的n－gram的個(gè)數(shù)（candidate），其中n－gram的個(gè)數(shù)為其每個(gè)詞語出現(xiàn)頻次的乘積。

直接使用BLEU不可到的原因是因?yàn)椴僮髦杏衋rgmax，為了使其可導(dǎo)，我們使用token的預(yù)測概率，而非使用argmax。這個(gè)方法和直接用BLEU作為Score，然后reinforce算法直接訓(xùn)練對(duì)比有啥優(yōu)勢？由于reinforce算法的方差比較大，所以在訓(xùn)練的時(shí)候是很難收斂的。而使用傳統(tǒng)的梯度下降的方法，訓(xùn)練過程就會(huì)平穩(wěn)的多。

這里是3－gram的例子，其中output是概率最高的詞，3－gram概率的是由獨(dú)立Token的輸出概率相乘得到結(jié)果，然后求和會(huì)得到The total probabilistic count of 3－grams。將匹配上的3－gram的概率拿出來求和作為分子，Total probabilistic count作為分母，計(jì)算得到 Precision of 3－grams。這就是我們的loss。

這個(gè)例子用來展示整個(gè)的訓(xùn)練過程，這里需要注意的一點(diǎn)就是，和傳統(tǒng)的teacher forcing方式不同，這里當(dāng)前步輸入的為上一步預(yù)測的結(jié)果（貪心搜索得到的結(jié)果），而不是ground truth的值。剩下的就是按照上頁slides介紹的來計(jì)算loss。對(duì)于loss采用傳統(tǒng)的梯度下降算法即可。下面貼的是在數(shù)據(jù)集上的結(jié)果。