欧美激情久久久久久,人妻久久精品天天中文字幕,国产精品无码色一区二区三区按摩 ,日韩中文无码有码免费视频

<dfn id="hts4w"></dfn>

<dfn id="hts4w"><sub id="hts4w"><bdo id="hts4w"></bdo></sub></dfn>

支持中文和更多語(yǔ)言的 NLP 預訓練技術(shù)你會(huì )使用嗎？

日期：2018-11-11 作者：分類(lèi)：行業(yè)新聞瀏覽：2046次

缺少訓練數據是自然語(yǔ)言處理（Natural Language Processing, NLP）面臨的最大挑戰之一。由于 NLP 是一個(gè)具備不同任務(wù)的多樣化領(lǐng)域，因此大多數任務(wù)特定數據集僅包含幾千或幾十萬(wàn)個(gè)人類(lèi)標簽的訓練樣例。然而，基于深度學(xué)習的 NLP 模型可以從更大量的數據中獲益，在數百萬(wàn)或數十億的帶標簽的訓練樣例中學(xué)習得到改善。為了幫助縮小在數據方面的差距，研究人員開(kāi)發(fā)了各種技術(shù)，使用網(wǎng)絡(luò )上無(wú)標簽的文本訓練一個(gè)通用的語(yǔ)言表示模型（稱(chēng)為預訓練）。用預訓練模型在小數據的 NLP 任務(wù)（如問(wèn)答和情感分析）上進(jìn)行微調，與從頭開(kāi)始訓練相比，可以顯著(zhù)提高準確度。

本周我們開(kāi)源了一種 NLP 預訓練新技術(shù) Bidirectional Encoder Representations from Transformers（BERT）（https://github.com/google-research/bert）。此次發(fā)布的版本中，世界上任何人都可以在一個(gè)云 TPU 上花費大約 30 分鐘，或使用單個(gè) GPU 在幾個(gè)小時(shí)內訓練他們自己最先進(jìn)的問(wèn)答系統（或各種其他模型）。該版本包括在 TensorFlow 之上構建的源代碼和許多預先訓練的語(yǔ)言表示模型。在我們的相關(guān)論文中，展示了包括斯坦福問(wèn)答數據集（SQUAD v1.1）在內 11 個(gè) NLP 任務(wù)的最新結果。

是什么讓 BERT 與眾不同？

BERT 建立在最新的預訓練與上下文相關(guān)的語(yǔ)言表示的工作之上 — 包括 Semi-supervised Sequence Learning、Generative Pre-Training、ELMo 和 ULMFit。然而，與以前的模型不同，BERT 是第一個(gè)深度、雙向、無(wú)監督的語(yǔ)言表示模型，僅使用無(wú)標簽的文本語(yǔ)料庫（在本例中為維基百科）進(jìn)行預訓練。

為什么這很重要？預訓練表示可以是與上下文無(wú)關(guān)的或與上下文相關(guān)的。與上下文相關(guān)的表示又可以分成單向（只跟上文或下文相關(guān)）或雙向的（同時(shí)考慮上文和下文）。與上下文無(wú)關(guān)模型諸如 word2vec 或 GloVe 之類(lèi)的對每個(gè)單詞生成一個(gè)詞嵌入表示，所以在這些模型下 “bank” 一詞在 “bank account” 和 “bank of the river” 中會(huì )具有相同的表示。而與上下文相關(guān)模型則基于句子中其他單詞來(lái)生成每個(gè)詞的表示。例如，在句子 “I accessed the bank account” 中，一個(gè)單向的上下文相關(guān)模型表示 “bank” 會(huì )基于上文 “I accessed the” 而非下文 “account”。然而，BERT 表示 “bank” 會(huì )同時(shí)使用它的上文和下文 — “I accessed the ... account” — 從深層神經(jīng)網(wǎng)絡(luò )的最底層開(kāi)始，成為雙向的表示。

與先前工作中領(lǐng)先的上下文預訓練方法相比，BERT 神經(jīng)網(wǎng)絡(luò )架構的示意圖如下所示。箭頭表示從一個(gè)層到下一個(gè)層的信息流。圖示中頂部的綠色框對應每個(gè)輸入詞最終的上下文表示：

支持中文和更多語(yǔ)言的 NLP 預訓練技術(shù)你會(huì )使用嗎？

雙向的力量

如果雙向如此強大，為什么以前沒(méi)有這樣實(shí)現？在訓練單向模型時(shí)，預測詞時(shí)必須只能基于句子中上文的單詞。然而，想要直接讓模型同時(shí)根據上文和下文來(lái)預測詞是不可能的，因為這將允許被預測的單詞會(huì )隨著(zhù)多層模型間接地 “看見(jiàn)自己”。

為了解決這個(gè)問(wèn)題，我們使用直接的蒙版技術(shù)來(lái)掩蓋輸入中的一些單詞，然后模型就能同時(shí)根據上文和下文來(lái)預測被掩蓋的單詞。例如：

雖然這個(gè)想法由來(lái)已久，但是 BERT 首次把它成功應用到預訓練深度神經(jīng)網(wǎng)絡(luò )中。

BERT 還學(xué)習如何建模句子之間的關(guān)系，通過(guò)預訓練對任何文本語(yǔ)料庫都可生成的一個(gè)很簡(jiǎn)單的任務(wù)來(lái)實(shí)現：給定兩個(gè)句子 A 和 B，判斷 B 是在語(yǔ)料庫中 A 之后實(shí)際出現的下一個(gè)句子，或者只是一個(gè)隨意的句子？例如：

使用云 TPU 進(jìn)行訓練

到目前為止，我們所描述的所有內容看起來(lái)都相當直觀(guān)，那么還需要什么才能使 BERT 運行得如此良好？云 TPU 。云 TPU 使我們可以自由地快速試驗、調試和優(yōu)化我們的模型，這對于我們超越現有的預訓練技術(shù)至關(guān)重要。由 Google 的研究人員于 2017 年開(kāi)發(fā)的 Transformer 模型架構也為我們提供了使 BERT 成功所需的基礎。Transformer 在我們的開(kāi)源版本以及 tensor2tensor 庫中實(shí)現。

BERT 的結果

為了評估性能，我們將 BERT 與其他最先進(jìn)的 NLP 系統進(jìn)行了比較。需要注意的是，在我們的實(shí)驗中，我們幾乎沒(méi)有針對特定任務(wù)而對神經(jīng)網(wǎng)絡(luò )架構進(jìn)行更改。在 SQuAD v1.1 上，BERT 獲得了 93.2％的 F1 分數（一種準確度的衡量指標），超過(guò)了之前最高水準的分數 91.6％和人類(lèi)分數 91.2％：

BERT 還在極具挑戰性的 GLUE 基準測試中將準確性的標準提高了 7.6％。這個(gè)基準測試包含 9 種不同的自然語(yǔ)言理解（NLU）任務(wù)。在這些任務(wù)中，具有人類(lèi)標簽的訓練數據跨度從 2,500 個(gè)樣本到 400,000 個(gè)樣本不等。BERT 在所有任務(wù)中都大大提高了準確性。

支持中文和更多語(yǔ)言的 NLP 預訓練技術(shù)你會(huì )使用嗎？

如何使用 BERT？

我們發(fā)布的模型可以在幾個(gè)小時(shí)或更短的時(shí)間內在各種 NLP 任務(wù)上進(jìn)行微調。開(kāi)源版本還包括運行預訓練的代碼，我們相信大多數使用 BERT 的 NLP 研究人員永遠不需要從頭開(kāi)始訓練他們自己的模型。我們最初發(fā)布的 BERT 模型主要為英語(yǔ)模型?；谏鐓^反饋，在開(kāi)源代碼和英語(yǔ)模型之后，我們發(fā)布了支持中文以及多語(yǔ)言的預訓練基礎模型 BERT-Base，更好地幫助世界各國的研究人員和開(kāi)發(fā)者解決相應的自然語(yǔ)言處理問(wèn)題。


	說(shuō)明:本頁(yè)面文章由()整理發(fā)布. 文章地址： http:///hangyexinwen/517.html

上一篇：機器人編程語(yǔ)言你掌握了哪種？

下一篇：如何消除程控直流電源中的EMI？

更多......

在線(xiàn)留言

騰訊微信

Rss訂閱

021-51095123

Copyright 2017 acdianyuan.com 版權所有.上海直流電源廠(chǎng)家集研發(fā),設計,生產(chǎn)及銷(xiāo)售直流穩壓電源,高頻開(kāi)關(guān)電源,高壓直流電源,大功率直流電源等產(chǎn)品為主營(yíng)業(yè)務(wù),致力于為客戶(hù)提供安全穩定,綠色環(huán)保,節能的AC-DC電源產(chǎn)品.

網(wǎng)站地圖 . XML地圖 ICP備案編號：滬ICP備17006370號-5

全站搜索

展開(kāi)

手機掃描二維碼

<nobr id="pwjna"></nobr>

<span id="pwjna"><tr id="pwjna"></tr></span>

<rp id="pwjna"><del id="pwjna"></del></rp>

<rp id="pwjna"><del id="pwjna"></del></rp>

<thead id="pwjna"></thead>

<samp id="pwjna"><address id="pwjna"><tfoot id="pwjna"></tfoot></address></samp>

<thead id="pwjna"><tr id="pwjna"></tr></thead>