谷歌開放源碼ALBERT自然語言模型

很多文章的報道都是由微觀而宏觀，今日小編講給大家?guī)淼年P(guān)于谷歌開放源碼ALBERT自然語言模型的資訊也不例外，希翼可以在一定的程度上開闊你們的視野！y有對谷歌開放源碼ALBERT自然語言模型這篇文章感興趣的小伙伴可以一起來看看
谷歌AI擁有開源的A Lite Bert（ALBERT），這是一種深度學(xué)習(xí)的自然語言處理（NLP）模型，使用的參數(shù)比最先進的BERT模型少89%，準確性幾乎沒有損失。該模型也可以擴大，以實現(xiàn)新的最先進的性能在NLP基準。

【谷歌開放源碼ALBERT自然語言模型】研究小組在將提交給國際學(xué)習(xí)代表大會的一份文件中介紹了該模型。ALBERT使用兩種優(yōu)化方法來減少模型的大?。呵度氬愕姆紙夂屯繅夭愕牟問蠶?。將這兩種方法結(jié)合起來，得到了一個惟獨12M參數(shù)的基線模型，與BERT的108M相比，在幾個NLP基準上達到了80.1%的平均精度，而BERT的平均精度為82.3% 。該小組還培訓(xùn)了一個具有235M參數(shù)的“雙超大”ALBERT模型，該模型在基準方面的表現(xiàn)優(yōu)于具有334M參數(shù)的“大”BERT模型。
最先進的NLP模型的最新發(fā)展來自使用“自我監(jiān)督”技術(shù)對大量未標記文本數(shù)據(jù)進行預(yù)培訓(xùn)的大型模型。然而，這些模型的大尺寸，有數(shù)億個參數(shù)，給實驗帶來了障礙。不僅訓(xùn)練時間和成本隨著模型的大小而增加，而且在某種程度上，模型太大，無法訓(xùn)練；它們不能適應(yīng)訓(xùn)練計算機的內(nèi)存。雖然有解決這一問題的技術(shù)，谷歌人工智能團隊已經(jīng)確定了在不犧牲準確性的情況下減少模型大小的方法。有了較小的模型，研究人員可以更好地探究模型的超參數(shù)空間：

為了改進NLP的這種新方法，人們必須了解什么才干促進語言理解性能-網(wǎng)絡(luò)的高度（即層數(shù)）、它的寬度（隱藏層表示的大?。⒆暈壹嘍降難氨曜?，還是完全其他的東西？
在ALBERT的優(yōu)化中，第一個是單詞嵌入的因式分解。與BERT和許多其他深度學(xué)習(xí)NLP模型一樣，ALBERT是基于Transformer體系結(jié)構(gòu)的..該模型的第一步是將單詞轉(zhuǎn)換為數(shù)字“一熱”向量表示。然后將一個熱向量投影到嵌入空間中。變壓器的一個限制是嵌入空間必須具有與隱藏層的大小相同的尺寸。將大小為V的詞匯表投影到維度E的嵌入中需要VxE參數(shù) 。隨著實現(xiàn)最先進的結(jié)果所需的大量詞匯和模型維度，這可能需要接近十億個參數(shù) 。通過分解嵌入，ALBERT團隊首先將單詞向量投影到一個較小的維度空間：128vsBERT的768 。然后將這種較小的嵌入投影到具有與隱藏層相同維數(shù)的高維空間中。團隊假設(shè)第一個投影是單詞的上下文無關(guān)表示，而第二個投影是上下文相關(guān)表示。
第二個優(yōu)化是在網(wǎng)絡(luò)的層上共享參數(shù) 。變壓器網(wǎng)絡(luò)層同時包含一個前饋組件和一個注意組件；ALBERT的策略是在所有層之間共享每個組件..這確實造成了大約1.5個百分點的精度損失，但它確實將所需參數(shù)的數(shù)量從89M減少到12M 。
?

谷歌公布了一個基于TensorFlow的ALBERT實現(xiàn)，以及一個英語語料庫和一個中文語料庫上的模型；Twitter上的用戶現(xiàn)在詢問谷歌是否計劃公布一個西班牙語語料庫上的模型。在GitHub上可以獲得ALBERT代碼和模型。

欧美国产高清污视频在线观看-欧美久久综合九色综合-国产黄色自拍网站在线-国产三级精品三级在专区精-97中文字幕一区二区-大吊操白虎学生妹逼-精品久久久久亚洲综合网-青青草原国产av一区欧美-国产在线一区二区三区在线

谷歌開放源碼ALBERT自然語言模型

猜你喜歡