谷歌微軟阿里華為都愛上大模型,AI開發(fā)邊界被打破
蛋白質(zhì)折疊問題被認為是人類在21世紀需要解決的重要科學前沿問題之一。理解蛋白質(zhì)的結構有助于確定蛋白質(zhì)的功能,了解各種突變的作用。
谷歌旗下的人工智能超大模型DeepMind在2021年準確地預測了蛋白質(zhì)折疊成的結構AlphaFold2,解決了一個延續(xù)了50年的“重大挑戰(zhàn)”,為更好地了解疾病和藥物發(fā)現(xiàn)鋪平道路。
大模型悟道1.0在推出時在醫(yī)療方面的一個應用方向是癌癥早篩,如上傳乳腺癌圖像,找到乳腺癌相關預測亞類,通過影像識別宮頸癌亞類等。
而另一個超大規(guī)模AI模型GPT-3 所表現(xiàn)出來的零樣本與小樣本學習能力,則刷新了人們的認知?;镜纳?、分類、搜索、問答應用都已經(jīng)被開發(fā)成對應的API,一個模型,對應解決不同用戶的不同問題。
AI超大模型正在不同的領域表現(xiàn)出驚人的智能水平,給企業(yè)帶來更多的希望。谷歌、亞馬遜、微軟、英偉達、智源人工智能研究院、阿里、百度、華為、浪潮等國內(nèi)外科技巨頭紛紛展開大模型研究和探索。
2021年,預訓練大模型迎來大爆發(fā),引爆AI大模型研究的熱潮。那么,2022年,AI大模型會給人們帶來哪些驚喜呢?
01 2021年,超大規(guī)模預訓練模型爆發(fā)
過去三年來,國外超大規(guī)模預訓練模型參數(shù)指標不斷創(chuàng)出新高,“大模型”已成為行業(yè)巨頭發(fā)力的一個方向。
國外的超大規(guī)模預訓練模型起步于2018年,2021年進入“軍備競賽”階段。
2018年,谷歌提出3億參數(shù)BERT模型,驚艷四座,由此大規(guī)模預訓練模型開始逐漸走進人們的視野,成為人工智能領域的一大焦點。
2019年2月,OpenAI推出了15億參數(shù)的GPT-2,能夠生成連貫的文本段落,做到初步的閱讀理解、機器翻譯等。
緊接著,英偉達推出了83億參數(shù)的Megatron-LM,谷歌推出了110億參數(shù)的T5,微軟推出了170億參數(shù)的圖靈Turing-NLG。
2020年6月,大模型迎來了一個分水嶺,OpenAI以1750億參數(shù)的GPT-3,直接將參數(shù)規(guī)模提高到千億級別。而作詩、聊天、生成代碼等無所不能。
之后,微軟和英偉達在2020年10月聯(lián)手發(fā)布了5300億參數(shù)的Megatron-Turing自然語言生成模型(MT-NLG)。
2021 年 1 月,谷歌推出的Switch Transformer模型以高達1.6 萬億的參數(shù)量打破了GPT-3作為最大AI模型的統(tǒng)治地位,成為史上首個萬億級語言模型。
2021年,12月,谷歌還提出了1.2萬億參數(shù)的通用稀疏語言模型GLaM,在7項小樣本學習領域的性能超過GPT-3。
國內(nèi),超大模型研發(fā)厚積薄發(fā),充分展示了中國企業(yè)的技術實力和應用需求。
2021年是中國超大規(guī)模AI模型的爆發(fā)年。在國內(nèi)超大模型研發(fā)比國外公司晚,但是發(fā)展卻異常的迅速。
4月,華為云聯(lián)合循環(huán)智能發(fā)布盤古NLP超大規(guī)模預訓練語言模型,參數(shù)規(guī)模達1000億;聯(lián)合北京大學發(fā)布盤古α超大規(guī)模預訓練模型,參數(shù)規(guī)模達2000億。
阿里達摩院發(fā)布270億參數(shù)的中文預訓練語言模型PLUG,聯(lián)合清華大學發(fā)布參數(shù)規(guī)模達到1000億的中文多模態(tài)預訓練模型M6。
6 月,北京智源人工智能研究院發(fā)布了超大規(guī)模智能模型“悟道 2.0”,參數(shù)達到 1.75 萬億,成為當時全球最大的預訓練模型。
7月,百度推出ERNIE 3.0 知識增強大模型,參數(shù)規(guī)模達到百億。10月,浪潮發(fā)布約2500億的超大規(guī)模預訓練模型“源1.0”。
12月,百度推出ERNIE 3.0 Titan模型,參數(shù)規(guī)模達2600億。而達摩院的M6模型參數(shù)達到10萬億,將大模型參數(shù)直接提升了一個量級。
AI超大模型爆發(fā)的原因是什么?
中國軟件網(wǎng)認為,AI超大模型爆發(fā)的原因有三:
一是需要且必要。AI對企業(yè)的滲透率逐年提升,正在加速進入不同的行業(yè)。但AI的短板如AI應用的碎片化等卻越來越凸顯。
具體而言,一個團隊開發(fā)了一個AI模型,但在應用過程中,往往會因為場景的多樣性、復雜性,無法達到“以一敵十”的效果。
強悍地自我學習、應萬變的能力,正讓大模型“需要且必要”。
二是預訓練模型技術問題被化解。2018年出現(xiàn)的預訓練模型成功激活了深度神經(jīng)網(wǎng)絡,以及對大規(guī)模無標注數(shù)據(jù)的自監(jiān)督學習能力,并在一定程度上打開了深度學習模型規(guī)模與性能齊飛的局面,尤其是自然語言處理。
同時,大模型對一些復雜性問題的解決帶來了希望。國際巨頭們在嘗到預訓練模型帶來的“甜頭”之后,開始展開了激烈的競爭,競相追逐模型規(guī)模和性能的新高度。
三是更多示范應用案例出現(xiàn)。在商業(yè)落地方面成果豐碩的大模型GPT-3,已經(jīng)有300多個衍生應用,其相關創(chuàng)業(yè)公司也有好幾十個,有些公司還拿到了融資。
在“悟道2.0”的基礎上,OPPO小布助手建設了直接給出開放域長尾問題答案的能力。
智源研究院院長、北京大學信息科學技術學院教授黃鐵軍表示,近年來人工智能的發(fā)展應該從家家戶戶“大煉模型”的狀態(tài),逐漸變?yōu)榘奄Y源匯聚起來,訓練超大規(guī)模模型的階段,通過設計先進的算法,整合盡可能多的數(shù)據(jù),匯聚大量算力,集約化地訓練大模型,供大量企業(yè)使用。
02 預訓練大模型技術與應用難題正在被破解
預訓練大模型發(fā)展的首要特點就是降低了AI應用的門檻。
作為當前人工智能發(fā)展的重要方向,預訓練大模型已成為AI領域的技術新高地。
據(jù)介紹,目前行業(yè)內(nèi)的AI技術應用存在兩大困難:一是數(shù)據(jù)標注非常昂貴,特定場景內(nèi)無法完成大批量數(shù)據(jù)批注;二是行業(yè)自身的知識積累相對較弱。
預訓練大模型降低了AI應用的門檻,解決了AI 應用的數(shù)據(jù)和行業(yè)知識兩個難題,既不需要大量的標注數(shù)據(jù),又保障了基礎底座。
預訓練大模型的推出,則能夠在不具備大量數(shù)據(jù)標注的同時保證了技術基礎底座,疊加行業(yè)“基本功”,便能夠?qū)崿F(xiàn)AI技術的快速落地。
AI預訓練大模型的規(guī)模和性能不斷推向新的高度,打開了深度學習模型規(guī)模與性能齊飛的局面。
在GPU多機多卡算力和海量無標注文本數(shù)據(jù)的雙重支持下,預訓練模型打開了深度學習模型規(guī)模與性能齊飛的局面,成為人工智能和深度學習領域的革命性突破,引發(fā)了國際著名互聯(lián)網(wǎng)企業(yè)和研究機構的激烈競爭,將模型規(guī)模和性能不斷推向新的高度。
預訓練語言模型是讓AI具備認知能力的關鍵技術,突破了傳統(tǒng)深度學習方法的瓶頸,是一種新型AI訓練思路。
預訓練語言模型即首先自動學習大量語言文字和圖像數(shù)據(jù),記憶和理解人類豐富的先驗知識,再進一步學習專業(yè)領域信息,從而讓AI同時掌握常識和專業(yè)知識。
目前,谷歌、微軟和 Facebook等企業(yè)已投入該技術的研發(fā)。
與經(jīng)典的機器學習流程相比,預訓練語言模型具有參數(shù)規(guī)模大、模型通用能力強、模型綜合性能好等優(yōu)勢。
因此,大規(guī)模預訓練模型成為自然語言處理甚至整個人工智能領域的重要技術突破,有望將數(shù)據(jù)驅(qū)動的深度學習技術推向新的發(fā)展階段。
AI預訓練大模型的參數(shù)不斷飆升,采用單體模型和混合模型兩種技術路線。
在2021年1月,谷歌發(fā)布了全球首個萬億級模型Switch Transformer。11月,阿里巴巴達摩院的多模態(tài)大模型M6的參數(shù)規(guī)模更是躍升至10萬億級別。參數(shù)數(shù)量成為AI預訓練大模型規(guī)模的一個衡量指標。
現(xiàn)在業(yè)界提高模型參數(shù)數(shù)量主要有兩種技術路線:
一種是單體模型,將所有數(shù)據(jù)中學習得到的規(guī)律都記錄在一張網(wǎng)絡內(nèi),使用時網(wǎng)絡上的任何點位都會被計算到。
浪潮的源大模型、華為的盤古大模型、百度的文心大模型、英偉達聯(lián)合微軟發(fā)布的自然語言生成模型MT-NLG等走的都是單體模型路線。
另一種是混合模型,由多個不同網(wǎng)絡通過門控機制集成在一起,在單次計算中可能只會使用部分子網(wǎng)絡的參數(shù)。智源的悟道模型、阿里M6等走的就是混合模型路線。
03 國內(nèi)5大AI預訓練大模型風采各異
阿里達摩院M6三連跳:萬億、商用、低功耗。
2021年1月,阿里達摩院M6達成百億參數(shù),3月達成千億參數(shù),5月在全球范圍內(nèi)首次大幅降低了萬億參數(shù)超大模型的訓練能耗,12月參數(shù)達到10萬億。
其中達摩院訓練出萬億參數(shù)模型M6,僅僅使用了480卡V100 32G GPU,節(jié)省算力資源超80%,且訓練效率提升近11倍。
M6擁有超越傳統(tǒng)AI的認知和創(chuàng)造能力,擅長繪畫、寫作、問答,在電商、制造業(yè)、文學藝術等諸多領域擁有廣泛應用前景。
M6還是國內(nèi)首個實現(xiàn)商業(yè)化落地的多模態(tài)大模型。例如,經(jīng)過一段時間的試用,M6將作為AI助理設計師正式上崗阿里新制造平臺犀牛智造。
百度ERNIE 3.0 Titan:知識增強體現(xiàn)出學習效率更高、學習能力更強的優(yōu)勢。
鵬城實驗室與百度共同研發(fā)的鵬城-百度·文心(ERNIE 3.0 Titan)模型參數(shù)規(guī)模達到2600億。
知識增強是該大模型的最大特點,在學習過程中融入知識,進而實現(xiàn)將海量知識與海量數(shù)據(jù)融合學習。
同時,在融入知識的基礎上,該模型也會進行跨語言學習、跨模態(tài)學習,從而體現(xiàn)出學習效率更高、學習能力更強的優(yōu)勢。
ERNIE 3.0 Titan在包括機器閱讀理解、文本分類、語義相似度計算等60多項任務上取得好的效果,并在30余項小樣本和零樣本任務上刷新基準。
浪潮人工智能研究院“源1.0”,以開放API、開放數(shù)據(jù)集、開源代碼等多種形式開放合作。
浪潮人工智能研究院的浪潮源1.0大模型在算法、數(shù)據(jù)、算力三個層面上實現(xiàn)超大規(guī)模,其中在算法上,大模型總共用了 2457億的參數(shù),超過1750億參數(shù)的GPT-3。
在數(shù)據(jù)上,研制高質(zhì)量文本分類模型,形成新中文數(shù)據(jù)集生成方法,最終獲得5000GB高質(zhì)量數(shù)據(jù)集,是迄今業(yè)界最大的高質(zhì)量中文數(shù)據(jù)集。
在算力上,共4095PD(PetaFlop/s-day)的計算量,獲得高達2457億的參數(shù)量,相對于GPT-3消耗3640PD計算量得到1750億參數(shù),源1.0大模型計算效率大幅提升。
2021年10月,源1.0宣布開源開放計劃,將以開放API、開放數(shù)據(jù)集、開源代碼等多種形式為業(yè)界提供開放合作,用戶可基于“源1.0”模型探索算法創(chuàng)新以及開發(fā)各類智能化應用。
華為云盤古大模型:實現(xiàn)人工智能工業(yè)化開發(fā)。
于2021年4月亮相的華為云盤古大模型括中文語言(NLP)、視覺(CV)大模型,多模態(tài)大模型、科學計算大模型,旨在建立一套通用、易用的人工智能開發(fā)工作流,實現(xiàn)人工智能工業(yè)化開發(fā)。
未來,華為云盤古預訓練大模型將上線華為云AI資產(chǎn)共享社區(qū)(AI Gallery)。
盤古研發(fā)團隊將繼續(xù)對盤古多模態(tài)大模型進行迭代演進,持續(xù)開發(fā)上游通用能力。
同時也會將把大模型拓展到更多的行業(yè)領域,讓盤古多模態(tài)大模型演化成諸多盤古行業(yè)多模態(tài)大模型,加速盤古系列預訓練大模型的“上天”(通用能力打造)與“入地”(行業(yè)落地)步伐。
悟道:大模型變得更加好用、易用。
北京智源人工智能研究院自2020年10月啟動大模型研究,2021年3月發(fā)布我國首個超大規(guī)模智能信息模型“悟道1.0”,訓練出包括中文、多模態(tài)、認知、蛋白質(zhì)預測在內(nèi)的系列模型,并在模型預訓練范式、規(guī)模和性能擴增技術、訓練語料數(shù)據(jù)庫建設等方面取得了多項國際領先的技術突破。
2021年6月參數(shù)規(guī)模高達1.75萬億“悟道2.0”推出。智源正在做的即是將悟道的應用門檻降下來,將AI的效率和情商提起來,給更多人帶來便利。
無論是降低AI大模型開發(fā)門檻的悟道開發(fā)平臺,還是“一卡頂四卡”的高效推理工具包、4倍提速4倍清晰的AI文圖繪畫、最大中文對話模型等技術創(chuàng)新,都讓悟道大模型變得更加好用、易用。
04 克服挑戰(zhàn),預訓練大模型往哪兒走?
那么,在預訓練大模型發(fā)展中,面臨最大問題是什么,未來的發(fā)展方向又在哪兒呢?
隨著模型規(guī)模擴大的是訓練對資源的消耗越來大,而參數(shù)數(shù)量增加所帶來的性能提升與消耗提升不成比例。
在這方面,不少研究開始對“模型參數(shù)越多,性能也越好”是否始終成立提出了質(zhì)疑。
例如,谷歌的研究人員開發(fā)了一個參數(shù)量遠小于GPT-3的模型——微調(diào)語言網(wǎng)絡(fine-tuned language net, FLAN),這個1370億個參數(shù)的模型在許多有難度的基準測試中性能都大幅超過GPT-3。
阿里達摩院在發(fā)布的報告里認為,未來大模型的參數(shù)規(guī)模發(fā)展將進入冷靜期,大模型與相關聯(lián)的小模型協(xié)同將是未來的發(fā)展方向。
其中,大模型沉淀的知識與認知推理能力向小模型輸出,小模型基于大模型的基礎疊加垂直場景的感知、認知、決策、執(zhí)行能力,再將執(zhí)行與學習的結果反饋給大模型,讓大模型的知識與能力持續(xù)進化,形成一套有機循環(huán)的智能系統(tǒng)。參與者越多,模型進化的速度也越快。
大模型正在誕生不同應用領域的小模型或者應用。
阿里達摩院預測,在未來的三年內(nèi),個別領域?qū)⒁源笠?guī)模預訓練模型為基礎,對協(xié)同進化的智能系統(tǒng)進行試點探索。
在未來的五年內(nèi),協(xié)同進化的智能系統(tǒng)將成為體系標準,讓全社會能夠容易地獲取并貢獻智能系統(tǒng)的能力,向通用人工智能再邁進一步。
對預訓練大模型的性能優(yōu)化仍在持續(xù)推進中。
相對而言,大量研究在預訓練模型的落地能力上將持續(xù)努力,壓縮、剪枝、蒸餾的工作仍起到重要作用。不止于算法本身,編譯、引擎、硬件等方面的優(yōu)化也在大步邁進。
整體而言,現(xiàn)在大規(guī)模預訓練模型的研究,包括模型結構的演進和落地仍處在探索階段,各家的持續(xù)探索正在不斷擴大對大規(guī)模預訓練模型的認知邊界。
毫不諱言,AI超大模型應該成為普惠性的科技進步力量,讓行業(yè)用戶甚至是中小用戶也能使用超大模型尋求深度創(chuàng)新,促進業(yè)務可持續(xù)健康發(fā)展。
這一成果的取得必須依靠更多的產(chǎn)、學、研、用機構和開發(fā)者,從技術創(chuàng)新、場景融合、應用開發(fā)等不同維度,共同促進AI超大模型的健康發(fā)展與產(chǎn)業(yè)落地。
本文來自微信公眾號“中智觀察”(ID:Hapiweb-soft6),作者:趙滿滿,編輯:小瑞瑞,36氪經(jīng)授權發(fā)布。