11月16日,新加坡國(guó)立大學(xué)校長(zhǎng)青年教授、潞晨科技創(chuàng)始人兼董事長(zhǎng)尤洋出席中國(guó)高新技術(shù)論壇,并在“改變世界的新興科技”主題論壇中發(fā)表演講,以下為精彩觀點(diǎn)實(shí)錄:
我今天主要介紹一下大模型訓(xùn)練的一些關(guān)鍵技術(shù),我們公司打造了一個(gè)系統(tǒng)叫Colossal-AI,我今天會(huì)重點(diǎn)介紹一下如何通過(guò)更好的軟件把硬件的價(jià)值發(fā)揮出來(lái),同時(shí)大幅度降低AI 大模型訓(xùn)練部署的成本。
從2016年-2020年,大模型一直是在高速蓬勃地發(fā)展,在短短四年之中,沒(méi)有被大眾關(guān)注的時(shí)候,它的參數(shù)已經(jīng)增長(zhǎng)了一萬(wàn)。很有意思的點(diǎn)是,我們這一波用的大模型都是人工神經(jīng)網(wǎng)絡(luò),到2015年前后的時(shí)候,大家都叫這個(gè)技術(shù)是深度學(xué)習(xí),它相對(duì)80年代的神經(jīng)網(wǎng)絡(luò)多了很多層。
現(xiàn)在的大模型,比如2016年的時(shí)候的Resnet50是50層,2020年的GPT3的參數(shù)沒(méi)有超過(guò)100層,現(xiàn)在這種AI的技術(shù)不能再叫做深度學(xué)習(xí),其實(shí)更像是寬度學(xué)習(xí),模型的層反而變得更寬了。但是現(xiàn)在一個(gè)很?chē)?yán)重的問(wèn)題是算力、硬件跟不上,不管是中國(guó)還是美國(guó),都無(wú)法充分地去滿足大模型訓(xùn)練的全部能力。為什么?其實(shí)我們都知道,現(xiàn)在的GPT3、GPT4都需要上T 的內(nèi)存,世界上最好的GPU,英偉達(dá)的8100只有100內(nèi)存左右,單個(gè)CPU遠(yuǎn)遠(yuǎn)不足夠去訓(xùn)練大模型,這就是為什么需要成千上萬(wàn),甚至以后上十萬(wàn)GPU訓(xùn)練大模型的核心原因。
我總結(jié)一下,從AI技術(shù)發(fā)展看到的問(wèn)題,首先大模型成本特別高,根據(jù)一些報(bào)道,Open AI的消息,他們訓(xùn)練GPT4的時(shí)候用了2000個(gè)GPU,成本是一美元一小時(shí),大概是6300萬(wàn)美元,換上H100之后,他的成本降到2100萬(wàn)美元,直接換一個(gè)硬件,成本降了3 倍,省了4000多萬(wàn)美元,這還是非常讓人眼前一亮的。即便我們現(xiàn)在想訓(xùn)一個(gè)不是那么大的模型,像Palm,相當(dāng)于谷歌版的GPT,它有500個(gè)參數(shù),訓(xùn)練它要900萬(wàn)美元,用A100訓(xùn)練的話,需要300年。我們訓(xùn)練大模型,如果只用幾個(gè)GPU訓(xùn)練,雖然理論上可行,但是基本上這個(gè)產(chǎn)品就沒(méi)法做了,300年變化太大了。
尤洋:新加坡國(guó)立大學(xué)校長(zhǎng)青年教授、潞晨科技創(chuàng)始人兼董事長(zhǎng)
我認(rèn)為未來(lái)AI大模型的生態(tài)和基礎(chǔ)設(shè)施應(yīng)該包括六層,首先最下層就是硬件,不管是英偉達(dá)的硬件,還是英特爾硬件、華為的硬件。第二層是更底層的軟件,這個(gè)軟件一般是由硬件廠商控制的。第三層是像集成管理工具,RA、SLURM等這些工具。任務(wù)管理工具就是把上百個(gè)任務(wù)合理劃分給GPU,相當(dāng)于我是一個(gè)將軍,要指揮一百個(gè)團(tuán)作戰(zhàn),如何把有限的資源分給這一百個(gè)兵團(tuán),是集成管理工具要干的事情。第四層是集成訓(xùn)練,我的團(tuán)內(nèi)的這些士兵相互配合好去完成一個(gè)任務(wù),這是分布式訓(xùn)練所做的事情。第五層是用戶的編程接口。第六層是現(xiàn)在的大模型,不管是ChatGPT、Lmm等都是屬于這一層。我簡(jiǎn)單解釋一下,大模型到來(lái)的時(shí)代,第三層和第四層的關(guān)系發(fā)生很大變化,之前的模型不是很大的情況下,我們有一萬(wàn)個(gè)GPU,每天或者每個(gè)月要訓(xùn)10萬(wàn)個(gè)任務(wù),任務(wù)數(shù),一個(gè)GPU同時(shí)在訓(xùn)多任務(wù),多個(gè)小任務(wù)驅(qū)動(dòng)環(huán)境,使得這個(gè)集群管理工具變得非常重要。但是現(xiàn)在大模型時(shí)代的計(jì)算特點(diǎn)發(fā)生了實(shí)質(zhì)上的變化,一個(gè)任務(wù)占據(jù)了1000個(gè)GPU,占據(jù)20天、30 天,或者一個(gè)任務(wù)占據(jù)5000個(gè)GPU一個(gè)月,它便成了每個(gè)任務(wù)都很重,所以任務(wù)之間的關(guān)系不是那么重要,我如果把任務(wù)內(nèi)的上千個(gè)GPU分配好是比較關(guān)鍵的技術(shù)。為了應(yīng)對(duì)目前的問(wèn)題,我們團(tuán)隊(duì)打造了Colossal-AI這個(gè)軟件,Colossal-AI主要包括三個(gè)層次,第一個(gè)曾經(jīng)就是內(nèi)存管理系統(tǒng),我們希望通過(guò)Colossal-AI去大幅度降低AI大模型訓(xùn)練的內(nèi)存開(kāi)銷(xiāo)。第二層就是變形技術(shù),未來(lái)需要上千個(gè)GPU去訓(xùn)練,我把GPU的數(shù)量從十個(gè)上升到幾百,能不能進(jìn)行加速,GPU和GPU的數(shù)據(jù)傳輸和服務(wù)器與服務(wù)器的數(shù)據(jù)傳輸占滿運(yùn)行時(shí)間的80%到90%,我們的效率只有10%左右或者20%,這就是為什么英偉達(dá)要斥巨資收購(gòu)ARM的原因。全國(guó)有很多算力,但是無(wú)法把它集中起來(lái)訓(xùn)練一個(gè)模型,因?yàn)檫@個(gè)數(shù)據(jù)傳輸?shù)拈_(kāi)銷(xiāo)會(huì)遠(yuǎn)大于計(jì)算的開(kāi)銷(xiāo),假定把內(nèi)蒙古、北京、上海、天津各個(gè)分散的算力集中起來(lái)訓(xùn)練一個(gè)Chat GPT,它的訓(xùn)練速度還不到10個(gè)GPU的訓(xùn)練速度,因?yàn)樗乃袝r(shí)間都會(huì)浪費(fèi)在計(jì)算上,因?yàn)檫@是現(xiàn)在大模型的特點(diǎn),我們的大模型是很大的參數(shù),把它分割成很多塊之后,最終都是需要匯總結(jié)果的。
· 本網(wǎng)站文章內(nèi)容未經(jīng)授權(quán)不得擅自使用,如需轉(zhuǎn)載請(qǐng)注明出處和保持信息完整性。
· 本文內(nèi)有未注明出處的信息、圖片或素材,如無(wú)意中侵犯某方的知識(shí)產(chǎn)權(quán),請(qǐng)聯(lián)系我們刪除。