近日,中國(guó)科學(xué)家在人工智能領(lǐng)域取得了重大突破,他們聯(lián)合研發(fā)了一種名為GroPipe的全新混合并行算法,成功地將流水線模型并行與數(shù)據(jù)并行融合,實(shí)現(xiàn)了AI訓(xùn)練速度的大幅提升,近乎翻倍。
據(jù)悉,這一創(chuàng)新成果由西北農(nóng)林科技大學(xué)信息工程學(xué)院智能計(jì)算與農(nóng)業(yè)信息系統(tǒng)團(tuán)隊(duì)領(lǐng)銜,團(tuán)隊(duì)負(fù)責(zé)人劉斌教授擔(dān)任核心作者,并與美國(guó)紐約州立大學(xué)及云南大學(xué)展開(kāi)合作。相關(guān)研究成果已在國(guó)際計(jì)算機(jī)體系結(jié)構(gòu)領(lǐng)域的權(quán)威期刊《IEEE Transactions on Computers》上發(fā)表。
在大型深度卷積神經(jīng)網(wǎng)絡(luò)(DCNNs)的訓(xùn)練過(guò)程中,為了提高模型精度,使用越來(lái)越大的數(shù)據(jù)集已成為常態(tài),但這也導(dǎo)致了訓(xùn)練時(shí)間的顯著增加。傳統(tǒng)的數(shù)據(jù)并行(DP)和流水線模型并行(PMP)等分布式訓(xùn)練方法雖然提供了解決方案,但仍面臨負(fù)載不平衡和通信開(kāi)銷大等挑戰(zhàn)。
針對(duì)這些問(wèn)題,研究團(tuán)隊(duì)提出了GroPipe算法架構(gòu),該架構(gòu)通過(guò)協(xié)同整合PMP和DP,采用基于性能預(yù)測(cè)技術(shù)的自動(dòng)模型分割算法,實(shí)現(xiàn)了負(fù)載的平衡和性能的量化評(píng)估。這一創(chuàng)新方法不僅解決了傳統(tǒng)訓(xùn)練方法的痛點(diǎn),還構(gòu)建了一種全新的“組內(nèi)流水線 + 組間數(shù)據(jù)并行”的分層訓(xùn)練架構(gòu)。
在GroPipe方法中,自動(dòng)模型劃分算法(AMPA)發(fā)揮了關(guān)鍵作用,它實(shí)現(xiàn)了計(jì)算負(fù)載的動(dòng)態(tài)均衡調(diào)度,大幅提升了GPU資源的利用率。在一臺(tái)8-GPU服務(wù)器上進(jìn)行的廣泛測(cè)試中,GroPipe方法展現(xiàn)出了卓越的性能優(yōu)勢(shì)。
具體來(lái)說(shuō),在ImageNet數(shù)據(jù)集上,GroPipe方法相較于主流方案(如DP、Torchgpipe、DAPPLE和DeepSpeed)在ResNet系列模型上平均加速比達(dá)到了42.2%,在VGG系列模型上更是高達(dá)79.2%。在BERT-base模型訓(xùn)練中,GroPipe方法的性能提升最高可達(dá)51%。
這一研究成果不僅為中國(guó)科學(xué)家在國(guó)際人工智能領(lǐng)域贏得了榮譽(yù),更為人工智能的發(fā)展注入了新的活力。GroPipe算法的創(chuàng)新性和實(shí)用性,將有望推動(dòng)人工智能技術(shù)在更多領(lǐng)域的應(yīng)用和發(fā)展。