“金融行業(yè)異構(gòu)算力管理面臨技術(shù)平權(quán)、租戶隔離、算力釋放、異構(gòu)管理四個(gè)核心命題;诖耍鹑隗w系對(duì)智算集群有三大訴求:一是對(duì)金融類創(chuàng)新業(yè)務(wù)的快速支持,二是在總行核心業(yè)務(wù)上保證算力有效運(yùn)行,三是有效利用總行、分行的統(tǒng)一算力,省本增效!5月24日,在新金融聯(lián)盟主辦的“智算賦能金融服務(wù)智能化”內(nèi)部研討會(huì)上,百度智能云混合云部總經(jīng)理杜海在主題發(fā)言中表示。
國家金融監(jiān)督管理總局科技監(jiān)管司相關(guān)負(fù)責(zé)人,中國銀行原行長李禮輝做主題交流。郵儲(chǔ)銀行總工程師徐朝輝、交通銀行金融科技部總經(jīng)理劉雷、國家開發(fā)銀行信息科技部總經(jīng)理宋磊也做了主題發(fā)言。
會(huì)議由新金融聯(lián)盟秘書長吳雨珊主持,中國金融四十人論壇提供學(xué)術(shù)支持。23家銀行、理財(cái)子和保險(xiǎn)公司的專家參會(huì)。會(huì)議實(shí)錄詳見:金融行業(yè)數(shù)智轉(zhuǎn)型,如何突破算力瓶頸?以下為杜海發(fā)言全文。
百度金融智算云:為大模型時(shí)代金融行業(yè)構(gòu)建“核心引擎”
文| 杜海
百度智能云混合云部總經(jīng)理 杜海
金融行業(yè)異構(gòu)算力管理面臨四個(gè)核心命題
當(dāng)前,算力行業(yè)發(fā)展非常迅速。在政策層面,不管是從國際形勢還是供應(yīng)鏈安全上,國產(chǎn)芯片已經(jīng)成為必答題,雖然還存在一些問題,但從標(biāo)準(zhǔn)統(tǒng)一到各方面,國產(chǎn)芯片已經(jīng)成為一個(gè)不可替代的選項(xiàng)。
在模型層面,大模型從傳統(tǒng)單一的Dense模型向混合專家架構(gòu)演進(jìn),尤其是混合專家模型底層和工程能力的結(jié)合能力,成為了目前大模型智算集群提效的核心能力。這也為更高的算力標(biāo)準(zhǔn)、更高的顯存容量以及更快、更大的通信能力提了更高要求。
在芯片層面,傳統(tǒng)GPGPU芯片難以滿足大模型性能需求,未來專用的AI加速卡逐漸成為趨勢,從成本到效率上也會(huì)更高。
基于發(fā)展趨勢,我們看到金融行業(yè)對(duì)異構(gòu)算力管理有四個(gè)方面的問題。
第一,技術(shù)平權(quán)。金融集團(tuán)公司如何實(shí)現(xiàn)寶貴的算力資源在總行、分行、子公司安全共享,實(shí)現(xiàn)技術(shù)平權(quán)和算力普惠化。
第二,租戶隔離。如何確保多租戶的任務(wù),在訓(xùn)練推理過程中,數(shù)據(jù)安全與風(fēng)險(xiǎn)隔離。
第三,算力釋放。算力使用并不等于芯片本身的規(guī)格算力,如何通過并行策略、訓(xùn)推加速,釋放國產(chǎn)芯片性能。
第四,異構(gòu)管理,需構(gòu)建支持多架構(gòu)國產(chǎn)芯片的異構(gòu)算力納管體系,確保供應(yīng)鏈安全。
需平衡“有限算力”和“無限創(chuàng)新”的矛盾
基于這四點(diǎn),我們把智算集群金融體系訴求分成了三個(gè)大板塊。
第一,金融類的創(chuàng)新業(yè)務(wù)“快”速支持。其訴求是如何快速支撐創(chuàng)新型業(yè)務(wù),常見于分行的創(chuàng)新業(yè)務(wù)體系。
第二,在總行核心業(yè)務(wù)上,如何保證算力有效運(yùn)行。這里體現(xiàn)了一個(gè)字:“穩(wěn)”。
第三,對(duì)集團(tuán)周邊所有的生態(tài)公司,如何有效利用分行、總行的統(tǒng)一算力,“省”本增效,算網(wǎng)融合統(tǒng)一管理。
對(duì)此,我們把整個(gè)集群分成三部分:CPU云、訓(xùn)推一體云、訓(xùn)練云。訓(xùn)推一體云滿足總行和分行“快”和“穩(wěn)”的特點(diǎn),集團(tuán)共享云滿足“省”的降本增效要求。
在整個(gè)智算集群架構(gòu)分布上,金融智算云分成四層:
最底層是國產(chǎn)的GPU芯片層,包含昆侖芯、昇騰、海光等。
第三層是智算云底座,在GPU場景里需要做一輪升級(jí),如何能更好支撐高效能網(wǎng)絡(luò),大規(guī)模網(wǎng)絡(luò)部署、計(jì)算、存儲(chǔ)三者之間通過類似RDMA的相關(guān)協(xié)議形成更高效率之間的數(shù)據(jù)通信,這是一個(gè)新的智算云底座層。
第二層是GPU算力平臺(tái),它主要通過智算云底座對(duì)底層架構(gòu)理解,把底層架構(gòu)能力透傳到上層的任務(wù)分配調(diào)度里,對(duì)訓(xùn)練、推理任務(wù),對(duì)其它AI整體任務(wù)部署,形成更有效管理。
最上一層是算網(wǎng)融合平臺(tái),把多點(diǎn)集群、多點(diǎn)異地異構(gòu)集群通過算力網(wǎng)絡(luò)進(jìn)行統(tǒng)一管理,從算力感知再到算力調(diào)度,形成一個(gè)一體化的算力網(wǎng)絡(luò)。
如何實(shí)現(xiàn)智算集群“快”“穩(wěn)”“省”
從“快”的角度,我們的業(yè)務(wù)體系有一套方案,快速接入到智算能力中。大模型一體機(jī)能幫助業(yè)務(wù)快速使用模型能力。常見的包括基于昆侖芯的百度百舸一體機(jī)可以做到單機(jī)支持滿血的671B模型,昇騰是雙機(jī)以及其它方案。總體來說是以相對(duì)較低成本將智算能力提供給業(yè)務(wù)。
接下來有兩層延伸能力,一層是一體機(jī)無縫平滑把業(yè)務(wù)推向一個(gè)更高規(guī)模、更高并行要求的能力。我們有一體機(jī)擴(kuò)展方案,實(shí)現(xiàn)在業(yè)務(wù)不中斷、數(shù)據(jù)安全情況下的能力拓展。
再往前走,需要從這個(gè)方案去進(jìn)行相關(guān)組件初級(jí)拆分,把控制面、數(shù)據(jù)面和計(jì)算面做相應(yīng)拆離,同時(shí)保證從單一一體機(jī)到小集群到大集群業(yè)務(wù)平滑穩(wěn)定對(duì)外服務(wù)。
在這個(gè)基礎(chǔ)上,如果需要進(jìn)一步提升集群效率,可使用PD分離,更具體地把大模型運(yùn)行過程中的核心能力、模塊進(jìn)行拆分。
此外,還需要全鏈路優(yōu)化。買了芯片,即使芯片規(guī)格算力很高,也不等于芯片整體效率很高。這里需要做到平臺(tái)層有主流模型預(yù)覆蓋。對(duì)新模型,尤其主流模型可以減少適配成本,快速投入生產(chǎn)。基于常見的訓(xùn)練推理框架,實(shí)現(xiàn)對(duì)應(yīng)加速提升能力。
在“穩(wěn)”的方面,更多是保障集群在使用過程中,發(fā)生故障時(shí)能快速感知、定位,并且最大化做故障自愈,而不是通過工單或者人工手段提到后臺(tái)再去進(jìn)行相關(guān)算力節(jié)點(diǎn)下的操作。
這里有幾個(gè)重要的點(diǎn),比如怎么保證集群算力在線率,怎么保證故障快速感知。通過硬件軟件以及其它工程化手段,保證最終進(jìn)行大型任務(wù)訓(xùn)練時(shí),它的萬卡訓(xùn)練有效率——一個(gè)月30天,每天24小時(shí),其中有多少時(shí)間能進(jìn)行任務(wù)有效管理,排除掉所有故障,包括我們做Check point備份時(shí)間去掉,還要保證整個(gè)集群有效訓(xùn)練率。
在“省”的方面,更多是在集群能力上需要多租戶管理。在GPU時(shí)代,它的核心要有AIHC層面多租戶的切分,能基于異構(gòu)平臺(tái)把算力統(tǒng)一調(diào)度后,在AI任務(wù)層面做多租戶的切分,保證集群既安全又能有效使用。
在多芯的混合管理以及基于多芯情況下,怎么提高集群整體分配率和利用率,如何進(jìn)行異構(gòu)管理,主要有兩層:
首先要進(jìn)行統(tǒng)一算力感知。例如,昇騰的基礎(chǔ)算力能力和不同算子調(diào)度優(yōu)化能力是多少,昆侖芯在跑這些任務(wù)時(shí)的算力感知能力是多少。如何形成統(tǒng)一異構(gòu)視圖,基于任務(wù)統(tǒng)一視圖進(jìn)行統(tǒng)一分配。不同芯片的通信接口一個(gè)統(tǒng)一,通信協(xié)議,昆侖芯、昇騰通信協(xié)議之間的統(tǒng)一管理以及接口封裝。
還有一層比較難,即精度對(duì)齊。不同的異構(gòu)卡在不同的算子精度實(shí)現(xiàn)策略上有比較大的差異,既有硬件差異,也有軟件差異。如何在不同卡之間形成精度的有效對(duì)齊?這需要對(duì)芯片有非常深入的了解和實(shí)踐,再進(jìn)行封裝和適配,才有可能實(shí)現(xiàn)。
除了在技術(shù)層面對(duì)多芯統(tǒng)一適配管理,還需要在上游任務(wù)調(diào)度效率上進(jìn)行管理。很少有單一訓(xùn)練任務(wù)一跑跑30天、一口氣用萬卡資源,更多是數(shù)量眾多的小型任務(wù)。如何通過任務(wù)隊(duì)列對(duì)這些小任務(wù)進(jìn)行有效編排,從而讓集群整體利用率和任務(wù)分配率達(dá)到更高水平,是算力調(diào)度平臺(tái)任務(wù)層面需要解決的核心要求。
我分享兩個(gè)案例。當(dāng)納管集群數(shù)量達(dá)到更高規(guī)模時(shí),集群的要求是非常大的。百度建的國產(chǎn)昆侖芯P800大型單一集群,從能源效率到機(jī)柜數(shù)量,再到存儲(chǔ)容量與使用效率,這個(gè)集群我們做到了98%。
我們與頭部城商行進(jìn)行智算集群合作,從底層芯片層到基礎(chǔ)環(huán)境,用的是信創(chuàng)的操作系統(tǒng)和數(shù)據(jù)庫,再到算力統(tǒng)一感知,百度基礎(chǔ)云平臺(tái)+百度百舸GPU算力平臺(tái),加上百度智能云千帆大模型平臺(tái)及支撐,從通用場景到智能客服等應(yīng)用場景提升,做到了不同芯片混合管理、混合使用,通過異構(gòu)平臺(tái)在算力感知的情況下進(jìn)行統(tǒng)一調(diào)度能力。
目前有一個(gè)比較流行的趨勢,從單一服務(wù)器提供8卡組件,進(jìn)一步往單一節(jié)點(diǎn)擴(kuò)大化,把原來的單機(jī)8卡、4機(jī)32卡、8機(jī)64卡,變成單一機(jī)柜直接實(shí)現(xiàn)32、64卡的超節(jié)點(diǎn)方式來提供服務(wù)。在超節(jié)點(diǎn)內(nèi),把計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)按照單一服務(wù)器的背板走線設(shè)計(jì)標(biāo)準(zhǔn)統(tǒng)一重新規(guī)劃,從而至少在64卡內(nèi)達(dá)到單一機(jī)型通信效率,并通過超節(jié)點(diǎn)間的快速擴(kuò)展技術(shù)實(shí)現(xiàn)128、1024等更大規(guī)模集群能力。
金融算力發(fā)展的四個(gè)新趨勢
在金融領(lǐng)域算力實(shí)施層面,我們看到幾個(gè)新趨勢。
第一,機(jī)構(gòu)統(tǒng)籌建設(shè)。金融行業(yè)高度重視智算領(lǐng)域算力基礎(chǔ)設(shè)施建設(shè),需要進(jìn)行整體系統(tǒng)化規(guī)劃和統(tǒng)籌。
第二,關(guān)鍵技術(shù)攻關(guān)。為支撐好金融領(lǐng)域需求,在智算化、綠色化、一體化的技術(shù)關(guān)鍵層面, 我們希望能和金融領(lǐng)域龍頭一起共創(chuàng)。
第三,標(biāo)準(zhǔn)化建設(shè)推進(jìn)。當(dāng)前標(biāo)準(zhǔn)還處于突破狀態(tài),比較分散,接下來需進(jìn)一步推進(jìn)標(biāo)準(zhǔn)化,尤其在模塊、算力、體系預(yù)制化層面是重要方向。
第四,產(chǎn)業(yè)鏈生態(tài)協(xié)同。生態(tài)產(chǎn)業(yè)鏈如何能更有效協(xié)同。現(xiàn)在信創(chuàng)更多指的是CPU、GPU、操作系統(tǒng)、數(shù)據(jù)庫等,再往后包含HBM顯存、網(wǎng)絡(luò)芯片等,這一整套體系如何更好進(jìn)行全棧信創(chuàng)的服務(wù)也是一個(gè)趨勢。
本文首發(fā)于微信公眾號(hào):新金融聯(lián)盟NFA。文章內(nèi)容屬作者個(gè)人觀點(diǎn),不代表和訊網(wǎng)立場。投資者據(jù)此操作,風(fēng)險(xiǎn)請(qǐng)自擔(dān)。
【免責(zé)聲明】本文僅代表作者本人觀點(diǎn),與和訊網(wǎng)無關(guān)。和訊網(wǎng)站對(duì)文中陳述、觀點(diǎn)判斷保持中立,不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考,并請(qǐng)自行承擔(dān)全部責(zé)任。郵箱:news_center@staff.hexun.com
最新評(píng)論