“金融行業(yè)異構算力管理面臨技術平權、租戶隔離、算力釋放、異構管理四個核心命題;诖耍鹑隗w系對智算集群有三大訴求:一是對金融類創(chuàng)新業(yè)務的快速支持,二是在總行核心業(yè)務上保證算力有效運行,三是有效利用總行、分行的統一算力,省本增效!5月24日,在新金融聯盟主辦的“智算賦能金融服務智能化”內部研討會上,百度智能云混合云部總經理杜海在主題發(fā)言中表示。
國家金融監(jiān)督管理總局科技監(jiān)管司相關負責人,中國銀行原行長李禮輝做主題交流。郵儲銀行總工程師徐朝輝、交通銀行金融科技部總經理劉雷、國家開發(fā)銀行信息科技部總經理宋磊也做了主題發(fā)言。
會議由新金融聯盟秘書長吳雨珊主持,中國金融四十人論壇提供學術支持。23家銀行、理財子和保險公司的專家參會。會議實錄詳見:金融行業(yè)數智轉型,如何突破算力瓶頸?以下為杜海發(fā)言全文。
百度金融智算云:為大模型時代金融行業(yè)構建“核心引擎”
文| 杜海
百度智能云混合云部總經理 杜海
金融行業(yè)異構算力管理面臨四個核心命題
當前,算力行業(yè)發(fā)展非常迅速。在政策層面,不管是從國際形勢還是供應鏈安全上,國產芯片已經成為必答題,雖然還存在一些問題,但從標準統一到各方面,國產芯片已經成為一個不可替代的選項。
在模型層面,大模型從傳統單一的Dense模型向混合專家架構演進,尤其是混合專家模型底層和工程能力的結合能力,成為了目前大模型智算集群提效的核心能力。這也為更高的算力標準、更高的顯存容量以及更快、更大的通信能力提了更高要求。
在芯片層面,傳統GPGPU芯片難以滿足大模型性能需求,未來專用的AI加速卡逐漸成為趨勢,從成本到效率上也會更高。
基于發(fā)展趨勢,我們看到金融行業(yè)對異構算力管理有四個方面的問題。
第一,技術平權。金融集團公司如何實現寶貴的算力資源在總行、分行、子公司安全共享,實現技術平權和算力普惠化。
第二,租戶隔離。如何確保多租戶的任務,在訓練推理過程中,數據安全與風險隔離。
第三,算力釋放。算力使用并不等于芯片本身的規(guī)格算力,如何通過并行策略、訓推加速,釋放國產芯片性能。
第四,異構管理,需構建支持多架構國產芯片的異構算力納管體系,確保供應鏈安全。
需平衡“有限算力”和“無限創(chuàng)新”的矛盾
基于這四點,我們把智算集群金融體系訴求分成了三個大板塊。
第一,金融類的創(chuàng)新業(yè)務“快”速支持。其訴求是如何快速支撐創(chuàng)新型業(yè)務,常見于分行的創(chuàng)新業(yè)務體系。
第二,在總行核心業(yè)務上,如何保證算力有效運行。這里體現了一個字:“穩(wěn)”。
第三,對集團周邊所有的生態(tài)公司,如何有效利用分行、總行的統一算力,“省”本增效,算網融合統一管理。
對此,我們把整個集群分成三部分:CPU云、訓推一體云、訓練云。訓推一體云滿足總行和分行“快”和“穩(wěn)”的特點,集團共享云滿足“省”的降本增效要求。
在整個智算集群架構分布上,金融智算云分成四層:
最底層是國產的GPU芯片層,包含昆侖芯、昇騰、海光等。
第三層是智算云底座,在GPU場景里需要做一輪升級,如何能更好支撐高效能網絡,大規(guī)模網絡部署、計算、存儲三者之間通過類似RDMA的相關協議形成更高效率之間的數據通信,這是一個新的智算云底座層。
第二層是GPU算力平臺,它主要通過智算云底座對底層架構理解,把底層架構能力透傳到上層的任務分配調度里,對訓練、推理任務,對其它AI整體任務部署,形成更有效管理。
最上一層是算網融合平臺,把多點集群、多點異地異構集群通過算力網絡進行統一管理,從算力感知再到算力調度,形成一個一體化的算力網絡。
如何實現智算集群“快”“穩(wěn)”“省”
從“快”的角度,我們的業(yè)務體系有一套方案,快速接入到智算能力中。大模型一體機能幫助業(yè)務快速使用模型能力。常見的包括基于昆侖芯的百度百舸一體機可以做到單機支持滿血的671B模型,昇騰是雙機以及其它方案?傮w來說是以相對較低成本將智算能力提供給業(yè)務。
接下來有兩層延伸能力,一層是一體機無縫平滑把業(yè)務推向一個更高規(guī)模、更高并行要求的能力。我們有一體機擴展方案,實現在業(yè)務不中斷、數據安全情況下的能力拓展。
再往前走,需要從這個方案去進行相關組件初級拆分,把控制面、數據面和計算面做相應拆離,同時保證從單一一體機到小集群到大集群業(yè)務平滑穩(wěn)定對外服務。
在這個基礎上,如果需要進一步提升集群效率,可使用PD分離,更具體地把大模型運行過程中的核心能力、模塊進行拆分。
此外,還需要全鏈路優(yōu)化。買了芯片,即使芯片規(guī)格算力很高,也不等于芯片整體效率很高。這里需要做到平臺層有主流模型預覆蓋。對新模型,尤其主流模型可以減少適配成本,快速投入生產;诔R姷挠柧毻评砜蚣,實現對應加速提升能力。
在“穩(wěn)”的方面,更多是保障集群在使用過程中,發(fā)生故障時能快速感知、定位,并且最大化做故障自愈,而不是通過工單或者人工手段提到后臺再去進行相關算力節(jié)點下的操作。
這里有幾個重要的點,比如怎么保證集群算力在線率,怎么保證故障快速感知。通過硬件軟件以及其它工程化手段,保證最終進行大型任務訓練時,它的萬卡訓練有效率——一個月30天,每天24小時,其中有多少時間能進行任務有效管理,排除掉所有故障,包括我們做Check point備份時間去掉,還要保證整個集群有效訓練率。
在“省”的方面,更多是在集群能力上需要多租戶管理。在GPU時代,它的核心要有AIHC層面多租戶的切分,能基于異構平臺把算力統一調度后,在AI任務層面做多租戶的切分,保證集群既安全又能有效使用。
在多芯的混合管理以及基于多芯情況下,怎么提高集群整體分配率和利用率,如何進行異構管理,主要有兩層:
首先要進行統一算力感知。例如,昇騰的基礎算力能力和不同算子調度優(yōu)化能力是多少,昆侖芯在跑這些任務時的算力感知能力是多少。如何形成統一異構視圖,基于任務統一視圖進行統一分配。不同芯片的通信接口一個統一,通信協議,昆侖芯、昇騰通信協議之間的統一管理以及接口封裝。
還有一層比較難,即精度對齊。不同的異構卡在不同的算子精度實現策略上有比較大的差異,既有硬件差異,也有軟件差異。如何在不同卡之間形成精度的有效對齊?這需要對芯片有非常深入的了解和實踐,再進行封裝和適配,才有可能實現。
除了在技術層面對多芯統一適配管理,還需要在上游任務調度效率上進行管理。很少有單一訓練任務一跑跑30天、一口氣用萬卡資源,更多是數量眾多的小型任務。如何通過任務隊列對這些小任務進行有效編排,從而讓集群整體利用率和任務分配率達到更高水平,是算力調度平臺任務層面需要解決的核心要求。
我分享兩個案例。當納管集群數量達到更高規(guī)模時,集群的要求是非常大的。百度建的國產昆侖芯P800大型單一集群,從能源效率到機柜數量,再到存儲容量與使用效率,這個集群我們做到了98%。
我們與頭部城商行進行智算集群合作,從底層芯片層到基礎環(huán)境,用的是信創(chuàng)的操作系統和數據庫,再到算力統一感知,百度基礎云平臺+百度百舸GPU算力平臺,加上百度智能云千帆大模型平臺及支撐,從通用場景到智能客服等應用場景提升,做到了不同芯片混合管理、混合使用,通過異構平臺在算力感知的情況下進行統一調度能力。
目前有一個比較流行的趨勢,從單一服務器提供8卡組件,進一步往單一節(jié)點擴大化,把原來的單機8卡、4機32卡、8機64卡,變成單一機柜直接實現32、64卡的超節(jié)點方式來提供服務。在超節(jié)點內,把計算、存儲和網絡按照單一服務器的背板走線設計標準統一重新規(guī)劃,從而至少在64卡內達到單一機型通信效率,并通過超節(jié)點間的快速擴展技術實現128、1024等更大規(guī)模集群能力。
金融算力發(fā)展的四個新趨勢
在金融領域算力實施層面,我們看到幾個新趨勢。
第一,機構統籌建設。金融行業(yè)高度重視智算領域算力基礎設施建設,需要進行整體系統化規(guī)劃和統籌。
第二,關鍵技術攻關。為支撐好金融領域需求,在智算化、綠色化、一體化的技術關鍵層面, 我們希望能和金融領域龍頭一起共創(chuàng)。
第三,標準化建設推進。當前標準還處于突破狀態(tài),比較分散,接下來需進一步推進標準化,尤其在模塊、算力、體系預制化層面是重要方向。
第四,產業(yè)鏈生態(tài)協同。生態(tài)產業(yè)鏈如何能更有效協同。現在信創(chuàng)更多指的是CPU、GPU、操作系統、數據庫等,再往后包含HBM顯存、網絡芯片等,這一整套體系如何更好進行全棧信創(chuàng)的服務也是一個趨勢。
本文首發(fā)于微信公眾號:新金融聯盟NFA。文章內容屬作者個人觀點,不代表和訊網立場。投資者據此操作,風險請自擔。
【免責聲明】本文僅代表作者本人觀點,與和訊網無關。和訊網站對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。郵箱:news_center@staff.hexun.com
最新評論