華為算力,不再低調(diào)。
9月18日,在華為全聯(lián)接大會上,華為副董事長、輪值董事長徐直軍放猛料,直接公布了華為AI算力的全景圖。
從全新的4顆昇騰芯片、3個超節(jié)點、2款鯤鵬CPU,到全新互聯(lián)總線架構靈衢,華為從GPU到聯(lián)接技術,全面對標英偉達。也很少有科技企業(yè),像華為這樣做到AI算力全棧技術。即使在華為內(nèi)部人士看來,此次把很多曾在內(nèi)部視為機密的計劃都對外釋放了。
徐直軍指出:“算力,過去是,未來也將繼續(xù)是人工智能的關鍵,更是中國人工智能的關鍵,”并再次強調(diào):“基于中國可獲得的芯片制造工藝,華為努力打造‘超節(jié)點+集群’算力解決方案,來滿足持續(xù)增長的算力需求?!?/p>
這也是時隔6年,華為又一次在全聯(lián)接大會上集中展示芯片的進展。每年大會都是華為技術趨勢的觀察窗口,今年計算產(chǎn)業(yè)站到了最前沿。徐直軍甚至在演講中預告,明年可能叫“華為計算聯(lián)接大會”,對AI算力的期許可見一斑。
回看華為在AI算力產(chǎn)業(yè)的布局,不論超節(jié)點還是昇騰,從來都不是橫空出世,而是華為在持續(xù)研發(fā)中跑出的科技范式。尊重人才、長期投入基礎研究、重視商業(yè)化能力,正是這樣系統(tǒng)性的研發(fā)和市場驅動,才有了華為獨特的范式創(chuàng)新。
昇騰鯤鵬演進
徐直軍表示,算力的基礎是芯片,昇騰芯片是華為AI算力戰(zhàn)略的基礎。
圍繞算力核心,徐直軍完整公布了昇騰芯片未來三年的迭代路線:從2026年一季度即將推出的Ascend 950系列,到2027年的Ascend 960,再到2028年的Ascend 970,幾乎以“一年一代算力翻倍”的速度推進,更多具體芯片還在規(guī)劃中。
其中,明年即將推出的950系列備受關注,從命名來看,910到950也能體現(xiàn)出技術的迭代升級。徐直軍詳述了950系列在低精度數(shù)據(jù)格式、向量算力、互聯(lián)帶寬以及自研HBM等方面的突破。
據(jù)介紹,最先推出的Ascend 950PR,主要面向推理Prefill階段和推薦業(yè)務場景,新增支持業(yè)界標準的FP8、MXFP578、MXFP4等低精度數(shù)據(jù)格式,提升訓練效率。接下來的Ascend 950DT,相比Ascend 950PR,更注重推理Decode階段和訓練場景。
早在2018年10月的華為全聯(lián)接大會上,徐直軍首次闡述了華為AI戰(zhàn)略,并公布了昇騰系列的AI芯片,分別是昇騰310和昇騰910,其中昇騰310當時已經(jīng)量產(chǎn),而昇騰910在2019年2季度上市。
在摩爾定律逐漸失效的情況下,AI芯片有助于解決算力的問題,能夠提升芯片的計算效率,同時降低成本。因此,越來越多的硬件中都在CPU之外加入了AI元素。
再看CPU產(chǎn)品,華為鯤鵬生態(tài)快速發(fā)展,并有新規(guī)劃,鯤鵬950預計2026年第四季度推出,鯤鵬960預計2028年第一季度推出。雖然鯤鵬直接對標英特爾、AMD的產(chǎn)品,但是在超節(jié)點中,昇騰和鯤鵬將形成合力。
在AI芯片市場上,英偉達仍占有絕對優(yōu)勢,但是中國AI市場上正風起云涌,從華為昇騰、到阿里平頭哥、百度昆侖、寒武紀等都在追趕之中。
從華為體系來看,在算力層面,華為發(fā)展了昇騰AI芯片和服務器CPU鯤鵬芯片,并且圍繞鯤鵬和昇騰構建新的計算生態(tài)。它們是華為最核心的AI算力旗艦,而華為也在努力為世界提供算力新選擇。
多年前,華為就提出了計算戰(zhàn)略,瞄準了人工智能的算力底座。隨著近兩年生成式AI的來臨,尤其是昇騰算力體系加速爆發(fā),華為也欲在新一輪的AI浪潮中占據(jù)主導地位。
在AI競賽場上,昇騰從2019年面世以來就是不可忽視的一支力量。如今,昇騰也早已不是當年單卡的概念,已經(jīng)從加速卡、集群、再演進到一整套AI軟硬件體系。
超節(jié)點和集群登場
徐直軍認為,超節(jié)點在物理上由多臺機器組成,但邏輯上以一臺機器學習、思考、推理。華為發(fā)布了最新超節(jié)點產(chǎn)品Atlas 950 SuperPoD和Atlas 960 SuperPoD超節(jié)點,分別支持8192及15488張昇騰卡,在卡規(guī)模、總算力、內(nèi)存容量、互聯(lián)帶寬等關鍵指標上全面領先,在未來多年都將是全球最強算力的超節(jié)點。
基于超節(jié)點,華為同時發(fā)布了全球最強超節(jié)點集群,分別是Atlas 950 SuperCluster和Atlas 960 SuperCluster,算力規(guī)模分別超過50萬卡和達到百萬卡,是當之無愧的全世界最強算力集群。
徐直軍表示,基于全球最強算力的超節(jié)點和集群,華為對于為人工智能的長期快速發(fā)展提供可持續(xù)且充裕算力,充滿信心。
在徐直軍看來,超節(jié)點成為AI基礎設施建設新常態(tài),目前CloudMatrix 384超節(jié)點累計部署300多套,服務20多家客戶。其中,Atlas 950 SuperPoD,算力規(guī)模8192卡,預計于今年四季度上市。新一代產(chǎn)品Atlas 960 SuperPoD,算力規(guī)模15488卡,預計2027年四季度上市。
同時,華為率先把超節(jié)點技術引入通用計算領域,發(fā)布全球首個通用計算超節(jié)點TaiShan 950 SuperPoD,結合GaussDB分布式數(shù)據(jù)庫,能夠徹底取代各種應用場景的大型機和小型機以及Exadata數(shù)據(jù)庫一體機,將成為各類大型機、小型機的終結者。
在互聯(lián)技術領域,華為通過系統(tǒng)性創(chuàng)新,突破了大規(guī)模超節(jié)點的互聯(lián)技術挑戰(zhàn),開創(chuàng)了面向超節(jié)點的互聯(lián)協(xié)議靈衢(UnifiedBus),徐直軍宣布華為將開放靈衢2.0技術規(guī)范,共建靈衢開放生態(tài)。
一位華為內(nèi)部人士向21世紀經(jīng)濟報道記者表示,目前高速互聯(lián)總線有多種類型,包括NVlink,靈衢UB,UAlink等,但真正商用的基于高速互聯(lián)總線的超節(jié)點架構產(chǎn)品,現(xiàn)在只有NVLink和靈衢UB。
近年來,華為在硬件和軟件產(chǎn)業(yè)鏈上雙管齊下。面對眼前的挑戰(zhàn)與短板,必須要尋找“彎道超車”的道路。當全球芯片企業(yè)的角逐愈演愈烈,華為轉向工程化、系統(tǒng)化的突圍思路,逐步透露出端倪。
在2024年的華為全聯(lián)接大會上,徐直軍曾談到算力發(fā)展。他坦言,立足中國,只有基于實際可獲得的芯片制造工藝打造的算力才是長期可持續(xù)的,“因為人工智能正在成為主導性算力需求,促使計算系統(tǒng)正在發(fā)生結構性變化,需要的是系統(tǒng)算力,而不僅僅是單處理器的算力。這些結構性變化,為我們通過架構性創(chuàng)新,開創(chuàng)出一條自主可持續(xù)的計算產(chǎn)業(yè)發(fā)展道路,提供了機遇?!?/p>
在一位華為專家看來,訓練大模型需要大系統(tǒng),純粹比單卡沒有意義。通過超節(jié)點系統(tǒng)的有效調(diào)度,昇騰系統(tǒng)能效不比英偉達差,系統(tǒng)工程不是華為獨有的選擇,而是做計算系統(tǒng)的共同努力的方向。