11月19日,2024年世界互聯(lián)網(wǎng)大會***科技獎在烏鎮(zhèn)揭曉,阿里云面向AI的云計算基礎(chǔ)設(shè)施榮獲該獎,成為世界互聯(lián)網(wǎng)大會史上首個以AI基礎(chǔ)設(shè)施整體獲獎的科技成果。面向AI時代,阿里云***重構(gòu)了一個從底層硬件到計算、存儲、網(wǎng)絡(luò)、數(shù)據(jù)處理、模型訓(xùn)練和推理平臺的全棧技術(shù)架構(gòu)體系,成為國內(nèi)***自研、布局***深入的AI基礎(chǔ)設(shè)施。目前,80%的中國科技公司、65%的專精特新“小巨人”企業(yè)和60%的A股上市公司使用阿里云的算力服務(wù)。
隨著人工智能加速發(fā)展,以CPU為核心的經(jīng)典計算體系正快速向GPU主導(dǎo)的加速計算體系轉(zhuǎn)移,同時,AI大模型的訓(xùn)練數(shù)據(jù)和應(yīng)用場景正快速增長,這對底層基礎(chǔ)設(shè)施提出了性能和效率的全新要求。大會指出,阿里云通過軟硬一體體系化創(chuàng)新,面向AI對云計算的全棧架構(gòu)實現(xiàn)了技術(shù)全新改造,將數(shù)據(jù)中心***升級為一臺超級智能計算機。
在計算層,阿里云研發(fā)出全新的磐久AI服務(wù)器,單機支持16卡、顯存1.5T,并創(chuàng)新AI算法預(yù)測GPU故障,準(zhǔn)確率達92%,業(yè)界***;同時,首次推出支持多種生態(tài)的Serverless化GPU容器算力,實現(xiàn)ACS容器計算親和度和性能的全方位提升。在存儲層,文件存儲CPFS可為AI智算提供指數(shù)級擴展存儲能力,并通過冷熱數(shù)據(jù)分層大幅節(jié)省成本。在網(wǎng)絡(luò)層,高性能網(wǎng)絡(luò)架構(gòu)HPN7.0可穩(wěn)定連接超過10萬個GPU。在平臺層,人工智能平臺PAI,已實現(xiàn)萬卡級別的訓(xùn)練推理一體化彈性調(diào)度,AI算力有效利用率超90%;湖倉一體化平臺OpenLake,可提供大數(shù)據(jù)搜索、AI一體化能力體系;多模數(shù)據(jù)管理平臺DMS,可實現(xiàn)跨云數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)湖統(tǒng)一治理,幫助業(yè)務(wù)決策提效10倍。
基于全棧優(yōu)化,阿里云AI基礎(chǔ)設(shè)施的系統(tǒng)穩(wěn)定性和計算效率大為提升,連續(xù)訓(xùn)練有效時長達到 99%,GPU 使用效率(MFU)提升了 20% 以上。全新打造的阿里云靈駿智算集群,可支持10 萬張GPU卡高效互聯(lián),在萬卡規(guī)模下的性能線性增長率達到 96%,可提供 20TB/S 的超高吞吐并行存儲,網(wǎng)絡(luò)有效使用率達到99%的業(yè)界***水平。
基于全棧優(yōu)化,阿里云AI基礎(chǔ)設(shè)施的系統(tǒng)穩(wěn)定性和計算效率大為提升,連續(xù)訓(xùn)練有效時長達到 99%,GPU 使用效率(MFU)提升了 20% 以上。全新打造的阿里云靈駿智算集群,可支持10 萬張GPU卡高效互聯(lián),在萬卡規(guī)模下的性能線性增長率達到 96%,可提供 20TB/S 的超高吞吐并行存儲,網(wǎng)絡(luò)有效使用率達到99%的業(yè)界***水平。