日前,以“智躍無界,開源致遠”為主題的操作系統(tǒng)大會2025(以下簡稱“大會”)在北京中關(guān)村國際創(chuàng)新中心成功舉辦。大會由開放原子開源歐拉(OpenAtom openEuler,簡稱“開源歐拉”或“openEuler”)社區(qū)協(xié)同數(shù)十家產(chǎn)業(yè)伙伴共同舉辦。
百度智能云分享了在操作系統(tǒng)和智算領(lǐng)域的挑戰(zhàn)與實踐,介紹了基于全國產(chǎn)算力構(gòu)建的3.2萬卡超大規(guī)模智算集群,并系統(tǒng)性展示了支撐這一集群的智能化操作系統(tǒng)——BaiduLinux Cloud OS的重要作用。?
百度智能云AI基礎(chǔ)設(shè)施新突破,百度Linux構(gòu)筑智算新基石
今年4月,百度正式點亮了采用全國產(chǎn)算力構(gòu)建的3.2萬卡超大規(guī)模智算集群,實現(xiàn)了核心技術(shù)的自主創(chuàng)新。該集群可提供超萬P算力,在萬卡有效訓(xùn)練時間以及能效等方面均達到領(lǐng)先水平,建成后運行穩(wěn)定,獲得了唯一的萬卡規(guī)模智算集群服務(wù)穩(wěn)定性五星級認證。
BaiduLinux Cloud OS作為上述智算底座的重要組件,為整個集群提供穩(wěn)定、高效的運行時環(huán)境,支撐從機房建設(shè)到算力調(diào)度的全生命周期服務(wù)。百度Linux服務(wù)器操作系統(tǒng)5.0基于openEuler 24.03構(gòu)建,深度融合百度自研技術(shù),具備優(yōu)秀跨架構(gòu)兼容性,支持Intel、AMD、海光、鯤鵬等主流硬件平臺。系統(tǒng)針對云原生混部場景優(yōu)化了CPU調(diào)度與內(nèi)存回收機制,提升資源利用率并抑制性能抖動,保障業(yè)務(wù)穩(wěn)定運行。通過構(gòu)建內(nèi)核與應(yīng)用一體化的內(nèi)生安全體系,實現(xiàn)全棧國密、身份認證與訪問控制,全面抵御外部威脅,為企業(yè)應(yīng)用提供穩(wěn)定、安全、高效的操作環(huán)境。

架構(gòu)創(chuàng)新驅(qū)動性能突破
面對算力規(guī)模持續(xù)擴張的挑戰(zhàn),百度在架構(gòu)層面實現(xiàn)雙向突破:
? 在橫向擴展(Scale Out)領(lǐng)域,創(chuàng)新推出跨園區(qū)RDMA長傳方案,實現(xiàn)150公里無損傳輸,將大模型訓(xùn)練損耗嚴格控制在3%以內(nèi)。通過路由聚合與多平面組網(wǎng)等前沿技術(shù),構(gòu)建了支持十萬卡規(guī)模的高性能集群架構(gòu)。
? 在縱向擴展(Scale Up)方向,推出多款超節(jié)點產(chǎn)品,顯著提升卡間互聯(lián)帶寬與性能。其中,單個超節(jié)點即可獨立完成萬億參數(shù)模型訓(xùn)練。依托與openEuler的深度協(xié)作,BaiduLinux Cloud OS通過統(tǒng)一內(nèi)存管理、異構(gòu)調(diào)度框架等核心技術(shù),實現(xiàn)數(shù)據(jù)零拷貝流動,將分布式硬件集群融為統(tǒng)一的超級計算機。
全鏈路優(yōu)化釋放算力潛能
百度通過全鏈路優(yōu)化與智能運維的雙輪驅(qū)動,確保算力資源高效轉(zhuǎn)化為AI生產(chǎn)力:
? 在基礎(chǔ)設(shè)施層,BaiduLinux Cloud OS憑借異構(gòu)算力協(xié)同技術(shù),實現(xiàn)單機推理性能倍增;在資源管理層,基于云原生底座與智能調(diào)度優(yōu)化,達成毫秒級操作響應(yīng);在AI任務(wù)層,通過模型結(jié)構(gòu)與推理引擎的協(xié)同優(yōu)化,全面提升單卡吞吐性能。
? 基于與openEuler共建的一站式運維平臺,實現(xiàn)了跨層數(shù)據(jù)的統(tǒng)一采集與智能分析,能夠自動定位95%以上的慢節(jié)點問題,將性能問題定位時間縮短至小時級,并通過全景可視化界面助力運維團隊實時掌握集群狀態(tài)。
異構(gòu)機密計算筑牢安全屏障
百度通過BaiduLinux Cloud OS與openEuler的深度融合,打造了“高安全、高易用、低開銷”的異構(gòu)機密計算解決方案。該方案采用硬件級隔離與內(nèi)存加密技術(shù),確保數(shù)據(jù)在計算全生命周期的安全;原生支持機密虛擬機,顯著降低遷移成本;創(chuàng)新性“機密直通”技術(shù)實現(xiàn)虛擬機直接訪問加速卡,在保障安全性的同時保持卓越性能。
百度智能云的這一系列技術(shù)突破,充分展現(xiàn)了國產(chǎn)算力基礎(chǔ)設(shè)施的建設(shè)成果,為各行業(yè)的智能化轉(zhuǎn)型提供了堅實可靠的技術(shù)底座。?
深化開源合作,共創(chuàng)智能未來
百度與openEuler社區(qū)的合作始于2021年,雙方攜手發(fā)布并持續(xù)演進BaiduLinux智能云操作系統(tǒng),現(xiàn)已升級為智算原生底座BaiduLinux Cloud OS。該系統(tǒng)全面支撐千帆大模型平臺與百舸異構(gòu)智算平臺,已在多場景規(guī)模部署超2萬套,展現(xiàn)出卓越的穩(wěn)定性和兼容性。

展望未來,百度將持續(xù)深化與openEule的合作,重點推進三大方向:聯(lián)合發(fā)布業(yè)界首個ARM CCA機密計算解決方案,推動技術(shù)從通用計算邁向智能計算;作為異構(gòu)融合產(chǎn)學(xué)研聯(lián)盟首批成員,共建行業(yè)軟件標準;積極參與AI工作組,打造智能化平臺生態(tài)。
在技術(shù)聯(lián)創(chuàng)層面,百度將聚焦超節(jié)點OS核心技術(shù)攻關(guān)、操作系統(tǒng)智能化升級及全棧安全方案構(gòu)建,致力于打造操作系統(tǒng)領(lǐng)域旗艦產(chǎn)品,為國產(chǎn)算力基礎(chǔ)設(shè)施建設(shè)注入新動能。
關(guān)鍵詞: