日前,以“智躍無(wú)界,開(kāi)源致遠(yuǎn)”為主題的操作系統(tǒng)大會(huì)2025(以下簡(jiǎn)稱(chēng)“大會(huì)”)在北京中關(guān)村國(guó)際創(chuàng)新中心成功舉辦。大會(huì)由開(kāi)放原子開(kāi)源歐拉(OpenAtom openEuler,簡(jiǎn)稱(chēng)“開(kāi)源歐拉”或“openEuler”)社區(qū)協(xié)同數(shù)十家產(chǎn)業(yè)伙伴共同舉辦。
百度智能云分享了在操作系統(tǒng)和智算領(lǐng)域的挑戰(zhàn)與實(shí)踐,介紹了基于全國(guó)產(chǎn)算力構(gòu)建的3.2萬(wàn)卡超大規(guī)模智算集群,并系統(tǒng)性展示了支撐這一集群的智能化操作系統(tǒng)——BaiduLinux Cloud OS的重要作用。?
百度智能云AI基礎(chǔ)設(shè)施新突破,百度Linux構(gòu)筑智算新基石
今年4月,百度正式點(diǎn)亮了采用全國(guó)產(chǎn)算力構(gòu)建的3.2萬(wàn)卡超大規(guī)模智算集群,實(shí)現(xiàn)了核心技術(shù)的自主創(chuàng)新。該集群可提供超萬(wàn)P算力,在萬(wàn)卡有效訓(xùn)練時(shí)間以及能效等方面均達(dá)到領(lǐng)先水平,建成后運(yùn)行穩(wěn)定,獲得了唯一的萬(wàn)卡規(guī)模智算集群服務(wù)穩(wěn)定性五星級(jí)認(rèn)證。
BaiduLinux Cloud OS作為上述智算底座的重要組件,為整個(gè)集群提供穩(wěn)定、高效的運(yùn)行時(shí)環(huán)境,支撐從機(jī)房建設(shè)到算力調(diào)度的全生命周期服務(wù)。百度Linux服務(wù)器操作系統(tǒng)5.0基于openEuler 24.03構(gòu)建,深度融合百度自研技術(shù),具備優(yōu)秀跨架構(gòu)兼容性,支持Intel、AMD、海光、鯤鵬等主流硬件平臺(tái)。系統(tǒng)針對(duì)云原生混部場(chǎng)景優(yōu)化了CPU調(diào)度與內(nèi)存回收機(jī)制,提升資源利用率并抑制性能抖動(dòng),保障業(yè)務(wù)穩(wěn)定運(yùn)行。通過(guò)構(gòu)建內(nèi)核與應(yīng)用一體化的內(nèi)生安全體系,實(shí)現(xiàn)全棧國(guó)密、身份認(rèn)證與訪問(wèn)控制,全面抵御外部威脅,為企業(yè)應(yīng)用提供穩(wěn)定、安全、高效的操作環(huán)境。

架構(gòu)創(chuàng)新驅(qū)動(dòng)性能突破
面對(duì)算力規(guī)模持續(xù)擴(kuò)張的挑戰(zhàn),百度在架構(gòu)層面實(shí)現(xiàn)雙向突破:
? 在橫向擴(kuò)展(Scale Out)領(lǐng)域,創(chuàng)新推出跨園區(qū)RDMA長(zhǎng)傳方案,實(shí)現(xiàn)150公里無(wú)損傳輸,將大模型訓(xùn)練損耗嚴(yán)格控制在3%以?xún)?nèi)。通過(guò)路由聚合與多平面組網(wǎng)等前沿技術(shù),構(gòu)建了支持十萬(wàn)卡規(guī)模的高性能集群架構(gòu)。
? 在縱向擴(kuò)展(Scale Up)方向,推出多款超節(jié)點(diǎn)產(chǎn)品,顯著提升卡間互聯(lián)帶寬與性能。其中,單個(gè)超節(jié)點(diǎn)即可獨(dú)立完成萬(wàn)億參數(shù)模型訓(xùn)練。依托與openEuler的深度協(xié)作,BaiduLinux Cloud OS通過(guò)統(tǒng)一內(nèi)存管理、異構(gòu)調(diào)度框架等核心技術(shù),實(shí)現(xiàn)數(shù)據(jù)零拷貝流動(dòng),將分布式硬件集群融為統(tǒng)一的超級(jí)計(jì)算機(jī)。
全鏈路優(yōu)化釋放算力潛能
百度通過(guò)全鏈路優(yōu)化與智能運(yùn)維的雙輪驅(qū)動(dòng),確保算力資源高效轉(zhuǎn)化為AI生產(chǎn)力:
? 在基礎(chǔ)設(shè)施層,BaiduLinux Cloud OS憑借異構(gòu)算力協(xié)同技術(shù),實(shí)現(xiàn)單機(jī)推理性能倍增;在資源管理層,基于云原生底座與智能調(diào)度優(yōu)化,達(dá)成毫秒級(jí)操作響應(yīng);在AI任務(wù)層,通過(guò)模型結(jié)構(gòu)與推理引擎的協(xié)同優(yōu)化,全面提升單卡吞吐性能。
? 基于與openEuler共建的一站式運(yùn)維平臺(tái),實(shí)現(xiàn)了跨層數(shù)據(jù)的統(tǒng)一采集與智能分析,能夠自動(dòng)定位95%以上的慢節(jié)點(diǎn)問(wèn)題,將性能問(wèn)題定位時(shí)間縮短至小時(shí)級(jí),并通過(guò)全景可視化界面助力運(yùn)維團(tuán)隊(duì)實(shí)時(shí)掌握集群狀態(tài)。
異構(gòu)機(jī)密計(jì)算筑牢安全屏障
百度通過(guò)BaiduLinux Cloud OS與openEuler的深度融合,打造了“高安全、高易用、低開(kāi)銷(xiāo)”的異構(gòu)機(jī)密計(jì)算解決方案。該方案采用硬件級(jí)隔離與內(nèi)存加密技術(shù),確保數(shù)據(jù)在計(jì)算全生命周期的安全;原生支持機(jī)密虛擬機(jī),顯著降低遷移成本;創(chuàng)新性“機(jī)密直通”技術(shù)實(shí)現(xiàn)虛擬機(jī)直接訪問(wèn)加速卡,在保障安全性的同時(shí)保持卓越性能。
百度智能云的這一系列技術(shù)突破,充分展現(xiàn)了國(guó)產(chǎn)算力基礎(chǔ)設(shè)施的建設(shè)成果,為各行業(yè)的智能化轉(zhuǎn)型提供了堅(jiān)實(shí)可靠的技術(shù)底座。?
深化開(kāi)源合作,共創(chuàng)智能未來(lái)
百度與openEuler社區(qū)的合作始于2021年,雙方攜手發(fā)布并持續(xù)演進(jìn)BaiduLinux智能云操作系統(tǒng),現(xiàn)已升級(jí)為智算原生底座BaiduLinux Cloud OS。該系統(tǒng)全面支撐千帆大模型平臺(tái)與百舸異構(gòu)智算平臺(tái),已在多場(chǎng)景規(guī)模部署超2萬(wàn)套,展現(xiàn)出卓越的穩(wěn)定性和兼容性。

展望未來(lái),百度將持續(xù)深化與openEule的合作,重點(diǎn)推進(jìn)三大方向:聯(lián)合發(fā)布業(yè)界首個(gè)ARM CCA機(jī)密計(jì)算解決方案,推動(dòng)技術(shù)從通用計(jì)算邁向智能計(jì)算;作為異構(gòu)融合產(chǎn)學(xué)研聯(lián)盟首批成員,共建行業(yè)軟件標(biāo)準(zhǔn);積極參與AI工作組,打造智能化平臺(tái)生態(tài)。
在技術(shù)聯(lián)創(chuàng)層面,百度將聚焦超節(jié)點(diǎn)OS核心技術(shù)攻關(guān)、操作系統(tǒng)智能化升級(jí)及全棧安全方案構(gòu)建,致力于打造操作系統(tǒng)領(lǐng)域旗艦產(chǎn)品,為國(guó)產(chǎn)算力基礎(chǔ)設(shè)施建設(shè)注入新動(dòng)能。
關(guān)鍵詞: