
人工智能(AI)做為產(chǎn)業(yè)變革的核心力量,不僅是技術(shù)創(chuàng)新,更是推動(dòng)經(jīng)濟(jì)發(fā)展、社會(huì)進(jìn)步、行業(yè)創(chuàng)新的重要驅(qū)動(dòng)力。作為AI市場(chǎng)中的重要組成, 以 GPU、 FPGA 等為主的 AI 加速器市場(chǎng)發(fā)展也隨之水漲船高。
由于缺乏高效經(jīng)濟(jì)的 AI 算力資源池化解決方案, 導(dǎo)致絕大部分企業(yè)只能獨(dú)占式地使用昂貴的AI算力資源,帶來(lái)居高不下的AI算力使用成本;由于缺少對(duì)異構(gòu)算力硬件支持,用戶(hù)不得不修改 AI 應(yīng)用以適應(yīng)不同廠(chǎng)商的 AI 算力硬件。 這會(huì)加劇 AI 應(yīng)用開(kāi)發(fā)部署復(fù)雜性、提高 AI 算力投入成本并導(dǎo)致供應(yīng)商鎖定。
GPU資源池化技術(shù)從初期的簡(jiǎn)單虛擬化,到資源池化,經(jīng)歷了四個(gè)技術(shù)演進(jìn)階段:

OrionX AI 算力資源池化解決方案已經(jīng)實(shí)現(xiàn)了上述四個(gè)階段的技術(shù)功能,可以為用戶(hù)提供 GPU 資源池化的整體解決方案。
OrionX 幫助客戶(hù)構(gòu)建數(shù)據(jù)中心級(jí) AI 算力資源池, 使用戶(hù)應(yīng)用無(wú)需修改就能透明地共享和使用數(shù)據(jù)中心內(nèi)任何服務(wù)器之上的 AI 加速器。 OrionX 不但能夠幫助用戶(hù)提高 AI 算力資源利用率, 而且可以極大便利用戶(hù) AI 應(yīng)用的部署。

OrionX 通過(guò)軟件定義AI算力,顛覆了原有的AI應(yīng)用直接調(diào)用物理GPU的架構(gòu),增加軟件層,將AI應(yīng)用與物理GPU解耦合。AI應(yīng)用調(diào)用邏輯的vGPU,再由OrionX將vGPU需求匹配到具體的物理GPU。OrionX 架構(gòu)實(shí)現(xiàn)了GPU資源池化,讓用戶(hù)高效、智能、靈活地使用GPU資源,達(dá)到了降本增效的目的。
OrionX通過(guò)構(gòu)建GPU資源池,讓企業(yè)內(nèi)的AI用戶(hù)共享數(shù)據(jù)中心內(nèi)所有服務(wù)器上的GPU算力。AI開(kāi)發(fā)人員不必再關(guān)心底層資源狀況,專(zhuān)注于更有價(jià)值的業(yè)務(wù)層面,讓?xiě)?yīng)用開(kāi)發(fā)變得更加便捷。
提高利用率
支持將GPU切片為任意大小的vGPU,從而允許多AI負(fù)載并行運(yùn)行,提高物理GPU利用率。
提高GPU綜合利用率多達(dá)3-10倍,1張卡相當(dāng)于起到N張卡的效果,真正做到昂貴算力平民化。
高性能
相比于物理GPU,OrionX本地vGPU性能損耗幾乎為零,遠(yuǎn)程vGPU性能損耗小于 2%。
vGPU資源隔離,并行用戶(hù)無(wú)資源互擾。
提高利用率
支持將GPU切片為任意大小的vGPU,從而允許多AI負(fù)載并行運(yùn)行,提高物理GPU利用率。
提高GPU綜合利用率多達(dá)3-10倍,1張卡相當(dāng)于起到N張卡的效果,真正做到昂貴算力平民化。
輕松彈性擴(kuò)展
支持從單臺(tái)到整個(gè)數(shù)據(jù)中心GPU服務(wù)器納管,輕松實(shí)現(xiàn)GPU資源池的橫向擴(kuò)展。
全分布式部署,通過(guò)RDMA(IB/RoCE)或 TCP/IP網(wǎng)絡(luò)連接各個(gè)節(jié)點(diǎn),實(shí)現(xiàn)資源池彈性擴(kuò)展。
靈活調(diào)度
支持AI負(fù)載與GPU資源分離部署,更加高效合理地使用GPU資源。
CPU與GPU資源解耦合,兩種服務(wù)器分開(kāi)購(gòu)買(mǎi)、按需升級(jí)、靈活調(diào)度,有助于最大化數(shù)據(jù)中心基礎(chǔ)設(shè)施價(jià)值。
全局管理
提供GPU資源管理調(diào)度策略。
GPU全局資源池性能監(jiān)控,為運(yùn)維人員提供直觀的資源利用率等信息。
對(duì) AI 開(kāi)發(fā)人員友好
一鍵解決AI開(kāi)發(fā)人員面臨的訓(xùn)練模型中GPU/CPU配比和多機(jī)多卡模型拆分問(wèn)題,為算法工程師節(jié)省大量寶貴時(shí)間。
大模型場(chǎng)景如訓(xùn)練場(chǎng)景, 對(duì)算力資源需求量大, 通常會(huì)使用一張或者多張 GPU 卡資源。
作為 AI 算力資源池平臺(tái), OrionX 既可以支持單臺(tái)服務(wù)器上的單卡、 多卡訓(xùn)練, 也可以支持跨設(shè)備的多卡訓(xùn)練。

通過(guò)“化零為整”功能支持訓(xùn)練
支持將多臺(tái)服務(wù)器上的 GPU 提供給一個(gè)虛擬機(jī)或者容器使用,而該虛擬機(jī)或者容器內(nèi)的基于分布式訓(xùn)練框架(Horovod 或 Distributed Data Parallel)的 AI 應(yīng)用無(wú)需修改代碼。通過(guò)這個(gè)功能,用戶(hù)可以將多臺(tái)服務(wù)器的 GPU 資源聚合后提供給單一虛擬機(jī)或者容器使用?!盎銥檎敝С钟?xùn)練等大模型場(chǎng)景,為用戶(hù)的 AI 應(yīng)用提供數(shù)據(jù)中心級(jí)的海量算力。
通過(guò)“隔空取物”功能支持訓(xùn)練
支持將虛擬機(jī)或者容器運(yùn)行在一臺(tái)沒(méi)有物理GPU的服務(wù)器上,通過(guò)計(jì)算機(jī)網(wǎng)絡(luò),透明地使用其他服務(wù)器上的GPU資源,該虛擬機(jī)或者容器內(nèi)的 AI 應(yīng)用無(wú)需修改代碼。通過(guò)這個(gè)功能,OrionX 幫助用戶(hù)實(shí)現(xiàn)了數(shù)據(jù)中心級(jí)的 GPU 資源池,實(shí)現(xiàn)了AI應(yīng)用和GPU物理資源的解耦合,AI 應(yīng)用在一個(gè)不滿(mǎn)足訓(xùn)練條件的純CUP服務(wù)器上,也一樣能夠快速調(diào)集多個(gè)GPU卡完成訓(xùn)練任務(wù)。