買了GPU後,我哭了18次…
回想幾個月前,GPU 服務器批量上架的那一刻,老劉心裡還是樂滋滋的。
可萬萬沒想到!
GPU服務器買進來,業務部門一提需求,老劉急哭了18次。
影》陆籍柜姐成比利时王妃 返乡探亲掀轰动
一次比一次哭聲大!
老劉(劉宇),是某大甲方信息中心基礎架構部的副總,主抓技術,是個狠人。這幾年把集團的數字化底座整得風生水起。
加沙地带燃料短缺
去年開始,集團要大力發展「AI業務」,老劉力排衆議,堅決自己搞AI平臺。
爲啥要【自建AI平臺】呢?
公布新款全片幅機種α7 V?Sony 11月7日晚間舉辦α品牌特別活動
老劉心裡想得很明白↓
1、前幾年雲化項目自己搞得很成功,虛擬化、容器化已經積累了不少經驗,區區一個AI平臺,沒問題。
2、這一次,抓住機會,要再展示一下基礎架構部的實力,提升話語權。
魔偶马戏团(境外版)
在落地實施上,老劉也有蜜汁自信↓
AI框架什麼的都是現成的,底層Driver什麼的有原廠支持,搬磚的事兒代理商也能幫一把。
於是,把預算、做方案、招投標、交付上線,一切都按照老劉預想的那樣開整了。
結果……結果……
等到上線,業務部門一提需求,老劉徹底方了,就出現了開始那一幕。
最先“造反”的研發部門,把老劉逼“哭”了10次。
新北市國際紀錄片月秀城市軟實力 今前進台中交流
研發中心算法部,每個算法工程師都要一臺“機器”(獨佔一塊GPU卡),加個人就要加設備是慣例。
彭博曝美国先锋集团撤离中国 上海办公室明年初将熄灯
但是老劉發現,算法工程師很多時間是在調整參數和修改模型(
這時候”掛”着GPU,屬於佔着茅坑不拉)。只有進行模型訓練的時候,才需要GPU參與運算。
蔣萬安立委本命區 吳怡農舉兩次得票:綠拿這區非想像難
每個研發的任務也不是嚴格排滿的,但分配下去的“獨佔”資源卻不能釋放出來複用。
結果,雖然老劉這次買了不少GPU Server,可是這個“獨佔”模式卻造成雙向浪費。
有的GPU明明閒着,卻被佔用鎖定,有的開發人員苦等GPU資源,也只能閒着。
整體的研發進度大受影響,於是老劉部門收到投訴不斷。
有人說,資源申請不到,研發多摸會兒,他們難道不開心麼?怎麼還會投訴?!
赋予“吃了么”更多文化内涵
然而真相是,集團業務賺錢不易,研發投入卻越來越大。因此,集團非常注重考覈研發成本。
而現在可倒好,一個Q下來,分攤到研發的GPU佔用成本,大幅增加,嚴重影響了算法部的績效。
做好长期抗疫准备
研發總監也坐不住了,向老劉吐槽,嚴重質疑他們基礎架構部的能力!
下半年,公司新成立了一個戰略業務部門:自動駕駛部,這是公司當下最重要的探路業務,預計未來獨立上市。
自動駕駛部門的算法仿真業務需要消耗大量GPU算力資源,老劉劃撥了一大票服務器給他們。
老劉本以爲,仿真業務屬於重載應用,不存在“峰谷”,這次GPU一定能物盡其用,基礎架構部也可以一雪前恥。
可是運行一段時間後,老劉被揪去看監控,結果很讓人崩潰。
《魔兽世界:地心之战》开启预购 史诗版售价90美元
那些服務器的CPU都跑滿了,可是GPU的利用率卻只有12.5%,原來仿真模型需要大量CPU資源做預處理。
CPU不夠用了,GPU空有一身力氣也使不上,導致效率低下,只能再劃撥服務器來補充CPU算力。
類似的,還有些場景,GPU跑滿,但CPU卻閒得蛋疼,在資源利用率上,總是沒法拉通和對齊。
看到這種結果,老劉更方了。
原本基礎研發那邊就已經讓他滿頭包了,現在自動駕駛這邊又添了更大的堵。上上下下都對他們基礎架構部的工作不滿意。
澎恰恰突缺席記者會求救「被逼到邊緣」 經紀人曝實情
被兄弟部門投訴還不算完,老劉自己部門,自從接了這個AI算力平臺的鍋,那可算遭了大罪。
每天辦公室的場景真是美如畫既要處理日常的資源審批、調配、監控、排錯、管理,還要搞定底層Driver、搞定CUDA等各種API、搞定AI框架,實在太煎熬了,天天加班,人手完全不夠。
侍奉担当的女仆明明是H杯却不Hご奉仕メイドがHカップなのにエッチじゃない
退後讓爲師來
「漂浮花卉城堡」超美!「2023新社花海暨台中國際花毯節」11/11登場 最大亮點吸睛美照搶先看
而且老闆還給老劉提了新要求,要支持異構算力芯片,確保供應鏈安全…
“內憂外患”之下,老劉真是感覺自己滿頭包了,後悔自己當初選了自建,原本想掌控一切,結果一切都在失控……
問題實在太多了,哭18次都不夠~
我以爲老劉就會這樣一直哭下去,畢竟這些問題都很棘手,短期內很難解決。
自己挖的坑,含着淚也要填完。
可是,最近去見老劉,發現老劉已經不“哭”了!
爲啥?
原來他已經找到了完美的解決方案,那就是GPU池化。
越野超级混动架构Hi4-T加持,坦克500 Hi4-T正式预售
GPU池化不就是把幾塊顯卡虛擬化一下?能治老劉的病?
仔細一聊才知道,老劉痛定思痛,把市面上的GPU池化技術都研究透了,原來這技術分爲4個Level
财政政策连续发力 宏观经济有望持续向好
物理GPU按照固定比例切分,算力和顯存資源爲獨佔模式,資源無法動態調整。
物理GPU支持從算力和顯存兩個維度任意切分,資源動態共享,動態調整。
支持AI負載與物理GPU分離部署,AI應用部署在任意位置,通過網絡遠程調用。
支持①②③所有能力,同時具備統一的GPU資源調度管理監控平臺,虛擬GPU按需調度,動態伸縮。
救老劉於水火的,正是這種最高Level的「GPU資源池化」。
老劉沒有增加任何新硬件、新GPU採購,只是用了一款AI算力資源池化軟件,就化腐朽爲神奇了。
這款軟件,叫做OrionX,我來先曬一下整體架構。
先看最底層,對異構物理卡的池化能力,以前,老趙的那些卡“各自爲戰”,忙的忙死,閒的閒死。
現在,聽從OrionX的統一指揮,變成一個大的GPU虛擬化資源池,支持任意配比的GPU切分和聚合,同時,還支持多種“GPU”異構成池(GPU、FPGA、ASIC),整體調度和監控。
影/東勢警與環監單位取締噪音改裝車 一天攔查罰款破2萬
當然,光切分、重組、成池還不夠,上層AI工作負載想要使用這些算力,還需要通過API,這方面OrionX早幫大家安排好了,用N卡的,就拿CUDA對接,如果用國產信創芯片,那提供信創框架來對接。
而且,OrionX也在不斷進化,未來如果算力池還有其他異構硬件加入,就會對應引入API來對接,完全不需要用戶自己操心搞東搞西。
再往上,就進入了AI的具體搬磚流程,也就是AI框架,這決定了如何封裝算法,如何調用數據,如何使用算力資源,還要面向開發者的開發界面、執行平臺。
OrionX預置了對主流AI框架的支持,無論TensorFlow還是Pytorch,或者國產的PaddlePaddle等,開發者們可以根據喜好,去使用自己熟悉的框架來完成訓練。
在最上面一層,就是各種各樣的行業應用,機器視覺、自然語言處理、自動駕駛仿真、跨媒體推理……,不管需求如何變化,資源池都可以靈活調整應對。
具體到實際落地,OrionX可以一口氣甩出六種招式,把各種GPU的資源拆散、揉碎、重組……,統一調度,或本地、或遠程,打出各種組合拳。
比如第一招「隔空取物」,其實就是虛擬GPU資源的遠程調用。消除時間上和空間上的限制,最大化利用率。
老劉之前自動駕駛新業務部門的“CPU累死GPU躺平”問題:利用池化技術解耦部署,然後「隔空取物」實現遠程調用,完美解決。
新台幣開盤升5.1分 為32.31元
具體說,之前在自動駕駛部門,申請一大批物理資源,CPU和GPU的配比是本地化綁死的,結果導致預處理時CPU被跑滿,GPU空閒,不僅效率低,資源嚴重浪費。
下架民进党 蓝军先挺住
現在這些資源完全可以動態申請,既然CPU不夠用,那就多劃撥CPU用於仿真預處理,但是不用擔心GPU也被綁死,GPU的真實能力還在“大池子裡”,可以召之則來、揮之則去。
买了GPU后,我哭了18次…
而在費用覈算上,也不用像以前,計算人家抱走了幾臺GPU Server(老貴了),只需要按照實際佔用的算力資源來覈算成本,仿真效率槓槓的,成本也大幅節省。
柯骂蓝整合案「把恁爸当成肖ㄟ」 卢秀燕这样看
棺材、旅人、怪蝙蝠
原來研發中心算法部門的問題,通過OrionX也可以迎刃而解。
「去客廳化」小宅夯!他建議廢掉餐廳更好 網友意見五五波
使出「化整爲零」這一招,用池化方案再結合jupyterlab研發方案和能力,通過切分、複用、優先級等池化功能(調度、監控、回收),把資源用到極致。
奥铃速运2.45宽仓栏北京买车分期零首付
原來一個研發資源池資源縮減70%,仍然能夠滿足需求,而且,開發人員不空等,算力資源不空轉,誰都不會耽誤誰。
韩正会见德国博世集团董事会主席斯特凡·哈通
同時,OrionX對一些極端場景支持也是極好的,比如遇到多機多卡分佈式任務,基於「化零爲整」的資源聚合,以及早已做好適配的框架,研發不需要花大量時間定製框架,就能快速上手。
有時候開發者執行不同任務時候,需要不同能力的虛擬GPU,OrionX的「隨需應變」招式,可以讓這個算力自由縮擴,不需要重啓等待,就可以換“發動機”。
意甲最新积分战报 亚特兰大紧追AC米兰进前4 拉齐奥3连胜升至第7
再比如在某些場景,需要爲每個虛擬GPU配置大量顯存,此時,用「顯存擴展」的招式,調用內存資源來當顯存用,毫無違和感。
「六脈神劍」的招式再精妙,還需要“內功”加持才能施展出來,而這個內功,就是池化調度和運維管理,可以讓資源更高效的使用,也讓關鍵業務得到更好的保障。
巫文化是人类的思维基因 —— 读《四十岁的一对指甲》断想
這樣,不僅業務部門的績效提升了,老劉部門的兄弟們,運維壓力也大大減輕了。
“抢占新兴市场:跨境电商的机遇”
大家不需要爲日常資源管理、升級、擴容、調度的事情操心,OrionX可以統管全局,業務部門按需自主申請就行。
而且,OrionX除了對各種AI框架的兼容和優化,對K8S容器環境、KVM虛擬化環境也進行了高效整合,並且完美支持RDMA網絡,進行了大量性能優化,確保虛擬GPU的性能與物理GPU媲美。
老劉對本地虛擬GPU和遠程虛擬GPU的表現,相當滿意,他們還做了個測試,完全不輸於物理GPU。
而且,虛擬GPU通過組合和疊加,能提供更強更靈活的戰鬥力。
自從用了OrionX,老劉頭也不疼了,心也不塞了,做夢都會笑醒。
而且,老劉越用越有心得,基於OrionX又做了些新規劃,按照大老闆的要求,引入國產信創芯片,做算力異構,確保供應鏈安全,同時老劉看到OrionX還支持多數據中心和多雲架構。
大逆袭!这个一线城市,拿下“人口增长冠军”
於是,他有了更大膽的規劃…
以上就是老劉和GPU悲歡離合故事。
那麼這個叫做OrionX的神器,究竟是誰家造出來的呢?
「漂浮花卉城堡」超美!「2023新社花海暨台中國際花毯節」11/11登場 最大亮點吸睛美照搶先看
OrionX的締造者,叫做趨動科技,是國內軟件定義AI算力技術領導者,提供專業的GPU資源池化軟件解決方案。
滑炒鸭丝丨周末美食
OrionX是趨動科技的招牌產品,可以幫助客戶快速構建本地化的AI算力資源池,只需要一套軟件,不管本地是K8S雲原生環境還是傳統虛擬化環境,都可以軟件定義,快速池化。
经济大省“挑大梁”提信心
憑藉標準化、可複製的產品架構,趨動科技得到了包括互聯網、金融、電信運營商、科研機構和高校等大量行業頭部客戶的認可。
除了提供GPU資源池化軟件OrionX以外,趨動科技剛剛又放了一個大招。
花都区纪委监委 花都区委组织部开展领导干部作风专项监督检查公告
基於OrionX的核心能力,趨動科技推出了業內首個AI算力池化雲服務——趨動雲VirtAI Cloud
有了趨動雲,不光企業可以受益,個人開發者可以按需使用,AI算力資源立等可取,不會受制於昂貴甚至花錢也買不到的高端GPU。
據測算,對比典型的公有云GPU資源價格,採用趨動雲可以節省80%以上的成本。
色狼約正妹網友賞碧山巖百萬夜景 車內強吻亂摸性侵得逞
看吧,這巨大的省錢優勢,讓老劉都坐不住了,決定公司最新一批彈性算力的需求,全部All in 到趨動雲上去。
联合国多家机构警告:妇女儿童成为巴以冲突最大受害者