四虎国产精品永久免费地址_亚洲国产欧美国产综合久久_午夜无码视频在线观看网站_国产剧情av片醉酒女邻居_欧美成 人版在线播放

阿里云人工智能平臺PAI論文入選OSDI '24

   2024-07-12 5368
核心提示:近日,阿里云人工智能平臺PAI的論文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24錄用。論文通過對大語言模型(LLM)推理請求的動態(tài)調(diào)度,大幅提升了推理服務(wù)質(zhì)量和性價比。
 

近日,阿里云人工智能平臺PAI的論文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24錄用。論文通過對大語言模型(LLM)推理請求的動態(tài)調(diào)度,大幅提升了推理服務(wù)質(zhì)量和性價比。

Llumnix是業(yè)界首個能靈活在不同模型實(shí)例間重新分配請求的框架;并且,實(shí)驗(yàn)表明,與最先進(jìn)的LLM服務(wù)系統(tǒng)相比,Llumnix請求尾延遲時間劇減超過10倍,將高優(yōu)先級請求的速度提高了1.5倍,并在實(shí)現(xiàn)類似尾部延遲的同時,成本降低為原先的64%。

 

 

OSDI是操作系統(tǒng)及分布式系統(tǒng)領(lǐng)域的旗艦級會議,OSDI與其姊妹會議SOSP長期以來對系統(tǒng)領(lǐng)域發(fā)展起著深刻的推動作用,在學(xué)術(shù)和工業(yè)界均有巨大影響力。OSDI/SOSP上曾誕生了許多影響深遠(yuǎn)的論文和系統(tǒng),如GFS、MapReduce、BigTable等經(jīng)典的分布式系統(tǒng),以及如TensorFlow、TVM、vLLM等在人工智能領(lǐng)域產(chǎn)生深遠(yuǎn)影響的系統(tǒng)。

此次入選意味著阿里云人工智能平臺PAI在大模型推理領(lǐng)域持續(xù)引領(lǐng)業(yè)界方向,獲得了國際學(xué)者的認(rèn)可,展現(xiàn)了中國機(jī)器學(xué)習(xí)系統(tǒng)技術(shù)創(chuàng)新在國際上的競爭力。

自ChatGPT這一顛覆性產(chǎn)品問世以來,生成式大語言模型(LLM)技術(shù)迎來了堪稱日新月異的發(fā)展,短短一到兩年時間我們已經(jīng)見證了一系列大模型及產(chǎn)品的誕生和應(yīng)用。LLM推理服務(wù)也因此成為LLM不斷產(chǎn)品化進(jìn)程中的關(guān)鍵技術(shù)支撐。然而LLM推理的請求及其執(zhí)行呈現(xiàn)高度的差異性、動態(tài)性和不可預(yù)測性,這些特性給現(xiàn)今的推理服務(wù)系統(tǒng)帶來了一系列挑戰(zhàn),大大限制了LLM推理服務(wù)的效率。

Llumnix是阿里云PAI團(tuán)隊(duì)研發(fā)的LLM推理動態(tài)調(diào)度框架,旨在利用調(diào)度的動態(tài)性來化解由請求的動態(tài)性帶來的種種挑戰(zhàn)。Llumnix是一個支持在多個模型實(shí)例之間對請求進(jìn)行運(yùn)行時重調(diào)度的框架,這一重調(diào)度能力使得Llumnix可以根據(jù)請求狀態(tài)的動態(tài)變化對調(diào)度決策進(jìn)行適應(yīng)性調(diào)整,并以此實(shí)現(xiàn)了如負(fù)載均衡、碎片整理、請求優(yōu)先級等一系列調(diào)度特性和優(yōu)化(如下圖)。通過在LLaMA系列模型上的實(shí)驗(yàn),初步展示了動態(tài)調(diào)度的潛力,如大幅降低延遲,加速高優(yōu)先級請求,以及降低服務(wù)成本等。

 

 

阿里云人工智能平臺PAI團(tuán)隊(duì)對Llumnix進(jìn)行了產(chǎn)品化研發(fā),并已開源(Github地址:https://github.com/AlibabaPAI/llumnix)。當(dāng)前版本的Llumnix支持vLLM為后端推理引擎,可自動化拉起多實(shí)例vLLM服務(wù),并在多實(shí)例之間進(jìn)行請求調(diào)度及重調(diào)度。Llumnix保持了與vLLM非常相似的用戶接口,從而以盡可能平滑和透明的方式加持在已部署的vLLM服務(wù)之上。目前,開源版本的Llumnix處于alpha狀態(tài),仍在積極研發(fā)和迭代中。歡迎您的試用和反饋!后續(xù)Llumnix將與阿里云人工智能平臺PAI自研的BladeLLM推理引擎、PAI-EAS模型在線服務(wù)等產(chǎn)品深度結(jié)合,形成一體化的高性能LLM推理套件,并集成進(jìn)入PAI靈駿智算服務(wù)產(chǎn)品,助力企業(yè)和個人開發(fā)者完成云上大語言模型服務(wù)的創(chuàng)新。

論文信息

論文標(biāo)題:Llumnix: Dynamic Scheduling for Large Language Model Serving

作者:孫彪,黃梓銘,趙漢宇,肖文聰,張欣怡,李永,,林偉

論文地址:https://www.usenix.org/conference/osdi24/presentation/sun-biao

 
分享到: 0
收藏 0
 
更多>同類資訊
免責(zé)申明
推薦資訊
點(diǎn)擊排行
最新資訊更多>
最新供應(yīng)更多>
網(wǎng)站首頁  |  聯(lián)系方式  |  關(guān)于我們  |  問題解析  |  版權(quán)隱私  |  使用協(xié)議  |  網(wǎng)站地圖  |  排名推廣  |  廣告服務(wù)  |  積分換禮  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  粵ICP備1207862號

中國智能化網(wǎng)(zgznh®)--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展 共享智能化+優(yōu)質(zhì)平臺

版權(quán)所有:深圳市智控網(wǎng)絡(luò)有限公司 學(xué)術(shù)指導(dǎo):深圳市智能化學(xué)會

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號