近日,阿里云人工智能平臺PAI的論文《Llumnix: Dynamic Scheduling for Large Language Model Serving》被OSDI '24錄用。論文通過對大語言模型(LLM)推理請求的動態(tài)調(diào)度,大幅提升了推理服務(wù)質(zhì)量和性價比。 Llumnix是業(yè)界首個能靈活在不同模型實(shí)例間重新分配請求的框架;并且,實(shí)驗(yàn)表明,與最先進(jìn)的LLM服務(wù)系統(tǒng)相比,Llumnix請求尾延遲時間劇減超過10倍,將高優(yōu)先級請求的速度提高了1.5倍,并在實(shí)現(xiàn)類似尾部延遲的同時,成本降低為原先的64%。
OSDI是操作系統(tǒng)及分布式系統(tǒng)領(lǐng)域的旗艦級會議,OSDI與其姊妹會議SOSP長期以來對系統(tǒng)領(lǐng)域發(fā)展起著深刻的推動作用,在學(xué)術(shù)和工業(yè)界均有巨大影響力。OSDI/SOSP上曾誕生了許多影響深遠(yuǎn)的論文和系統(tǒng),如GFS、MapReduce、BigTable等經(jīng)典的分布式系統(tǒng),以及如TensorFlow、TVM、vLLM等在人工智能領(lǐng)域產(chǎn)生深遠(yuǎn)影響的系統(tǒng)。 此次入選意味著阿里云人工智能平臺PAI在大模型推理領(lǐng)域持續(xù)引領(lǐng)業(yè)界方向,獲得了國際學(xué)者的認(rèn)可,展現(xiàn)了中國機(jī)器學(xué)習(xí)系統(tǒng)技術(shù)創(chuàng)新在國際上的競爭力。 自ChatGPT這一顛覆性產(chǎn)品問世以來,生成式大語言模型(LLM)技術(shù)迎來了堪稱日新月異的發(fā)展,短短一到兩年時間我們已經(jīng)見證了一系列大模型及產(chǎn)品的誕生和應(yīng)用。LLM推理服務(wù)也因此成為LLM不斷產(chǎn)品化進(jìn)程中的關(guān)鍵技術(shù)支撐。然而LLM推理的請求及其執(zhí)行呈現(xiàn)高度的差異性、動態(tài)性和不可預(yù)測性,這些特性給現(xiàn)今的推理服務(wù)系統(tǒng)帶來了一系列挑戰(zhàn),大大限制了LLM推理服務(wù)的效率。 Llumnix是阿里云PAI團(tuán)隊(duì)研發(fā)的LLM推理動態(tài)調(diào)度框架,旨在利用調(diào)度的動態(tài)性來化解由請求的動態(tài)性帶來的種種挑戰(zhàn)。Llumnix是一個支持在多個模型實(shí)例之間對請求進(jìn)行運(yùn)行時重調(diào)度的框架,這一重調(diào)度能力使得Llumnix可以根據(jù)請求狀態(tài)的動態(tài)變化對調(diào)度決策進(jìn)行適應(yīng)性調(diào)整,并以此實(shí)現(xiàn)了如負(fù)載均衡、碎片整理、請求優(yōu)先級等一系列調(diào)度特性和優(yōu)化(如下圖)。通過在LLaMA系列模型上的實(shí)驗(yàn),初步展示了動態(tài)調(diào)度的潛力,如大幅降低延遲,加速高優(yōu)先級請求,以及降低服務(wù)成本等。
阿里云人工智能平臺PAI團(tuán)隊(duì)對Llumnix進(jìn)行了產(chǎn)品化研發(fā),并已開源(Github地址:https://github.com/AlibabaPAI/llumnix)。當(dāng)前版本的Llumnix支持vLLM為后端推理引擎,可自動化拉起多實(shí)例vLLM服務(wù),并在多實(shí)例之間進(jìn)行請求調(diào)度及重調(diào)度。Llumnix保持了與vLLM非常相似的用戶接口,從而以盡可能平滑和透明的方式加持在已部署的vLLM服務(wù)之上。目前,開源版本的Llumnix處于alpha狀態(tài),仍在積極研發(fā)和迭代中。歡迎您的試用和反饋!后續(xù)Llumnix將與阿里云人工智能平臺PAI自研的BladeLLM推理引擎、PAI-EAS模型在線服務(wù)等產(chǎn)品深度結(jié)合,形成一體化的高性能LLM推理套件,并集成進(jìn)入PAI靈駿智算服務(wù)產(chǎn)品,助力企業(yè)和個人開發(fā)者完成云上大語言模型服務(wù)的創(chuàng)新。 論文信息 論文標(biāo)題:Llumnix: Dynamic Scheduling for Large Language Model Serving 作者:孫彪,黃梓銘,趙漢宇,肖文聰,張欣怡,李永,,林偉 論文地址:https://www.usenix.org/conference/osdi24/presentation/sun-biao |