近日,高通公司宣布,推出面向數(shù)據(jù)中心的下一代AI推理優(yōu)化解決方案:基于Qualcomm AI200與AI250芯片的加速卡及機(jī)架系統(tǒng)。高通稱,依托公司在NPU技術(shù)領(lǐng)域的優(yōu)勢,這些解決方案提供機(jī)架級性能與卓越的內(nèi)存容量,能夠以出色的每美元每瓦特的高性能賦能高速生成式AI推理,為推動(dòng)各行業(yè)可擴(kuò)展、高效率、高靈活性的生成式AI部署樹立重要里程碑。
據(jù)了解,Qualcomm AI200帶來專為機(jī)架級AI推理打造的解決方案,旨在為大語言模型(LLM)與多模態(tài)模型(LMM)推理及其他AI工作負(fù)載提供低總體擁有成本與優(yōu)化性能。每張加速卡支持768GB LPDDR內(nèi)存,實(shí)現(xiàn)更高內(nèi)存容量與更低成本,為AI推理提供卓越的擴(kuò)展性與靈活性。
Qualcomm AI250解決方案將首發(fā)基于近存計(jì)算(Near-Memory Computing)的創(chuàng)新內(nèi)存架構(gòu),實(shí)現(xiàn)超過10倍的有效內(nèi)存帶寬提升并顯著降低功耗,為AI推理工作負(fù)載帶來能效與性能的跨越性提升。該架構(gòu)支持解耦式AI推理,實(shí)現(xiàn)硬件資源的高效利用,同時(shí)滿足客戶性能與成本需求。
兩款機(jī)架解決方案均支持直接液冷散熱,以提升散熱效率,支持PCIe縱向擴(kuò)展與以太網(wǎng)橫向擴(kuò)展,并具備機(jī)密計(jì)算,保障AI工作負(fù)載的安全性,整機(jī)架功耗為160千瓦。
高通公司高級副總裁兼技術(shù)規(guī)劃、邊緣解決方案和數(shù)據(jù)中心業(yè)務(wù)總經(jīng)理馬德嘉表示,憑借Qualcomm AI200與AI250,高通正在重新定義機(jī)架級AI推理的可能性。這些創(chuàng)新的AI基礎(chǔ)設(shè)施解決方案能夠讓客戶以業(yè)界先進(jìn)的總體擁有成本部署生成式AI,同時(shí)滿足現(xiàn)代數(shù)據(jù)中心對靈活性與安全性的要求?!拔覀儞碛胸S富的軟件棧與開放生態(tài)支持,能夠支持開發(fā)者和企業(yè)更加輕松地基于我們的優(yōu)化AI推理解決方案,集成、管理并擴(kuò)展完成訓(xùn)練的AI模型?;谂c主流AI框架的無縫兼容性和一鍵模型部署功能,Qualcomm AI200與AI250旨在支持無縫應(yīng)用與快速創(chuàng)新?!?/p>
此外,高通表示,超大規(guī)模級AI軟件棧,覆蓋從應(yīng)用層到系統(tǒng)軟件層的全鏈路,專為AI推理優(yōu)化。該軟件棧支持主流機(jī)器學(xué)習(xí)(ML)框架、推理引擎、生成式AI框架,以及解耦服務(wù)等LLM/LMM推理優(yōu)化技術(shù)。開發(fā)者可通過高通技術(shù)公司的高效Transformer庫(Efficient Transformers Library)與 Qualcomm? AI Inference Suite,實(shí)現(xiàn)模型無縫接入及Hugging Face模型的一鍵部署。相關(guān)軟件則可提供開箱即用的AI應(yīng)用與智能體、完善工具、庫、API接口及AI運(yùn)營化服務(wù)。
據(jù)悉,Qualcomm AI200與AI250預(yù)計(jì)將分別于2026年和2027年實(shí)現(xiàn)商用。高通表示,未來,將致力于按照年度迭代節(jié)奏,持續(xù)推進(jìn)公司數(shù)據(jù)中心產(chǎn)品技術(shù)路線圖,聚焦業(yè)界先進(jìn)的AI推理性能、能效與總體擁有成本優(yōu)勢。