NVIDIA RTX顯卡AI推理提速5倍輕松搞定大模型

20231117 來(lái)源：驅(qū)動(dòng)精靈作者：驅(qū)動(dòng)小精靈

驅(qū)動(dòng)精靈安全、高效、專(zhuān)業(yè)解決各種電腦驅(qū)動(dòng)問(wèn)題

11月16日消息，正在舉行的微軟Iginte全球技術(shù)大會(huì)上，微軟發(fā)布一系列AI相關(guān)的全新優(yōu)化模型、開(kāi)發(fā)工具資源，幫助開(kāi)發(fā)者更深入地釋放硬件性能，拓展AI場(chǎng)景。

尤是對(duì)于當(dāng)下在AI領(lǐng)域占據(jù)絕對(duì)主導(dǎo)地位的NVIDIA來(lái)說(shuō)，微軟這次送上了一份大禮包，無(wú)論是面向OpenAI Chat API的TensorRT-LLM封裝接口，還是RTX驅(qū)動(dòng)的性能改進(jìn)DirectML for Llama 2，以及其他熱門(mén)大語(yǔ)言模型(LLM)，都可以在NVIDIA硬件上獲得更好的加速和應(yīng)用。

其中，TensorRT-LLM是一款用于加速LLM推理的庫(kù)，可大大提升AI推理性能，還在不斷更以支持越來(lái)越多的語(yǔ)言模型，而且它還是開(kāi)源的。

就在10月份，NVIDIA也發(fā)布了面向Windows平臺(tái)的TensorRT-LLM，在配備RTX 30/40系列GPU顯卡的臺(tái)式機(jī)、筆記本上，只要顯存不少于8GB，就可以更輕松地完成要求嚴(yán)苛的AI工作負(fù)載。

現(xiàn)在，Tensor RT-LLM for Windows可以通過(guò)全新的封裝接口，與 OpenAI 廣受歡迎的聊天 API 兼容，因此可以在本地直接運(yùn)行各種相關(guān)應(yīng)用，而不需要連接云端，有利于在 PC 上保留私人和專(zhuān)有數(shù)據(jù)，防范隱私泄露。

只要是針對(duì)TensorRT-LLM優(yōu)化過(guò)的大語(yǔ)言模型，都可以與這一封裝接口配合使用，包括Llama 2、Mistral、NV LLM，等等。

對(duì)于開(kāi)發(fā)者來(lái)說(shuō)，無(wú)需繁瑣的代碼重寫(xiě)和移植，只需修改一兩行代碼，就可以讓AI應(yīng)用在本地快速執(zhí)行。

本月底還會(huì)有TensorRT-LLM v0.6.0版本更新，將會(huì)在RTX GPU上帶來(lái)最多達(dá)5倍的推理性能提升，并支持更多熱門(mén)的 LLM，包括全新的70億參數(shù)Mistral、80億參數(shù)Nemotron-3，讓臺(tái)式機(jī)和筆記本也能隨時(shí)、快速、準(zhǔn)確地本地運(yùn)行LLM。

根據(jù)實(shí)測(cè)數(shù)據(jù)，RTX 4060顯卡搭配TenroRT-LLM，推理性能可以跑到每秒319 tokens，相比其他后端的每秒61 tokens提速足足4.2倍。

RTX 4090則可以從每秒tokens加速到每秒829 tokens，提升幅度達(dá)2.8倍。

基于強(qiáng)大的硬件性能、豐富的開(kāi)發(fā)生態(tài)、廣闊的應(yīng)用場(chǎng)景，NVIDIA RTX正成為本地端側(cè)AI不可或缺的得力助手，而越來(lái)越豐富的優(yōu)化、模型和資源，也在加速AI功能、應(yīng)用在上億臺(tái)RTX PC上的普及。

目前已經(jīng)有400多個(gè)合作伙伴發(fā)布了支持RTX GPU加速的AI應(yīng)用、游戲，而隨著模型易用性的不斷提高，相信會(huì)有越來(lái)越多的AIGC功能出現(xiàn)在Windows PC平臺(tái)上。

內(nèi)容來(lái)自網(wǎng)絡(luò)，如有侵權(quán)，請(qǐng)聯(lián)系刪除

驅(qū)動(dòng)精靈是國(guó)內(nèi)最早最專(zhuān)業(yè)的電腦驅(qū)動(dòng)管理軟件，助你安全、高效解決電腦驅(qū)動(dòng)問(wèn)題

精精黄色网站_国产999久久免费高清_日本一区二区免费色色_天堂久久久亚洲国产一区_亚洲卡通动漫精品中文在线观看

NVIDIA RTX顯卡AI推理提速5倍 輕松搞定大模型

NVIDIA RTX顯卡AI推理提速5倍輕松搞定大模型