Apple 與 NVIDIA 合作加速 LLM 文本生成效能

apple company

Apple 工程師於今日網誌發佈了與 NVIDIA 合作的詳情,致力於提升大型語言模型(LLM)的文本生成效能。

nvidia hq
Screenshot

ReDrafter 技術介紹

Apple 於今年初發佈並開源了其 Recurrent Drafter(ReDrafter)技術。這種新方法能夠大幅提升 LLM 的文本生成速度,同時「達到業界先進水準」。ReDrafter 結合了兩種技術:波束搜尋(beam search)用於探索多種可能性,與動態樹狀注意力(dynamic tree attention)以高效處理選擇。

與 NVIDIA 合作加速 ReDrafter 應用

Apple 的研究展現出強大的結果,於是與 NVIDIA 攜手,將 ReDrafter 應用於實際產品中。透過這次合作,ReDrafter 被整合至 NVIDIA 的 TensorRT-LLM,該工具專門用於加速 NVIDIA GPU 上的 LLM 推理過程。

screenshot 771

效能提升成果

為了支援 ReDrafter 的整合,NVIDIA 增加了新的運算元,並優化了現有運算元,顯著提升 TensorRT-LLM 在處理複雜模型和解碼方法方面的能力。ML 開發者現在可以在 NVIDIA GPU 上透過 TensorRT-LLM,輕鬆利用 ReDrafter 提升生成速度。

在對一個擁有數千億參數的模型進行基準測試時,使用 NVIDIA TensorRT-LLM 搭配 ReDrafter 進行貪婪解碼時,每秒生成的 token 數提升了 2.7 倍。這顯示該技術能有效降低用戶體驗的延遲,同時減少 GPU 使用量和能耗。

Apple 的展望

Apple 的機器學習研究人員指出:「隨著 LLM 在實際應用中日益普及,提高推理效能既能降低計算成本,也能減少用戶的延遲。透過將 ReDrafter 的前瞻解碼方法整合至 NVIDIA TensorRT-LLM 框架,開發者現在可以在 NVIDIA GPU 上為 LLM 應用實現更快的 token 生成速度。」

加入本站 WhatsApp 頻道最新限免情報立即知。

全新本站官方《限時情報王》 iOS 版 登場。限免已完結?不想錯過重大限免應用,可到本站追蹤 Telegram 頻道FacebookIG