Apple 工程師於今日網誌發佈了與 NVIDIA 合作的詳情,致力於提升大型語言模型(LLM)的文本生成效能。
ReDrafter 技術介紹
Apple 於今年初發佈並開源了其 Recurrent Drafter(ReDrafter)技術。這種新方法能夠大幅提升 LLM 的文本生成速度,同時「達到業界先進水準」。ReDrafter 結合了兩種技術:波束搜尋(beam search)用於探索多種可能性,與動態樹狀注意力(dynamic tree attention)以高效處理選擇。
與 NVIDIA 合作加速 ReDrafter 應用
Apple 的研究展現出強大的結果,於是與 NVIDIA 攜手,將 ReDrafter 應用於實際產品中。透過這次合作,ReDrafter 被整合至 NVIDIA 的 TensorRT-LLM,該工具專門用於加速 NVIDIA GPU 上的 LLM 推理過程。
效能提升成果
為了支援 ReDrafter 的整合,NVIDIA 增加了新的運算元,並優化了現有運算元,顯著提升 TensorRT-LLM 在處理複雜模型和解碼方法方面的能力。ML 開發者現在可以在 NVIDIA GPU 上透過 TensorRT-LLM,輕鬆利用 ReDrafter 提升生成速度。
在對一個擁有數千億參數的模型進行基準測試時,使用 NVIDIA TensorRT-LLM 搭配 ReDrafter 進行貪婪解碼時,每秒生成的 token 數提升了 2.7 倍。這顯示該技術能有效降低用戶體驗的延遲,同時減少 GPU 使用量和能耗。
Apple 的展望
Apple 的機器學習研究人員指出:「隨著 LLM 在實際應用中日益普及,提高推理效能既能降低計算成本,也能減少用戶的延遲。透過將 ReDrafter 的前瞻解碼方法整合至 NVIDIA TensorRT-LLM 框架,開發者現在可以在 NVIDIA GPU 上為 LLM 應用實現更快的 token 生成速度。」