Apple 與 NVIDIA 合作加速 LLM 文本生成效能

Apple 工程師於今日網誌發佈了與 NVIDIA 合作的詳情，致力於提升大型語言模型（LLM）的文本生成效能。

ReDrafter 技術介紹

Apple 於今年初發佈並開源了其 Recurrent Drafter（ReDrafter）技術。這種新方法能夠大幅提升 LLM 的文本生成速度，同時「達到業界先進水準」。ReDrafter 結合了兩種技術：波束搜尋（beam search）用於探索多種可能性，與動態樹狀注意力（dynamic tree attention）以高效處理選擇。

與 NVIDIA 合作加速 ReDrafter 應用

Apple 的研究展現出強大的結果，於是與 NVIDIA 攜手，將 ReDrafter 應用於實際產品中。透過這次合作，ReDrafter 被整合至 NVIDIA 的 TensorRT-LLM，該工具專門用於加速 NVIDIA GPU 上的 LLM 推理過程。

效能提升成果

為了支援 ReDrafter 的整合，NVIDIA 增加了新的運算元，並優化了現有運算元，顯著提升 TensorRT-LLM 在處理複雜模型和解碼方法方面的能力。ML 開發者現在可以在 NVIDIA GPU 上透過 TensorRT-LLM，輕鬆利用 ReDrafter 提升生成速度。

在對一個擁有數千億參數的模型進行基準測試時，使用 NVIDIA TensorRT-LLM 搭配 ReDrafter 進行貪婪解碼時，每秒生成的 token 數提升了 2.7 倍。這顯示該技術能有效降低用戶體驗的延遲，同時減少 GPU 使用量和能耗。

Apple 的展望

Apple 的機器學習研究人員指出：「隨著 LLM 在實際應用中日益普及，提高推理效能既能降低計算成本，也能減少用戶的延遲。透過將 ReDrafter 的前瞻解碼方法整合至 NVIDIA TensorRT-LLM 框架，開發者現在可以在 NVIDIA GPU 上為 LLM 應用實現更快的 token 生成速度。」

Apple 與 NVIDIA 合作加速 LLM 文本生成效能

重點文章

ReDrafter 技術介紹

與 NVIDIA 合作加速 ReDrafter 應用

效能提升成果

Apple 的展望

相關文章