蘋果今日發佈了幾款設計於裝置上運行的開源大型語言模型,而不是透過雲端服務。這些模型統稱為 OpenELM,並已在 Hugging Face Hub 上提供,該平台是一個共享人工智能代碼的社區。
根據白皮書的說明,OpenELM 系列包括 8 款模型,其中 4 款利用 CoreNet 圖書館進行預訓練,另外 4 款進行了指令調校。蘋果採用的逐層縮放策略旨在提升模型的準確性和運行效率。
此次蘋果提供了完整的代碼、訓練日誌以及多個版本的模型,而不僅是最終訓練好的模型。研究團隊希望這能加快人工智能語言領域的發展並獲得「更可靠的結果」。例如,在約十億參數的限制下,OpenELM 的準確度較 OLMo 提高了 2.36%,同時所需的預訓練標記數量減半。
蘋果這一舉動打破了先前僅提供模型權重和推理代碼,以及在私有數據集上進行預訓練的常規做法。這次發佈包括了一套完整的訓練和評估語言模型的框架,其中包括訓練日誌、多個檢查點以及預訓練配置。
蘋果表示,發佈 OpenELM 模型旨在「賦予並豐富開源研究社區」,提供最先進的語言模型。開源模型的分享讓研究人員有機會探討相關風險、數據及模型偏差。開發者和公司可以原樣使用這些模型,或根據需要進行修改。
開放共享信息成為蘋果吸引頂尖工程師、科學家和專家的重要策略,因為它為通常不可能在蘋果嚴格保密政策下發表的研究論文提供了機會。
雖然蘋果尚未在其裝置中實現這類大型語言模型的運行能力,但據預測 iOS 18 將引入多項新的人工智能功能,且有傳言稱蘋果計畫為了保護隱私,在裝置上直接運行這些大型語言模型。