蘋果近日發佈了一款新的開源 AI Model,名為「MGIE」,能夠根據自然語言指令來編輯影像。MGIE 的全名為 MLLM-Guided Image Editing,它運用多模態大型語言模型(MLLMs)來解讀使用者命令,並進行像素級的操作。該 AI Model 能夠處理各種編輯方面,包括 Photoshop 風格的修改、全局照片優化以及局部編輯。
MGIE 是 Apple 與加州大學研究人員合作的成果,這 AI Model 在 2024 年的 ICLR(國際學習表示會議)上被接受發表,ICLR 是 AI 研究領域的頂尖會議之一。論文展示了 MGIE 在提升自動度量和人類評估方面的有效性,同時保持了競爭性的推理效率。
MGIE 的基礎理念是運用能夠同時處理文本和影像的強大人工智能模型——多模態大型語言模型(MLLMs),來增強基於指令的影像編輯。MLLMs 在跨模態理解和視覺感知的回應生成方面展現出了顯著的能力,但它們尚未廣泛應用於影像編輯任務上。
MGIE 以兩種方式將 MLLMs 整合進影像編輯過程中:首先,它使用 MLLMs 從用戶輸入中導出富有表達力的指令。這些指令簡潔明了,為編輯過程提供了明確的指導。例如,給定輸入「使天空更藍」,MGIE 能夠產生「將天空區域的飽和度增加 20%」的指令。
其次,它使用 MLLMs 生成視覺想像,即所需編輯的潛在表徵。這一表徵捕捉了編輯的本質,可以用來指導像素級的操作。MGIE 採用了一種新穎的端到端訓練方案,共同優化指令導出、視覺想像和影像編輯模塊。
外界指出,WWDC24 重點之一就是