蘋果發佈開源 AI Model - MGIE　以文字指令編輯影像

蘋果近日發佈了一款新的開源 AI Model，名為「MGIE」，能夠根據自然語言指令來編輯影像。MGIE 的全名為 MLLM-Guided Image Editing，它運用多模態大型語言模型（MLLMs）來解讀使用者命令，並進行像素級的操作。該 AI Model 能夠處理各種編輯方面，包括 Photoshop 風格的修改、全局照片優化以及局部編輯。

MGIE 是 Apple 與加州大學研究人員合作的成果，這 AI Model 在 2024 年的 ICLR（國際學習表示會議）上被接受發表，ICLR 是 AI 研究領域的頂尖會議之一。論文展示了 MGIE 在提升自動度量和人類評估方面的有效性，同時保持了競爭性的推理效率。

MGIE 的基礎理念是運用能夠同時處理文本和影像的強大人工智能模型——多模態大型語言模型（MLLMs），來增強基於指令的影像編輯。MLLMs 在跨模態理解和視覺感知的回應生成方面展現出了顯著的能力，但它們尚未廣泛應用於影像編輯任務上。

MGIE 以兩種方式將 MLLMs 整合進影像編輯過程中：首先，它使用 MLLMs 從用戶輸入中導出富有表達力的指令。這些指令簡潔明了，為編輯過程提供了明確的指導。例如，給定輸入「使天空更藍」，MGIE 能夠產生「將天空區域的飽和度增加 20%」的指令。

其次，它使用 MLLMs 生成視覺想像，即所需編輯的潛在表徵。這一表徵捕捉了編輯的本質，可以用來指導像素級的操作。MGIE 採用了一種新穎的端到端訓練方案，共同優化指令導出、視覺想像和影像編輯模塊。

外界指出，WWDC24 重點之一就是

蘋果發佈開源 AI Model – MGIE　以文字指令編輯影像

重點文章

蘋果發佈開源 AI Model – MGIE 以文字指令編輯影像

重點文章

相關文章

蘋果發佈開源 AI Model – MGIE　以文字指令編輯影像