Meta 日前推出了一款全新的生成型 AI 模型 — CM3leon(發音像變色龍 Chameleon),具備文本轉成圖像以及圖像轉成文本的能力。Meta 表示 CM3leon 是首個經由改良的純文本語言模型配方進行訓練的多模態模型,包含大規模檢索增強的預訓練階段以及第二階段的多任務監督微調(SFT)階段。
根據 Meta 的說法,與以往的 Transformer-based 的方法相比,CM3leon 只需要五倍的計算能力和更小的訓練數據集。
在與最廣泛使用的圖像生成基準(zero-shot MS-COCO)進行比較時,CM3leon 獲得了 4.88 的 FID (Fréchet Inception Distance)得分,證實了其文本轉圖像技術超越了 Google 的文本轉圖像模型 Parti。
Meta 也指出 CM3leon 在廣泛的視覺語言任務中表現出色,例如視覺問答和長篇字幕生成。儘管只在僅含三百億文本標記的數據集上進行訓練,CM3leon 的 zero-shot 效能可與在更大數據集上訓練的更大型模型看齊。
Meta 表示:「我們的目標是創建高品質的生成模型,我們相信 CM3leon 在各種任務上的強大表現是向更高保真度圖像生成和理解邁出的一步。像 CM3leon 這樣的模型最終可以幫助提升創意,並在元宇宙中應用。我們期待探索多模態語言模型的邊界,並在未來釋放更多模型。」