OpenAI 發佈 4o 影像生成技術　免費用戶也可使用

OpenAI 宣布，從今天起正式將 Sora 的影像生成功能整合進 ChatGPT，這項新功能被命名為 4o Image Generation。過去用戶必須透過獨立網站才能使用 Sora，現在則能直接在 ChatGPT 中生成高品質圖像，操作更加方便。

全新升級的圖像體驗

Sora 最初是作為一款 AI 影片生成工具發表，不過這次首波整合僅針對靜態圖像生成。這項功能將開放給所有 ChatGPT 用戶，包含 Plus、Pro、Team 以及免費用戶。根據 OpenAI 發言人表示，免費用戶的使用次數將與 DALL·E 相同，目前估計為每日三次，但這個數量未來可能會依照需求變動。

圖像正確性大突破

Sora 新版的最大亮點之一，就是解決了長久以來困擾圖像生成器的「綁定」問題。所謂綁定，指的是 AI 在生成圖像時能否正確對應屬性與物件的關係。例如輸入「藍色星星與紅色三角形」，舊型號可能會出現顏色與形狀錯配的狀況。根據 OpenAI 研究負責人 Gabriel Goh 表示，Sora 現可正確處理多達 15 至 20 個物件，遠超過現有的 5 至 8 個極限，準確性與穩定性明顯提升。

這個版本也搭載 GPT-4o 的「omnimodal」核心，意味著它是建立在可同時處理文字、圖像、音訊與影片的基礎上打造的，展現 OpenAI 對於全方位生成能力的佈局。

文字渲染品質顯著提升

另一項重大進步則是在圖像中文字渲染的精確度。許多圖像生成工具在文字處理上仍會出現拼字錯誤或亂碼，讓原本用來製作貼紙、海報、菜單的圖片變得無法使用。Goh 指出，這部分經過數月細緻調整，終於達到穩定輸出的標準，雖仍在極小字體上略有誤差，但整體已足以應用於實際場景。

這也得益於 Sora 採用的「自回歸式生成方法」，即圖像是從左到右、從上到下依序繪製，與大多數一次性生成整張圖的擴散模型相比，能提供更好的細節控制與準確性。

具備世界知識

在發佈前的示範中，團隊展示了包括牛頓三稜鏡實驗圖、連環漫畫角色一致性的表現、資訊海報等多樣應用情境，顯示這項技術不僅能畫圖，更懂圖背後的知識邏輯。

ChatGPT 多模態產品負責人 Jackie Shannon 表示，Sora 的影像生成不僅靠畫功，而是結合了整個世界的知識底蘊，使用者無需過度解釋即可產出符合預期的圖像。

生成速度略慢

雖然目前圖像生成的速度比過去稍慢，但 OpenAI 強調這是為了品質所做出的權衡。Shannon 表示：「雖然在延遲方面還有進步空間，但這些圖像的品質與世界知識涵蓋，絕對值得等待那幾秒。」

值得注意的是，Sora 目前生成的圖片不會添加視覺浮水印，但會內嵌 C2PA 標準中繼資料以標示來源，並由內部工具進行追蹤。同時，用戶將擁有圖像的完整使用權，僅需遵守平台使用政策即可自由應用。

OpenAI 發佈 4o 影像生成技術 免費用戶也可使用

重點文章