TAIPEI ASSOCIATION OF ADVERTISING AGENCIES台北市廣告代理商業同業公會

【你敢說 AI 都能畫】OpenAI 新模型把文字變成超現實畫作,連「酪梨躺椅」都生出來!

2021-01-13

文/何泰霖

一聽到 OpenAI 或許你會先想到它的創始人 Tesla 的 CEO 馬斯克,他在 2015 年於舊金山成立此一非營利的 AI 研究組織,希望以安全的方式開發 AI 技術,並向公眾開放專利與研究結果。

然而在近幾年讓 OpenAI 頗負盛名的是該團隊透過不斷更新的 AI 技術,創下許多驚人紀錄,像是 2018 年 組成 OpenAI Five 戰隊在 Dota 年度國際賽事血虐職業選手、2019 年  OpenAI 開發自動寫作模型 GPT-2 用 5 秒就能生成一篇虛構文章,2020 年 英國《衛報》甚至刊登了一篇由 GPT-3 機器人生成,標題為「人類你害怕了嗎?」的文章。

從上述的「豐功偉業」中可以發現,OpenAI 在文字領域已經相當成熟,但是 OpenAI 的首席科學家 Ilya Sutskever 也表示「人類是生活在視覺化的世界中」,因此近幾年團隊也加強其在「圖像領域」的開發,同時希望能讓 AI 效仿人類學習語言的方式,藉由圖像強化對於字詞語意的理解力,讓未來生成的語句更有意義。

根據 Tech CrunchMIT Technology Review 報導, OpenAI 近期將「圖像」和「語言」概念結合,建立了兩個新模型,稱為 CLIP 和 DALL-E 。

新版 AI 圖像辨認模型,不再只能辨識人臉、建築物等單一物件

CLIP (Contrastive Language-Image Pre-training),主要和先前訓練 GPT-3 辨認圖像的功能相似,它們不是藉由固定資料庫中的單一標籤進行訓練,而是透過網路上眾多的圖像與該圖像一連串的文字註解去培訓。

團隊會透過丟出 32,768 個文字敘述讓 CLIP 挑選哪一個是與特定圖像相符的,而要達到此一目標「聯想」將是訓練關鍵,透過判讀不限單一物種的圖像與其文字敘述,讓 CLIP 能跳脫過往從監視影像中找「人臉」或衛星圖像中找「建築物」等單一任務。

AI 新模型 DALL-E 把文字敘述直接變成超現實畫作!

DALL-E 則不僅做到辨識,它更讓 AI「畫」圖形!不過 DALL-E 不僅是畫出單一物品,你可以提供它一串多個看似毫不相關的形容詞進行物品描述,像是「穿著澎澎裙遛狗的白蘿蔔」,DALL-E 就會進行一連串的聯想思考,畫出許多相似的圖片。

DALL-E 生成「穿著澎澎裙遛狗的白蘿蔔」,圖片來源:OpenAI

「對於 AI 開發而言,用文字生成圖像其實是一件難以突破的創舉!」一位喬治亞理工學院從事多年 NLP 研究的 Mark Riedl 表示。OpenAI 團隊也在部落格分享,儘管目前 DALL-E 偶爾會出錯,但它們不是用人工挑選,而是讓 CLIP 模型從上百幅圖像中,去排名出 32 則最符合文字敘述的圖像。

現在就來看一些 DALL-E 的「驚世巨作」,例如文章首圖的「酪梨形狀的扶手椅」、「戴太陽眼鏡的貓貓」,都是由兩個看似不相關的物品組成, AI 竟然能如此完美結合,還給出不同排列組合!

DALL-E 生成「戴太陽眼鏡的貓貓」,圖片來源:OpenAI

但偶爾出錯的案例就像另一個「用豎琴做成的蝸牛」的敘述,不像酪梨座椅百分百合成出合理的影像,或許可以推測酪梨的剖面和扶手椅的外觀相當類似,因此讓 DALL-E 能更容易「聯想」生出相關圖像。

DALL-E 生成「用豎琴做成的蝸牛」,圖片來源:OpenAI

同時,如果你對 DALL-E 所生成的圖像不滿意,在圖像生成後,你還能微調文字敘述中的字詞,如從「正方形」變成「三角形」以生成不同類型的圖像!

圖片來源:Tech Crunch

儘管對於 DALL-E 能如此快速的從毫不關聯的字詞生成圖片,Riedl 感到非常驚訝,但回頭想 DALL-E 是根基於 GPT-3 技術而發展,而 GPT-3 就以其擅於「記憶」聞名,因此像是「穿著澎澎裙散步的白蘿蔔」這些圖像,可能也是參考網路上的藝術品圖片。不過,這項「語言轉換圖像」的技術在未來發展仍相當令人期待!

參考資料:Tech CrunchMIT Technology Review

(以上資料擷取科技報橘)
【本訊息文字圖片未經原提供單位許可,不得任意轉載及連結,如有需求,請洽原資料提供單位。】