Meta 火力展示 CM3Leon 生成式 AI 技術，不僅圖文間可以互轉還有更高應用彈性與高效率

也許是因為在近來生成式 AI 突然爆紅的浪潮裡，Meta 比較算是偏向於落後的梯隊。所以在相關技術方面，他們會比較偏向於希望能出奇制勝的路數。最近他們所發表，讀音與英文變色龍類似，以 CM3 因果遮罩混合模態模型為基礎所打造支援圖文互轉的「CM3Leon」AI 技術，就是一個例子。繼續閱讀 Meta 火力展示 CM3Leon 生成式 AI 技術，不僅圖文間可以互轉還有更高應用彈性與高效率報導內文。

▲本篇圖片來源：Meta

與現有的 Stable Diffusion、DALL-E、Midjourney 所使用的 diffusion 模型技術不同，Meta 強調他們採用的是以 token 為基礎的自回歸模型技術。強調訓練時的高效率與低成本，運算量僅需現有普遍採納的技術的 1/5，甚至在訓練集僅用了 30 億文本 token 的前提下，在包括在零樣本性能的測試中，不僅可以達到與 OpenFlamingo 同級表現，甚至在特定的測定中還有超越 Flamingo 的表現（做為參考，OpenFlamingo 使用了 400 億個 Token；Flamingo 則是高達 1,000 億個 Token）。

就官方的說明，以文本為基礎的 CM3Leon，與主流技術不同架構選擇採用的是 decoder-only transformer，藉由更高效率達到現階段生成式 AI 十分接近的表現。其特點不僅是可以兼顧圖文雙向轉換 - 還包括幫圖像加上細節，或者是產生出超高細節的圖片。更能提供詳盡的圖說功能，讓使用者可以直接詢問圖片中的各種細節 - 其實這個 OpenAI GPT-4 就有與視障應用提供類似功能，但最近倒是遇到人臉辨識的隱私問題…

CM3Leon 不僅還可支援分析切割出圖片的區塊（類似於去背）的功能。還能進一步提供圖像中的架構分析，甚至還透過描述產生出精確位置或尺寸的空間圖片構成 - 這對於建築設計方面的生成式應用應該很有幫助？

相對於其他競爭對手直接硬拼 diffusion 技術的火力，較偏向於找尋不同圖片生成技術解決方案的 Meta，他們的 CM3Leon 不僅功能彈性極高，又透過相對簡單暴力的方式來處理生成式 AI 的任務。他們認為，人工智慧在這塊領域的理解以及面對的挑戰仍處於相當早期的階段，因此 Meta 希望能以更透明的方式來促成行業中的進一步合作。

是的，Meta AI 也在網站上釋出了詳細的研究論文 - 這也是相當出其不意的路數啊。

就目前看來，Meta 對於生成式 AI 的發展雖然跟科技狂人 Elon Musk 都處於苦苦後追的撞太，不過兩邊展現出來的態度可以說是大大不同 - Meta 最近的 CM3Leon 與 Llama 2 就不特別提了，算是走向開源與透明並提出不同的方向來切入這塊應用，而且還非常有誠意（至少看起來是）；至於那個 Elon Musk…（看更多：叫 OpenAI 暫停開發六個月的馬斯克，自己卻創立了新的 AI 公司 X.AI）

延伸閱讀：

Sony A6700「勇敢的」不附充電線／器了，會成為未來 Sony 相機的標準嗎？

請更新您的瀏覽器

科技

Meta 火力展示 CM3Leon 生成式 AI 技術，不僅圖文間可以互轉還有更高應用彈性與高效率

電腦王阿達

Meta 火力展示 CM3Leon 生成式 AI 技術，不僅圖文間可以互轉還有更高應用彈性與高效率

延伸閱讀：

留言 0