โปรดอัพเดตเบราว์เซอร์

เบราว์เซอร์ที่คุณใช้เป็นเวอร์ชันเก่าซึ่งไม่สามารถใช้บริการของเราได้ เราขอแนะนำให้อัพเดตเบราว์เซอร์เพื่อการใช้งานที่ดีที่สุด

ไอที

OpenAI เปิดตัวฟีเจอร์สร้างรูปภาพแบบเนทีฟใน ChatGPT ได้โดยตรงด้วย GPT-4o

BT Beartai

อัพเดต 27 มี.ค. 2568 เวลา 11.23 น. • เผยแพร่ 26 มี.ค. 2568 เวลา 16.10 น.
OpenAI เปิดตัวฟีเจอร์สร้างรูปภาพแบบเนทีฟใน ChatGPT ได้โดยตรงด้วย GPT-4o

OpenAI ได้เปิดตัวฟีเจอร์สร้างรูปภาพแบบเนทีฟที่มีความถูกต้องมากขึ้นอยู่ใน ChatGPT ที่ขับเคลื่อนโดยโมเดล GPT-4o ได้โดยตรง ซึ่งไม่ต้องประสานการทำงานดึงความสามารถจากโมเดล DALL-E 3 ที่สร้างรูปภาพโดยเฉพาะเข้ามาช่วยเหลือเหมือนเมื่อก่อน ซึ่งพร้อมสำหรับสมาชิกระดับ ChatGPT Plus, Pro, Team และผู้ใช้งานแบบฟรีที่จำกัดจำนวน 3 รูปต่อวันเช่นเดียวกับตอนใช้ DALL-E รวมทั้งฟีเจอร์นี้จะมีอยู่ใน Sora เครื่องมือสร้างวิดีโออีกด้วย

OpenAI เปิดตัวแชตบอตเอไอ ChatGPT โดยใช้โมเดล GPT 3.5 เมื่อ 30 พฤศจิกายน 2022 ที่สามารถตอบคำถามได้หลากหลาย เขียนโคดโปรแกรม เขียนบทความสร้างเนื้อหา และแก้โจทย์คณิตศาสตร์ แต่ถ้าผู้ใช้ต้องการสร้างรูปภาพจะต้องใช้ DALL-E โมเดลสร้างรูปภาพที่แยกออกมาต่างหาก ซึ่งเปิดตัวมาตั้งแต่ 5 มกราคม 2021 ซึ่งใช้งานไม่ค่อยสะดวก เพราะต้องใช้งานข้ามหน้าจอไปมา ดังนั้นต่อมา OpenAI จึงได้เชื่อมการทำงานให้ผู้ใช้ ChatGPT สามารถพิมพ์ข้อความสั่งงานไปยัง DALL-E 3 แล้วส่งผลลัพธ์กลับมาได้

DALL-E 3 เป็นโมเดลสร้างรูปภาพที่ใช้เทคนิคแบบ Diffusion model ซึ่งเริ่มจากสร้างรูปภาพด้วยการสุ่ม Noise แล้วค่อย ๆ ทำให้ภาพชัดขึ้นตามข้อความบริบท ภาพมีความละเอียดสูง ปรับแต่งภาพเฉพาะจุดได้ดี แต่เมื่อเจอคำสั่งที่ซับซ้อน (บอกให้ใส่วัตถุหลายชิ้น) จะสร้างภาพออกมาผิดเพี้ยน และการสร้างข้อความประกอบในรูปภาพมักมีความผิดพลาด

ต่อมา OpenAI ได้เทรนโมเดล GPT-4o ให้สร้างรูปภาพในแบบ Native ซึ่งใช้เทคนิค Autoregressive สร้างภาพจากซ้ายไปขวาและจากบนลงล่าง อีกทั้งเป็นโมเดลที่สามารถประมวลผลข้อความและภาพได้พร้อมกัน จึงสร้างรูปภาพที่มีข้อความถูกต้องมากขึ้น และรองรับคำสั่งที่ซับซ้อนได้ เช่น การใส่วัตถุหลายชิ้นในภาพ

การสร้างข้อความในรูปภาพได้อย่างถูกต้อง
การสร้างรูปภาพที่มีวัตถุหลายชิ้นและสั่งให้มีการจัดวางอย่างเป็นระเบียบ

OpenAI เผยว่าการสร้างรูปภาพของ GPT-4o ได้รับการเทรนโดยใช้ข้อมูลที่เปิดเผยต่อสาธารณะ และแหล่งภาพที่ได้รับลิขสิทธิ์อย่างถูกต้องผ่านพันธมิตร อย่างเช่น Shutterstock นอกจากนี้บริษัทมีนโยบายป้องกันการสร้างรูปภาพเลียนแบบผลงานของศิลปินโดยไม่ได้รับอนุญาต และไม่ให้บอตเข้าไปเก็บรูปภาพในเว็บไซต์ที่ไม่อนุญาต รวมทั้งป้องกันการลบลายน้ำ สร้างภาพลามกอนาจาร ภาพบิดเบือน และมีการใส่เมตาดาตา C2PA เพื่อบ่งบอกว่าเป็นภาพที่สร้างโดยเอไอ

ฟีเจอร์การสร้างรูปภาพแบบ Native ใน ChatGPT ที่ขับเคลื่อนด้วย GPT-4o เปิดตัวหลังจากที่ Google ได้ทดลองการสร้างรูปภาพแบบ Native บน Gemini 2.0 Flash ซึ่งสามารถประมวลผลข้อความ ถามตอบและสร้างรูปภาพได้จบในโมเดลเดียว อีกทั้งสามารถสร้างรูปภาพได้อย่างถูกต้องและสมจริง แต่มีรายงานว่าพบบางคนนำไปใช้ลบลายน้ำบนภาพที่มีลิขสิทธิ์ และสร้างรูปภาพที่มีตัวละครลิขสิทธิ์

ดูข่าวต้นฉบับ
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...