Open AI เปิดตัว Sora เครื่องมือสร้างวิดีโอด้วย Text
Open AI เปิดตัว Sora AI Video Generator สุดล้ำ สร้างวิดีโอยาว 1 นาทีแค่พิมพ์ Text ตอกย้ำพัฒนาการด้าน Gen AI ที่ก้าวกระโดด
Open AI กระหึ่มวงการ GenAI อีกครั้ง เปิดตัว Sora AI Video Generator สุดล้ำ ช่วยสร้างภาพวิดีโอความละเอียดสูงแบบ Text-to-Video ด้วยความยาว 1 นาที ตอกย้ำพัฒนาการด้าน Gen AI ที่ก้าวกระโดด
โดยในหน้าเว็บของ Open AI ระบุการพัฒนาในโครงการ Sora ว่า "เรากำลังสอนให้ AI เข้าใจเรื่องของการเคลื่อนไหวที่เป็นธรรมชาติ โดยเป้าหมายของการพัฒนาครั้งนี้คือ ช่วยแก้ปัญหาให้กับผู้คนที่ประสบปัญหาด้านการมีปฏิสัมพันธ์บนโลกแห่งความจริง"
โดยSoraจะเป็น AI แบบ Text to Video Model ที่สามารถสร้างภาพวิดีโอความละเอียดสูงยาว 1 นาที ซึ่งสามารถใช้งานได้ง่าย ๆ เพียงแค่ระบุคำสั่ง Prompt เข้าไป (คล้ายกับการใช้ AI วาดภาพ)
Open AI ระบุว่า ตอนนี้โครงการSora อยู่ระหว่างการประเมินด้านความอันตรายและความเสี่ยงจากการใช้งานในมุมต่าง ๆ เช่น ข้อมูลที่ไม่ถูกต้อง เนื้อหาแสดงความเกลียดชัง และการมีอคติ พร้อมกับการเปิดให้ผู้ใช้กลุ่ม ศิลปิน นักออกแบบ และผู้สร้างภาพยนตร์ จำนวนหนึ่งได้ทดลองใช้ พร้อมรับฟีดแบ็กกลับพัฒนาต่อ เพื่อให้Sora มีประโยชน์กับมืออาชีพด้านครีเอทีพมากที่สุด
โดย Open AI จะมีการพัฒนาเครื่องมือที่ช่วยตรวจจับเนื้อหาที่ทำให้เข้าใจผิด หรือเป็นเนื้อหาอันตรายด้วย ตัวอย่างเช่น เมื่อผู้ใช้อยู่ในผลิตภัณฑ์ OpenAI ตัวแยกประเภทข้อความจะตรวจสอบและปฏิเสธข้อความที่ละเมิดนโยบายการใช้งาน เช่น ข้อความที่ร้องขอความรุนแรง เนื้อหาเกี่ยวกับเรื่องเพศ ภาพแสดงความเกลียดชัง ความคล้ายคลึงกันของคนดัง หรือ IP ของผู้อื่น นอกจากนี้ยังพัฒนาตัวแยกประเภทรูปภาพที่มีประสิทธิภาพซึ่งใช้ในการตรวจสอบเฟรมของวิดีโอทุกรายการที่สร้างขึ้นเพื่อช่วยให้แน่ใจว่าเป็นไปตามนโยบายการใช้งานก่อนที่จะแสดงต่อผู้ใช้
จากที่ Open AI แสดงให้ดู ตัวSora ถือว่ามีความสามารถที่น่าตื่นเต้นมาก สามารถสร้างฉากที่ซับซ้อน มีตัวละครหลายตัวได้ ฉากหลังมีรายละเอียดที่ค่อนข้างแม่นยำ โดย Open AI ระบุว่า Soraไม่ได้เข้าใจเพียง Prompt ที่ผู้ใช้สั่งเท่านั้น แต่เข้าใจไปถึงการมีอยู่ของสิ่งนั้นบนโลกแห่งความจริงด้วย
โดย Open AI ระบุอีกว่า Soraมีความเข้าใจด้านภาษาอย่างลึกซึ้ง ทำให้สามารถตีความคำสั่ง Prompt ของผู้ใช้ได้อย่างแม่นยำ และสร้างตัวละครที่น่าสนใจซึ่งแสดงอารมณ์ความรู้สึกที่มีชีวิตชีวา Soraยังสามารถสร้างภาพหลายภาพภายในวิดีโอที่สร้างขึ้นเพียงวิดีโอเดียวที่คงลักษณะตัวละครและสไตล์ภาพได้อย่างแม่นยำด้วย
อย่างไรก็ตาม จากวิดีโอตัวอย่างที่ Open AI ปล่อยมา ถือว่า Soraยังมีข้อจำกัดอยู่ โดยส่วนใหญ่จะพบเมื่อเจาะลงไปในรายละเอียด เช่น ภาพวิดีโอผู้หญิงเดินอยู่ในโตเกียวที่มีคนพลุกพล่าน แต่ป้ายร้านต่าง ๆ กลับเป็นภาษาที่อ่านไม่ออก หรือป้ายบอกทางก็จะดูไม่รู้เรื่อง มีความสับสนเรื่อง ซ้าย-ขวา จนถึงมุมกล้องที่ยังไม่เป็นธรรมชาติ หรือการที่มีวิดีโอคนกัดคุกกี้ แต่เมื่อกัดแล้วคุกกี้กลับไม่มีรอยกัด เป็นต้น
ทั้งนี้การเกิดขึ้นของ Sora ถือว่าเป็นรากฐานสำคัญต่อโมเดลภาษาที่สามารถเข้าใจและจำลองโลกแห่งความเป็นจริงได้ ซึ่งทาง Open AI เชื่อว่าสิ่งนี้จะเป็นก้าวสำคัญในการไปถึงจุดที่เรียกว่า Artificial general Intelligence (AGI) เป็นยุคที่ AI จะมีความฉลาดเทียบเท่า หรือมากกว่ามนุษย์