โปรดอัพเดตเบราว์เซอร์

เบราว์เซอร์ที่คุณใช้เป็นเวอร์ชันเก่าซึ่งไม่สามารถใช้บริการของเราได้ เราขอแนะนำให้อัพเดตเบราว์เซอร์เพื่อการใช้งานที่ดีที่สุด

ไอที

การศึกษาใหม่สนับสนุนว่าโมเดลเอไอของ OpenAI จดจำเนื้อหาที่มีลิขสิทธิ์

BT Beartai

อัพเดต 08 เม.ย. 2568 เวลา 11.19 น. • เผยแพร่ 05 เม.ย. 2568 เวลา 18.06 น.
การศึกษาใหม่สนับสนุนว่าโมเดลเอไอของ OpenAI จดจำเนื้อหาที่มีลิขสิทธิ์

โมเดลเอไอที่ชาญฉลาดเบื้องหลังได้ผ่านการฝึกให้เรียนรู้ข้อมูลในแขนงต่าง ๆ อย่างมากมาย แต่การนำเนื้อหาของบุคคลอื่นมาฝึกเอไอโดยไม่ได้รับอนุญาต อาจโดนเจ้าของเนื้อหาฟ้องร้องเอาได้ ซึ่งบริษัท OpenAI เจ้าของแชตบอต ChatGPT เองได้ถูกนักเขียน โปรแกรมเมอร์ และสำนักข่าวฟ้องร้องด้วยข้อกล่าวหาดังกล่าวเช่นกัน ทั้งนี้บริษัทปฏิเสธว่าเป็นการใช้ลิขสิทธิ์โดยชอบและตามหลักลิขสิทธิ์ระหว่างประเทศ จึงสามารถใช้ได้โดยชอบสำหรับผู้สร้าง แต่เจ้าของลิขสิทธิ์แย้งว่ากฎหมายสหรัฐฯ ไม่ได้ยกเว้นให้นำข้อมูลมาใช้ฝึกเอไอได้ตามใจชอบนะคุณพี่

ล่าสุดนักวิจัยจากมหาวิทยาลัยวอชิงตัน, มหาวิทยาลัยโคเปนเฮเกน และมหาวิทยาลัยสแตนฟอร์ดได้ร่วมกันเขียนงานวิจัยที่นำเสนอวิธีการใหม่ในการตรวจสอบว่าข้อมูลที่ใช้ในการฝึกโมเดลเอไอให้ฉลาด เจ้าโมเดลดังกล่าวได้มีการจดจำหรือจัดเก็บข้อมูลเอาไว้ในหน่วยความจำด้วยหรือไม่ โดยสามารถเรียกข้อมูลออกมาได้อย่างถูกต้อง ซึ่งได้ยกตัวอย่างจากการตรวจสอบโมเดลของ OpenAI

โมเดลเอไอที่มีความฉลาดสามารถสร้างรูปภาพ เขียนบทความ และเขียนโคด ซึ่งไม่ได้ถูกฝึกให้คัดลอกข้อมูลจากชุดฝึกนำมาตอบเป็นผลลัพธ์แบบคำต่อคำ แต่จากการตรวจสอบพบว่าโมเดลได้มีการเลียนแบบเนื้อหาในบทความข่าว หรือคัดลอกภาพบางช่วงจากภาพยนตร์สร้างออกมาเป็นผลลัพธ์

งานวิจัยนี้ใช้คำที่เรียกว่า “High-surprisal” ซึ่งก็คือ คำที่หายาก ไม่ได้ใช้บ่อย หรือไม่สอดคล้องกับรูปแบบทั่วไปของภาษาในบริบทนั้น ๆ ตัวอย่างเช่น คำว่า “Radar” ในประโยค “Jack and I sit perfectly still with the radar humming” ซึ่งมีโอกาสน้อยมากที่มีการวางคำว่า Radar อยู่ก่อนคำว่า “Humming” เมื่อเทียบกับคำว่า “Engine” หรือ “Radio”

นักวิจัยได้ทำการทดสอบโมเดล GPT-4 และ GPT-3.5 ในการจดจำข้อความในเนื้อหา โดยการนำข้อความจากหนังสือนิยายและบทความของ The New York Times มาทำการลบคำ High-surprisal ที่ไม่ค่อยได้ใช้บ่อยหรือไม่พบในบริบททั่วไปออกไป จากนั้นก็ให้โมเดลเอไอช่วยเดาดูว่าคำที่ปิดซ่อนเอาไว้คืออะไร ซึ่งหากโมเดลเดาได้ถูกต้องก็แสดงว่าโมเดลสามารถจดจำเนื้อหาในระหว่างฝึกได้

การทดสอบครั้งนี้พบว่าโมเดล GPT-4 สามารถจดจำเนื้อหาบางส่วนในหนังสือยอดนิยม เช่น BookMIA และจดจำบางส่วนจากบทความของ The New York Times ซึ่งสรุปง่าย ๆ ว่าการทดสอบได้แสดงให้เห็นว่าข้อมูลที่มีการฟ้องร้องกันอาจถูกนำมาใช้ฝึกโมเดลเอไอ และสามารถนำวิธีนี้ไปใช้ตรวจสอบการละเมิดลิขสิทธิ์ข้อมูลในการฝึกโมเดลเอไอได้

ดูข่าวต้นฉบับ
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...