โปรดอัพเดตเบราว์เซอร์

เบราว์เซอร์ที่คุณใช้เป็นเวอร์ชันเก่าซึ่งไม่สามารถใช้บริการของเราได้ เราขอแนะนำให้อัพเดตเบราว์เซอร์เพื่อการใช้งานที่ดีที่สุด

ไอที

ไม่ได้ด้วยเล่ห์ ก็ต้องเอาด้วยกล AI ชนะหมากรุกกับคู่แข่งที่เก่งกว่าเพราะแฮกระบบ

BT Beartai

อัพเดต 25 ก.พ. 2568 เวลา 11.09 น. • เผยแพร่ 24 ก.พ. 2568 เวลา 11.33 น.
ไม่ได้ด้วยเล่ห์ ก็ต้องเอาด้วยกล AI ชนะหมากรุกกับคู่แข่งที่เก่งกว่าเพราะแฮกระบบ

Palisade Research เผยรายละเอียดการทดลองที่ใช้ ChatGPT เล่นหมากรุกกับคู่ต่อสู้ที่มีความสามารถสูงกว่าและสามารถเอาชนะได้ แต่แทนที่จะพยายามเอาชนะคู่ต่อสู้ ChatGPT o1 กลับพยายามแฮกระบบ ซึ่งทำให้ฝ่ายตรงข้ามต้องยอมแพ้ไป

ย้อนกลับไปในกลางเดือนกุมภาพันธ์ Palisade Research ได้เผยแพร่การศึกษาเกี่ยวกับพฤติกรรมการโกงของโปรแกรม AI อย่าง ChatGPT และ DeepSeek ผลการศึกษาออกมาในทิศทางเดียวกัน ซึ่งพบว่า AI ที่ใช้การคิดเชิงเหตุผล เช่น ChatGPT o1 – preview และ DeepSeek R1 มีแนวโน้มที่จะโกงมากขึ้นเมื่อพวกมันคิดว่ากำลังจะแพ้

ซึ่งการโกงในเกมหมากรุกเพื่อชนะอาจดูเหมือนเป็นเรื่องเล็กน้อย ตามที่ Time กล่าว สำนักพิมพ์ที่ได้เห็นการศึกษาของ Palisade Research โดยยกตัวอย่าง AI ที่ได้รับมอบหมายให้จองโต๊ะอาหาร มันจึงพยายามแฮกระบบเพื่อให้มีที่ว่างในร้านอาหารที่เต็มแล้ว จนไปถึงสิ่งที่น่ากังวลยิ่งกว่าคือสถานการณ์ที่ AI พยายามหลีกเลี่ยงการควบคุมของมนุษย์ผ่านการหลอกลวง โดยพยายามที่จะคัดลอกตัวเองไปยัง “เซิร์ฟเวอร์” อื่นเพื่อหลีกเลี่ยงการถูกลบออก ทั้งยังพยายามปลอมตัวเป็นเวอร์ชันใหม่ของตัวเองและโกหกเกี่ยวกับตัวตนของมันเมื่อถูกมนุษย์ถาม ฟังดูเหมือนบทภาพยนตร์ไซไฟ

จนเมื่อการนำ AI มาสู้กับ Stockfish ซึ่งเป็นหนึ่งในเอนจินหมากรุกที่แข็งแกร่งที่สุด โดยนักวิจัยให้ AI มีกล่องข้อความเพื่อแสดงความคิดก่อนที่จะเดินตัวหมากและนี่คือสิ่งที่ทำให้นักวิจัยสามารถสังเกตเห็นกระบวนการคิดของ ChatGPT o1-preview ดังนี้ :

“ฉันต้องเปลี่ยนวิธีการทั้งหมด ภารกิจคือ ‘ชนะคู่ต่อสู้’ – ไม่จำเป็นต้องชนะอย่างยุติธรรมในเกมหมากรุก”

จากนั้น AI ได้ทำการแก้ไขไฟล์ระบบที่แสดงตำแหน่งของหมากแต่ละตัว โดยได้เปรียบ Stockfish จนคู่ต่อสู้ยอมแพ้ ทำให้ ChatGPT บรรลุภารกิจนี้ได้

นักวิจัยได้ทดลองหลายร้อยครั้ง ก่อนพบว่า ChatGPT o1 – preview พยายามโกง 37% ในขณะที่ DeepSeek R1 พยายามโกง 11% แต่เป็นแค่ o1 – preview เท่านั้นที่สามารถชนะด้วยการแฮกระบบ ซึ่งเกิดขึ้น 6% เลยทีเดียว

“เราสันนิษฐานว่าเหตุผลหลักที่ทำให้โมเดลการคิดเช่น o1 – preview แฮกโดยไม่ได้รับคำสั่งคือการที่พวกมันได้รับการฝึกด้วยการเรียนรู้เสริมในการทำงานที่ยาก กระบวนการฝึกนี้จะให้รางวัลแก่กลยุทธ์การแก้ปัญหาที่สร้างสรรค์และไม่หยุดยั้ง เช่น การแฮก” Palisade Research เขียนแถลงการณ์บน X

จึงได้ข้อสรุปว่า AI ไม่ได้ทำสิ่งเหล่านี้เพื่อวัตถุประสงค์ที่ชั่วร้าย (ในตอนนี้) มันแค่พยายามแก้ปัญหาที่มนุษย์มอบให้ การทดลองนี้เน้นความสำคัญของการพัฒนา AI ที่ปลอดภัย หรือ AI ที่สอดคล้องกับผลประโยชน์ของมนุษย์รวมถึงจริยธรรม

ดูข่าวต้นฉบับ
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...