ถอดรหัส ThaiLLM ไม่ใช่ทางเลือกแต่คือหลักประกัน
ปี 2569 สถาบันข้อมูลขนาดใหญ่ (BDI) เตรียมเปิดตัวโมเดลพื้นฐานปัญญาประดิษฐ์ภาษาไทย หรือ ThaiLLM ให้คนทั่วไปเข้าถึง และโหลดมาใช้งานได้ภายในเดือนมกราคมนี้ และจะมีการต่อยอดใช้เป็น “แชตบอต” และใช้ในงานเฉพาะทาง เช่น ด้านการแพทย์ ภายในไตรมาส 2 ของปีอีกด้วย
ไทม์ไลน์ที่ BDI วางไว้เกิดขึ้น ท่ามกลางการแข่งขันอย่างดุเดือดในสมรภูมิปัญญาประดิษฐ์ (เอไอ) แบบโมเดลภาษาของบรรดา “บิ๊กเทค” ระดับโลกที่เก่งขึ้น เร็วขึ้น และถูกลง ไม่ว่าจะเป็น Google OpenAI หรือฝั่งจีนอย่าง Baidu และ Deepseek
การต่อยอดด้วยโมเดลภาษาอังกฤษ สะดวกกว่า เร็วกว่า ถูกกว่า ก็จริง แต่มีปัญหาตามมาก็คือ โมเดลเอไอเหล่านั้นใช้พื้นฐานภาษาอังกฤษเป็นหลัก ทำให้การนำ “ยูสเคส” จริงมาใช้ต่อยอดต้องวางอยู่บนข้อมูลภาษาอังกฤษเป็นหลัก
ขณะที่ในบ้านเรา ทั้งเอกสารราชการ และการสื่อสารใช้ภาษาไทยเป็นหลัก ทั้งยังมีบริบททางวัฒนธรรมแบบไทยที่ไม่สามารถใช้โมเดลภาษาอังกฤษตีความหรือแปลความกลับมาทดแทนได้
ตลอดปีครึ่งที่ผานมา BDI ได้เริ่มต้นพัฒนาโมเดลเอไอภาษาไทย
ThaiLLM ไม่ใช่ทางเลือก
“ธีรณี อจลากุล” ผู้อำนวยการสถาบันข้อมูลขนาดใหญ่ หรือ BDI อธิบายกับ “ประชาชาติธุรกิจ” ถึงการสร้างโมเดลภาษาขนาดใหญ่ขึ้นมาใช้เองว่า การเป็นเจ้าของโมเดลพื้นฐานไม่ใช่ทางเลือก แต่เป็นหลักประกันความมั่นคงทางเทคโนโลยีแห่งชาติ (Technological Security) ที่จะปกป้องขีดความสามารถในการแข่งขันของประเทศในทุกสถานการณ์ ถือเป็นภารกิจที่ “ต่อให้สู้ไม่ได้ก็ต้องทำ” เพื่อรักษาอนาคตทางเทคโนโลยีไว้ในมือของเราเอง
โครงการ ThaiLLM เป็นโครงสร้างพื้นฐานปัญญาประดิษฐ์ภาษาไทยแบบ Open Source/Open License ที่เป็นการทุ่มสรรพกำลังของภาครัฐ, ภาคเอกชน และภาคส่วนต่าง ๆ เพื่อพัฒนาโมเดลพื้นฐาน (Foundation) ให้เป็นโครงสร้างหลักของประเทศ มีความโดดเด่นจากการรวบรวมข้อมูลเอกสารจากหอจดหมายเหตุ และอื่น ๆ ที่เป็นภาษาไทยจำนวนมหาศาล ทำให้เข้าใจบริบทเฉพาะของไทยอย่างลึกซึ้ง
ตัวอย่าง เช่น หากถามโมเดลเอไอเกี่ยวกับ “ปราสาททราย” ถ้าเป็นโมเดลต่างชาติอาจตีความผิดพลาดว่าเป็นปราสาททรายบนชายหาด จึงให้ข้อมูลการท่องเที่ยวที่ไม่เกี่ยวข้อง ในขณะที่โมเดลที่ฝึกฝนด้วยข้อมูลวัฒนธรรมไทยจะเข้าใจได้อย่างถูกต้องว่าเป็นประเพณีการก่อเจดีย์ทรายในวันสงกรานต์ และให้คำตอบที่ถูกต้องสมบูรณ์ในเชิงวัฒนธรรม
“แม้โมเดลต่างชาติจะสื่อสารภาษาไทยได้ดี แต่ข้อมูลภาษาไทยบนอินเทอร์เน็ตที่โมเดลต่างชาตินำมาเทรนเอไอ มีสัดส่วนเพียง 0.4% ของข้อมูลทั้งหมด ทำให้โมเดลเหล่านั้นฝึกฝนด้วยข้อมูลภาษาอังกฤษเป็นหลัก จึงตอบคำถามด้วยบริบทหรือแนวคิดแบบตะวันตก”
5 ภาคีความร่วมมือ
แต่ส่วนที่สำคัญที่สุด คือ การวางรากฐาน “โครงสร้างพื้นฐานดิจิทัล” (Digital Infrastructure) ที่ไม่มีใครกล้าทำ เพราะลงทุนสูง เหมือนตอนวางโครงข่ายอินเทอร์เน็ต ที่การลากสายไปหน้าบ้านลงทุนสูงจึงไม่มีใครทำ
“ThaiLLM เหมือนการที่ภาครัฐลากสายไฟเบอร์ออปติกไว้ให้ เพื่อให้เอกชนเข้ามาใช้ประโยชน์และสร้างบริการใหม่ ๆ ได้ง่ายขึ้น ออกแบบมาให้เป็น Foundation Model หรือโมเดลพื้นฐานของประเทศ เพื่อให้ภาคเอกชน Startup และ SMEs นำไปต่อยอดได้ทันทีโดยไม่ต้องลงทุนสร้างใหม่ทั้งหมด ช่วยลดภาระต้นทุนมหาศาล”
โครงการนี้ไม่ใช่ผลงานของหน่วยงานใดหน่วยงานหนึ่ง แต่เกิดจากความร่วมมือของ 5 ภาคีหลัก ได้แก่ BDI, NECTEC, สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT), สมาคมผู้ประกอบการปัญญาประดิษฐ์ไทย (AIEAT) และมหาวิทยาลัยต่าง ๆ ทำให้เกิดการแบ่งปันทรัพยากรทั้งด้านกำลังคน ข้อมูล และการทดสอบระบบ เพื่อสร้างมาตรฐานกลาง (Standard Dataset) ที่ทุกคนสามารถเข้าถึงและใช้ประโยชน์ร่วมกันได้
“ตอนนี้ยังมีโมเดลภาษาไทยที่แบงก์ยักษ์ในไทยสร้างขึ้นเองจากข้อมูลของพวกเขา เช่น ไต้ฝุ่น ของ SCB และทะเล ของ KBank ที่เริ่มเจรจาในระดับวิศวกรกับเราเพื่อเข้ามาร่วมพัฒนา และทำการปรับแต่งร่วมกัน เพื่อให้เป็นโครงสร้างที่พร้อมรองรับอนาคต”
“ธีรณี” เปรียบเทียบให้เห็นภาพว่า ThaiLLM เปรียบเสมือนการที่ประเทศไทยสร้าง โรงครัวส่วนกลาง ที่มีเครื่องปรุง และสูตรอาหารตามรสชาติที่คนไทยชอบไว้ให้ แทนที่จะต้องไปเช่าครัวจากต่างชาติที่มีรสชาติไม่คุ้นเคย และอาจปิดเมื่อไหร่ก็ได้ เมื่อมีโรงครัวนี้แล้ว พ่อครัวชาวไทย หรือ Startup/SMEs ต่าง ๆ เข้ามาปรุงอาหารจานพิเศษ หรือแอปพลิเคชั่นต่าง ๆ ไปขายต่อในราคาที่ถูกลง และถูกปากคนไทยมากขึ้น
ระยะยาวราคาถูกกว่า
แม้ว่าที่ผ่านมา ภาคเอกชนไทยก็มีการพัฒนาโมเดลภาษาไทยเอง แต่เป็นการใช้งานบนโอเพ่นซอร์ซของโมเดลอื่น อย่างบน GPT หรือ Gemini ซึ่งในอนาคตอาจมีปัญหาเรื่องราคา ที่เจ้าของโมเดลอาจขึ้นราคา หรือมีปัญหาเรื่องอธิปไตยในการใช้งานเอไอ
“การที่เรามีโมเดลเกิดประโยชน์ที่เห็นชัด 2 อย่าง 1.เรื่องราคา เป็นโมเดลสาธารณะราคาย่อมถูก เพราะเป็นของรัฐ และมีการช่วยเหลือด้านการประมวลผลจากหลายส่วน ทั้งคลาวด์กลางจาก NT, คลาวด์ไฮเปอร์สเกลค่ายสหรัฐ และจีน ที่ สดช.ซื้อเหมาไว้ให้ รวมถึงมีเอกชนอย่าง Siam AI บริจาคกำลังการประมวลผลสำหรับเทรนเอไอโดยเฉพาะ”
การพัฒนาเอไอบน ThaiLLM จึงมีโครงสร้างราคาที่พร้อมซัพพอร์ตรัฐ และเอกชน เรียกว่าแทบจะใช้ฟรี และไม่ต้องกังวลเรื่องการปรับขึ้นราคาภายหลัง
และ 2.เป็นโมเดลสาธารณะของคนไทยเองจึงไม่มีปัญหาเรื่องอธิปไตยในการใช้งานในภายหน้า
“ThaiLLM เป็นการลงทุนของภาครัฐเพื่อประโยชน์สาธารณะ เหมือนทำเน็ตประชารัฐที่เป้าหมายไม่ใช่เพื่อให้คนไทยที่ห่างไกลเข้าถึงอินเทอร์เน็ต แต่เป็นการลงทุนโครงสร้างเพื่อลากสายไฟเบอร์ไปจ่อหน้าบ้าน ทำให้เอกชนไม่ต้องลงทุนเยอะ แต่พัฒนาต่อจากตรงนั้นได้เลย”
ระยะแรกใช้งบฯราว 88-89 ล้านบาท เป็นการลงทุนเชิงยุทธศาสตร์ในโครงสร้างพื้นฐานสาธารณะ เสมือนวางเงินดาวน์เพื่อค้ำประกันอธิปไตยทางดิจิทัล และขีดความสามารถในการแข่งขันทางเศรษฐกิจของประเทศในอนาคต ภาครัฐทำหน้าที่ลงทุนในส่วนที่เป็นรากฐานซึ่งจำเป็นต่อการเติบโตของภาคเอกชนในระยะยาว
“ในแง่การลงทุนถือว่าน้อยมาก ส่วนใหญ่เป็นค่าใช้จ่ายด้านบุคลากร และคลาวด์ เรามีการขอบริจาค และขออนุเคราะห์ทั้งจากภาครัฐ และเอกชน โดยเฉพาะการซื้อเหมาคลาวด์จาก สดช. จึงช่วยลดค่าใช้จ่ายไปเยอะมาก”
แชตบอต และเอไอการแพทย์
ปีที่ผ่านมา BDI ปล่อยโมเดลพื้นฐานขนาด 8B พารามิเตอร์ และโมเดลขนาด 30B พารามิเตอร์ ที่อัพโหลดให้ใช้งาน และในส่วนโมเดลขนาดใหญ่ที่สุดจะเปิดให้สาธารณะเข้าถึงในเดือนมกราคมปีนี้
“โมเดลเหล่านี้ได้รับการฝึกด้วยข้อมูลจากหน่วยงานภาครัฐ และเอกชนที่ร่วมสนับสนุนการพัฒนา นับเป็นก้าวสำคัญในการยกระดับระบบนิเวศ AI ภาษาไทย ให้นำไปต่อยอดใช้งานในหลากหลายสาขา มีหลายทีมเริ่มทดลองใช้งานแล้ว คาดว่าจะเห็นผลลัพธ์รูปธรรมเร็ว ๆ นี้”
จุดเริ่มต้นแรกของการพัฒนาที่สำคัญ คือ โมเดลเฉพาะทางด้านการแพทย์สำหรับงานคัดกรองอาการ (Medical Screening) ที่จะเปิดตัวต้นปี 2569 พัฒนาโดยทีม ThaiLLM ร่วมกับแพทย์ผู้เชี่ยวชาญจากคณะแพทยศาสตร์ศิริราชพยาบาล และโรงพยาบาลภาครัฐ เป็นโมเดลที่มีการออกแบบเพื่อประเมินคัดกรองเบื้องต้น ให้คำแนะนำในการดูแลตนเอง และแนะนำการพบแพทย์อย่างเหมาะสม
“Chatbot ต้นแบบที่ใช้โมเดลนี้ คาดว่าจะเปิดให้ประชาชนทดลองใช้ช่วง เม.ย.-พ.ค.นี้ เชื่อว่าจะช่วยลดความเหลื่อมล้ำในการเข้าถึงแหล่งคัดกรองด้วยข้อมูลสุขภาพที่เชื่อถือได้ และแบ่งเบาภาระบุคลากรทางการแพทย์ในขั้นต้นได้”
แพลตฟอร์มข้อมูลแห่งชาติ
“ธีรณี” กล่าวต่อว่า เอไอ ต้องการข้อมูลมหาศาล ซึ่ง ณ วันนี้ มีข้อมูลจำนวนมากแต่กระจัดกระจาย ดังนั้น หน้าที่ที่สำคัญอย่างหนึ่งของ BDI คือการทำระบบมาตรฐานข้อมูลให้เป็นรูปแบบเดียวกัน และขึ้นระบบเป็นแพลตฟอร์มข้อมูลแห่งชาติ ซึ่งในแผนงานปี 2569 จะมีการออกแบบ และพัฒนาแพลตฟอร์มการเชื่อมโยง และวิเคราะห์ข้อมูลขนาดใหญ่ หรือ Data Integration and Intelligence Platform (D2) เป็นพื้นที่กลางสำหรับเชื่อมโยงและแบ่งปันข้อมูลระหว่างหน่วยงานภาครัฐ เอกชน และพันธมิตร
“ข้อมูลที่เชื่อมโยงสามารถนำไปใช้ประโยชน์จริง ทั้งในการพัฒนานโยบายแบบมุ่งเป้า การบริหารจัดการ และการขับเคลื่อนนวัตกรรมด้วยข้อมูล และ AI อันเป็นหัวใจของเศรษฐกิจดิจิทัลยุคใหม่”
ทั้งยังสนับสนุนให้เกิดการใช้ข้อมูลร่วมกันอย่างเป็นระบบมีมาตรฐาน และยกระดับความสามารถด้านการวิเคราะห์และการตัดสินใจของภาครัฐ โดยมีแผนดำเนินงานตามลำดับ ได้แก่ การออกแบบมาตรฐานการเชื่อมโยงข้อมูล และโครงสร้างพื้นฐานในปี 2568 ก่อนที่จะเปิดให้บริการเต็มรูปแบบในปี 2569 และต่อขยายบริการด้านปัญญาประดิษฐ์ในปี 2570
อ่านข่าวต้นฉบับได้ที่ : ถอดรหัส ThaiLLM ไม่ใช่ทางเลือกแต่คือหลักประกัน
ติดตามข่าวล่าสุดได้ทุกวัน ที่นี่
– Website : https://www.prachachat.net