โปรดอัพเดตเบราว์เซอร์

เบราว์เซอร์ที่คุณใช้เป็นเวอร์ชันเก่าซึ่งไม่สามารถใช้บริการของเราได้ เราขอแนะนำให้อัพเดตเบราว์เซอร์เพื่อการใช้งานที่ดีที่สุด

ถอดรหัส ThaiLLM ไม่ใช่ทางเลือกแต่คือหลักประกัน

ประชาชาติธุรกิจ

อัพเดต 08 ม.ค. เวลา 06.57 น. • เผยแพร่ 08 ม.ค. เวลา 09.02 น.
ธีรณี อจลากุล

ปี 2569 สถาบันข้อมูลขนาดใหญ่ (BDI) เตรียมเปิดตัวโมเดลพื้นฐานปัญญาประดิษฐ์ภาษาไทย หรือ ThaiLLM ให้คนทั่วไปเข้าถึง และโหลดมาใช้งานได้ภายในเดือนมกราคมนี้ และจะมีการต่อยอดใช้เป็น “แชตบอต” และใช้ในงานเฉพาะทาง เช่น ด้านการแพทย์ ภายในไตรมาส 2 ของปีอีกด้วย

ไทม์ไลน์ที่ BDI วางไว้เกิดขึ้น ท่ามกลางการแข่งขันอย่างดุเดือดในสมรภูมิปัญญาประดิษฐ์ (เอไอ) แบบโมเดลภาษาของบรรดา “บิ๊กเทค” ระดับโลกที่เก่งขึ้น เร็วขึ้น และถูกลง ไม่ว่าจะเป็น Google OpenAI หรือฝั่งจีนอย่าง Baidu และ Deepseek

การต่อยอดด้วยโมเดลภาษาอังกฤษ สะดวกกว่า เร็วกว่า ถูกกว่า ก็จริง แต่มีปัญหาตามมาก็คือ โมเดลเอไอเหล่านั้นใช้พื้นฐานภาษาอังกฤษเป็นหลัก ทำให้การนำ “ยูสเคส” จริงมาใช้ต่อยอดต้องวางอยู่บนข้อมูลภาษาอังกฤษเป็นหลัก

ขณะที่ในบ้านเรา ทั้งเอกสารราชการ และการสื่อสารใช้ภาษาไทยเป็นหลัก ทั้งยังมีบริบททางวัฒนธรรมแบบไทยที่ไม่สามารถใช้โมเดลภาษาอังกฤษตีความหรือแปลความกลับมาทดแทนได้

ตลอดปีครึ่งที่ผานมา BDI ได้เริ่มต้นพัฒนาโมเดลเอไอภาษาไทย

ThaiLLM ไม่ใช่ทางเลือก

“ธีรณี อจลากุล” ผู้อำนวยการสถาบันข้อมูลขนาดใหญ่ หรือ BDI อธิบายกับ “ประชาชาติธุรกิจ” ถึงการสร้างโมเดลภาษาขนาดใหญ่ขึ้นมาใช้เองว่า การเป็นเจ้าของโมเดลพื้นฐานไม่ใช่ทางเลือก แต่เป็นหลักประกันความมั่นคงทางเทคโนโลยีแห่งชาติ (Technological Security) ที่จะปกป้องขีดความสามารถในการแข่งขันของประเทศในทุกสถานการณ์ ถือเป็นภารกิจที่ “ต่อให้สู้ไม่ได้ก็ต้องทำ” เพื่อรักษาอนาคตทางเทคโนโลยีไว้ในมือของเราเอง

โครงการ ThaiLLM เป็นโครงสร้างพื้นฐานปัญญาประดิษฐ์ภาษาไทยแบบ Open Source/Open License ที่เป็นการทุ่มสรรพกำลังของภาครัฐ, ภาคเอกชน และภาคส่วนต่าง ๆ เพื่อพัฒนาโมเดลพื้นฐาน (Foundation) ให้เป็นโครงสร้างหลักของประเทศ มีความโดดเด่นจากการรวบรวมข้อมูลเอกสารจากหอจดหมายเหตุ และอื่น ๆ ที่เป็นภาษาไทยจำนวนมหาศาล ทำให้เข้าใจบริบทเฉพาะของไทยอย่างลึกซึ้ง

ตัวอย่าง เช่น หากถามโมเดลเอไอเกี่ยวกับ “ปราสาททราย” ถ้าเป็นโมเดลต่างชาติอาจตีความผิดพลาดว่าเป็นปราสาททรายบนชายหาด จึงให้ข้อมูลการท่องเที่ยวที่ไม่เกี่ยวข้อง ในขณะที่โมเดลที่ฝึกฝนด้วยข้อมูลวัฒนธรรมไทยจะเข้าใจได้อย่างถูกต้องว่าเป็นประเพณีการก่อเจดีย์ทรายในวันสงกรานต์ และให้คำตอบที่ถูกต้องสมบูรณ์ในเชิงวัฒนธรรม

“แม้โมเดลต่างชาติจะสื่อสารภาษาไทยได้ดี แต่ข้อมูลภาษาไทยบนอินเทอร์เน็ตที่โมเดลต่างชาตินำมาเทรนเอไอ มีสัดส่วนเพียง 0.4% ของข้อมูลทั้งหมด ทำให้โมเดลเหล่านั้นฝึกฝนด้วยข้อมูลภาษาอังกฤษเป็นหลัก จึงตอบคำถามด้วยบริบทหรือแนวคิดแบบตะวันตก”

5 ภาคีความร่วมมือ

แต่ส่วนที่สำคัญที่สุด คือ การวางรากฐาน “โครงสร้างพื้นฐานดิจิทัล” (Digital Infrastructure) ที่ไม่มีใครกล้าทำ เพราะลงทุนสูง เหมือนตอนวางโครงข่ายอินเทอร์เน็ต ที่การลากสายไปหน้าบ้านลงทุนสูงจึงไม่มีใครทำ

“ThaiLLM เหมือนการที่ภาครัฐลากสายไฟเบอร์ออปติกไว้ให้ เพื่อให้เอกชนเข้ามาใช้ประโยชน์และสร้างบริการใหม่ ๆ ได้ง่ายขึ้น ออกแบบมาให้เป็น Foundation Model หรือโมเดลพื้นฐานของประเทศ เพื่อให้ภาคเอกชน Startup และ SMEs นำไปต่อยอดได้ทันทีโดยไม่ต้องลงทุนสร้างใหม่ทั้งหมด ช่วยลดภาระต้นทุนมหาศาล”

โครงการนี้ไม่ใช่ผลงานของหน่วยงานใดหน่วยงานหนึ่ง แต่เกิดจากความร่วมมือของ 5 ภาคีหลัก ได้แก่ BDI, NECTEC, สมาคมปัญญาประดิษฐ์ประเทศไทย (AIAT), สมาคมผู้ประกอบการปัญญาประดิษฐ์ไทย (AIEAT) และมหาวิทยาลัยต่าง ๆ ทำให้เกิดการแบ่งปันทรัพยากรทั้งด้านกำลังคน ข้อมูล และการทดสอบระบบ เพื่อสร้างมาตรฐานกลาง (Standard Dataset) ที่ทุกคนสามารถเข้าถึงและใช้ประโยชน์ร่วมกันได้

“ตอนนี้ยังมีโมเดลภาษาไทยที่แบงก์ยักษ์ในไทยสร้างขึ้นเองจากข้อมูลของพวกเขา เช่น ไต้ฝุ่น ของ SCB และทะเล ของ KBank ที่เริ่มเจรจาในระดับวิศวกรกับเราเพื่อเข้ามาร่วมพัฒนา และทำการปรับแต่งร่วมกัน เพื่อให้เป็นโครงสร้างที่พร้อมรองรับอนาคต”

“ธีรณี” เปรียบเทียบให้เห็นภาพว่า ThaiLLM เปรียบเสมือนการที่ประเทศไทยสร้าง โรงครัวส่วนกลาง ที่มีเครื่องปรุง และสูตรอาหารตามรสชาติที่คนไทยชอบไว้ให้ แทนที่จะต้องไปเช่าครัวจากต่างชาติที่มีรสชาติไม่คุ้นเคย และอาจปิดเมื่อไหร่ก็ได้ เมื่อมีโรงครัวนี้แล้ว พ่อครัวชาวไทย หรือ Startup/SMEs ต่าง ๆ เข้ามาปรุงอาหารจานพิเศษ หรือแอปพลิเคชั่นต่าง ๆ ไปขายต่อในราคาที่ถูกลง และถูกปากคนไทยมากขึ้น

ระยะยาวราคาถูกกว่า

แม้ว่าที่ผ่านมา ภาคเอกชนไทยก็มีการพัฒนาโมเดลภาษาไทยเอง แต่เป็นการใช้งานบนโอเพ่นซอร์ซของโมเดลอื่น อย่างบน GPT หรือ Gemini ซึ่งในอนาคตอาจมีปัญหาเรื่องราคา ที่เจ้าของโมเดลอาจขึ้นราคา หรือมีปัญหาเรื่องอธิปไตยในการใช้งานเอไอ

“การที่เรามีโมเดลเกิดประโยชน์ที่เห็นชัด 2 อย่าง 1.เรื่องราคา เป็นโมเดลสาธารณะราคาย่อมถูก เพราะเป็นของรัฐ และมีการช่วยเหลือด้านการประมวลผลจากหลายส่วน ทั้งคลาวด์กลางจาก NT, คลาวด์ไฮเปอร์สเกลค่ายสหรัฐ และจีน ที่ สดช.ซื้อเหมาไว้ให้ รวมถึงมีเอกชนอย่าง Siam AI บริจาคกำลังการประมวลผลสำหรับเทรนเอไอโดยเฉพาะ”

การพัฒนาเอไอบน ThaiLLM จึงมีโครงสร้างราคาที่พร้อมซัพพอร์ตรัฐ และเอกชน เรียกว่าแทบจะใช้ฟรี และไม่ต้องกังวลเรื่องการปรับขึ้นราคาภายหลัง

และ 2.เป็นโมเดลสาธารณะของคนไทยเองจึงไม่มีปัญหาเรื่องอธิปไตยในการใช้งานในภายหน้า

“ThaiLLM เป็นการลงทุนของภาครัฐเพื่อประโยชน์สาธารณะ เหมือนทำเน็ตประชารัฐที่เป้าหมายไม่ใช่เพื่อให้คนไทยที่ห่างไกลเข้าถึงอินเทอร์เน็ต แต่เป็นการลงทุนโครงสร้างเพื่อลากสายไฟเบอร์ไปจ่อหน้าบ้าน ทำให้เอกชนไม่ต้องลงทุนเยอะ แต่พัฒนาต่อจากตรงนั้นได้เลย”

ระยะแรกใช้งบฯราว 88-89 ล้านบาท เป็นการลงทุนเชิงยุทธศาสตร์ในโครงสร้างพื้นฐานสาธารณะ เสมือนวางเงินดาวน์เพื่อค้ำประกันอธิปไตยทางดิจิทัล และขีดความสามารถในการแข่งขันทางเศรษฐกิจของประเทศในอนาคต ภาครัฐทำหน้าที่ลงทุนในส่วนที่เป็นรากฐานซึ่งจำเป็นต่อการเติบโตของภาคเอกชนในระยะยาว

“ในแง่การลงทุนถือว่าน้อยมาก ส่วนใหญ่เป็นค่าใช้จ่ายด้านบุคลากร และคลาวด์ เรามีการขอบริจาค และขออนุเคราะห์ทั้งจากภาครัฐ และเอกชน โดยเฉพาะการซื้อเหมาคลาวด์จาก สดช. จึงช่วยลดค่าใช้จ่ายไปเยอะมาก”

แชตบอต และเอไอการแพทย์

ปีที่ผ่านมา BDI ปล่อยโมเดลพื้นฐานขนาด 8B พารามิเตอร์ และโมเดลขนาด 30B พารามิเตอร์ ที่อัพโหลดให้ใช้งาน และในส่วนโมเดลขนาดใหญ่ที่สุดจะเปิดให้สาธารณะเข้าถึงในเดือนมกราคมปีนี้

“โมเดลเหล่านี้ได้รับการฝึกด้วยข้อมูลจากหน่วยงานภาครัฐ และเอกชนที่ร่วมสนับสนุนการพัฒนา นับเป็นก้าวสำคัญในการยกระดับระบบนิเวศ AI ภาษาไทย ให้นำไปต่อยอดใช้งานในหลากหลายสาขา มีหลายทีมเริ่มทดลองใช้งานแล้ว คาดว่าจะเห็นผลลัพธ์รูปธรรมเร็ว ๆ นี้”

จุดเริ่มต้นแรกของการพัฒนาที่สำคัญ คือ โมเดลเฉพาะทางด้านการแพทย์สำหรับงานคัดกรองอาการ (Medical Screening) ที่จะเปิดตัวต้นปี 2569 พัฒนาโดยทีม ThaiLLM ร่วมกับแพทย์ผู้เชี่ยวชาญจากคณะแพทยศาสตร์ศิริราชพยาบาล และโรงพยาบาลภาครัฐ เป็นโมเดลที่มีการออกแบบเพื่อประเมินคัดกรองเบื้องต้น ให้คำแนะนำในการดูแลตนเอง และแนะนำการพบแพทย์อย่างเหมาะสม

“Chatbot ต้นแบบที่ใช้โมเดลนี้ คาดว่าจะเปิดให้ประชาชนทดลองใช้ช่วง เม.ย.-พ.ค.นี้ เชื่อว่าจะช่วยลดความเหลื่อมล้ำในการเข้าถึงแหล่งคัดกรองด้วยข้อมูลสุขภาพที่เชื่อถือได้ และแบ่งเบาภาระบุคลากรทางการแพทย์ในขั้นต้นได้”

แพลตฟอร์มข้อมูลแห่งชาติ

“ธีรณี” กล่าวต่อว่า เอไอ ต้องการข้อมูลมหาศาล ซึ่ง ณ วันนี้ มีข้อมูลจำนวนมากแต่กระจัดกระจาย ดังนั้น หน้าที่ที่สำคัญอย่างหนึ่งของ BDI คือการทำระบบมาตรฐานข้อมูลให้เป็นรูปแบบเดียวกัน และขึ้นระบบเป็นแพลตฟอร์มข้อมูลแห่งชาติ ซึ่งในแผนงานปี 2569 จะมีการออกแบบ และพัฒนาแพลตฟอร์มการเชื่อมโยง และวิเคราะห์ข้อมูลขนาดใหญ่ หรือ Data Integration and Intelligence Platform (D2) เป็นพื้นที่กลางสำหรับเชื่อมโยงและแบ่งปันข้อมูลระหว่างหน่วยงานภาครัฐ เอกชน และพันธมิตร

“ข้อมูลที่เชื่อมโยงสามารถนำไปใช้ประโยชน์จริง ทั้งในการพัฒนานโยบายแบบมุ่งเป้า การบริหารจัดการ และการขับเคลื่อนนวัตกรรมด้วยข้อมูล และ AI อันเป็นหัวใจของเศรษฐกิจดิจิทัลยุคใหม่”

ทั้งยังสนับสนุนให้เกิดการใช้ข้อมูลร่วมกันอย่างเป็นระบบมีมาตรฐาน และยกระดับความสามารถด้านการวิเคราะห์และการตัดสินใจของภาครัฐ โดยมีแผนดำเนินงานตามลำดับ ได้แก่ การออกแบบมาตรฐานการเชื่อมโยงข้อมูล และโครงสร้างพื้นฐานในปี 2568 ก่อนที่จะเปิดให้บริการเต็มรูปแบบในปี 2569 และต่อขยายบริการด้านปัญญาประดิษฐ์ในปี 2570

อ่านข่าวต้นฉบับได้ที่ : ถอดรหัส ThaiLLM ไม่ใช่ทางเลือกแต่คือหลักประกัน

ติดตามข่าวล่าสุดได้ทุกวัน ที่นี่
– Website : https://www.prachachat.net

ดูข่าวต้นฉบับ
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...