อาจารย์วิศวฯ จุฬาฯ ออกแบบ “Gowajee” (โก วา จี) นวัตกรรม AI ถอดความภาษาไทย แปลงเสียงเป็นข้อความและข้อความเป็นเสียง แม่นยำเป็นธรรมชาติราวเจ้าของภาษา เก็บข้อมูลปลอดภัย เริ่มใช้งานแล้วกับระบบคอลเซ็นเตอร์และการคัดกรองผู้ป่วยซึมเศร้า
“Gowajee” ช่วยคัดกรองผู้ป่วยซึมเศร้า
ทุกวันนี้เราเริ่มคุ้นชินกับการใช้เสียงออกคำสั่งหรือบอกให้โปรแกรม AI (Artificial Intelligence หรือ ปัญญาประดิษฐ์) อย่าง Google หรือ Siri เพื่อค้นหาหรือทำงานตามที่เราต้องการ แทนการสัมผัสแป้นพิมพ์อักษร แต่ AI voice เหล่านั้น ดูเหมือนจะไม่ค่อยเข้าใจโทนเสียงภาษาไทยที่เราพูดนัก เพราะถูกพัฒนามาจากบริษัทต่างชาติ ซึ่งเน้นการใช้งานกับหลายภาษาโดยเฉพาะภาษาสากล เช่น ภาษาอังกฤษ หลายครั้งก็แปลงเสียงเป็นข้อความที่ไม่ตรง ทำให้เราต้องปรับการออกเสียงภาษาไทยเพื่อให้เข้ากับ AI
DMIND Application สำหรับคัดกรองผู้ที่มีภาวะซึมเศร้า
จากปัญหาดังกล่าว อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย และทีมได้พัฒนา AI สัญชาติไทยแท้ “Gowajee” (อ่านว่า โก-วาจี) ที่เข้าใจภาษาไทยโดยเฉพาะ เพื่อตอบโจทย์การถอดความภาษาไทยที่แม่นยำและเป็นธรรมชาติมากขึ้นพิสูจน์ผ่านการใช้งานจริงแล้วว่ามีข้อผิดพลาดทางภาษาเพียง 9% เท่านั้นเมื่อเทียบกับ AI ถอดความอื่นๆ ที่มีความผิดพลาดราว 15%ดร.เอกพล และทีมงานของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ได้เริ่มเก็บฐานข้อมูลเสียงภาษาไทยมาตั้งแต่ปี 2560 จนปัจจุบัน โดยเก็บข้อมูลเสียงภาษาไทยหลายรูปแบบและวิธีการมีทั้งเปิดเว็บไซต์ให้คนเข้ามาอ่านข้อความเพื่อเก็บฐานข้อมูลเสียง จ้างคนมานั่งสนทนากัน หรือจ้างนักแสดงมาพูดสื่อสารอารมณ์ ทั้งหมดรวมแล้วกว่า 5,000 ชั่วโมง จนมั่นใจว่าเรามีข้อมูลมากเพียงพอในการถอดความภาษาไทยได้อย่างแม่นยำ โดยการค้นความหมายในเสียง Gowajee ยังสามารถช่วยคัดกรองผู้ป่วยซึมเศร้า เพราะจากการเก็บข้อมูลเสียงที่สื่ออารมณ์ต่างๆนอกจากนี้ ทีม Gowajee ได้เข้าไปมีสวนช่วยพัฒนาระบบของแอปพลิเคชัน DMIND ที่ทำหน้าที่ช่วยคัดกรองผู้ป่วยโรคซึมเศร้า โดยทีม Gowajee ของคณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย ยังได้พัฒนาให้ Gowajee สามารถจำแนกอารมณ์จากเสียงพูด เพื่อนำไปวิเคราะห์คัดกรองกลุ่มเสี่ยงอีกด้วย บางครั้ง ผู้ป่วยจะพูดไปร้องไห้ไป ซึ่งทำให้ฟังยากขึ้น แต่ Gowajee ก็ทำงานได้ค่อนข้างดี สามารถจับคำสำคัญให้ได้เพื่อถอดความสำคัญออกมา ซึ่งเป็นอีกหนึ่งนวัตกรรมช่วยเหลือสังคมของ คณะวิศวกรรมศาสตร์ จุฬาฯ
DMIND Application
การใช้งาน
ดร.เอกพล กล่าวเพิ่มเติมว่า Gowajee สามารถประยุกต์ใช้งานได้ 3 ลักษณะสำคัญ ได้แก่1. Automated Speech Recognition (ASR) เป็นการทำงานในลักษณะของการถอดความ คือ เมื่อเราพูดอะไรลงไป โปรแกรมก็จะแปลงสิ่งที่เราพูดให้ออกมาเป็นข้อความ โดยมีจุดเด่นที่สามารถถอดความภาษาไทยปนอังกฤษได้เป็นอย่างดี ยกตัวอย่างการใช้งานในการเรียนรู้ เวลาเราฟังเลคเชอร์ หากเราบันทึกเสียงอาจารย์เอาไว้ โปรแกรมก็จะช่วยถอดความออกมาเป็นตัวหนังสือให้เราใช้ในการค้นหาส่วนที่ต้องการได้เลย ไม่ต้องคอยฟังทั้งหมด2. Text-to-Speech (TTS) เป็นการทำงานในลักษณะของการแปลงข้อความให้เป็นเสียงพูด อย่างที่เราคุ้นเคยกับการใช้ Google หรือ Siri ในการช่วยอ่านข้อความ แต่ทว่า สำหรับองค์กรหรือบริษัทแล้ว การมีเสียงที่เป็นตัวแทนขององค์กรโดยเฉพาะ จะเป็นการสร้างอัตลักษณ์ขององค์กร ซึ่งทาง Gowajee มีกระบวนการสร้างเสียงจำเพาะที่มีงานวิจัยรองรับว่าเสียงที่ออกมาจะสมจริง3. Automatic Speaker Verification (ASV) เป็นการยืนยันตัวตนผู้พูดด้วยเสียง ซึ่งสามารถนำมาใช้เพื่อยืนยันตัวตนในการติดต่อกับคอลเซ็นเตอร์ หรือนำมาใช้เพื่อบ่งบอกว่าใครพูดเมื่อใดและอีกจุดเด่นของ Gowajee ที่เหนือกว่า AI ถอดความอื่นๆ ก็คือ “ความปลอดภัยของข้อมูล” เพราะโดยปกติแล้ว เวลาเราใช้โปรแกรมถอดความของเจ้าอื่นๆ ข้อมูลจะถูกเก็บไว้บนคลาวด์ (Cloud) หรือทำการประมวลผลข้อมูลที่คอมพิวเตอร์ของผู้ให้บริการ แต่สำหรับ Gowajee ข้อมูลเหล่านี้จะถูกเก็บอยู่ในฐานข้อมูลของผู้ใช้เอง สำหรับธุรกิจที่ต้องการความปลอดภัยของข้อมูล เช่น ธุรกิจจำพวกธนาคารหรือประกันภัย จะสามารถสร้างความอุ่นใจให้กับผู้ใช้ได้มากขึ้น
DMIND – Gowajee
การทำงานผ่านเสียงสำหรับการวิเคราะห์
อาจารย์ ดร.เอกพล ช่วงสุวนิช อาจารย์ภาควิชาวิศวกรรมคอมพิวเตอร์ คณะวิศวกรรมศาสตร์ จุฬาลงกรณ์มหาวิทยาลัย