โปรดอัพเดตเบราว์เซอร์

เบราว์เซอร์ที่คุณใช้เป็นเวอร์ชันเก่าซึ่งไม่สามารถใช้บริการของเราได้ เราขอแนะนำให้อัพเดตเบราว์เซอร์เพื่อการใช้งานที่ดีที่สุด

AI แปลงเสียงเป็นข้อความแบบเรียลไทม์ โดยโตชิบา กับ ระบบงานอีเว้นท์

ZipEvent

อัพเดต 26 ม.ค. 2563 เวลา 08.41 น. • เผยแพร่ 25 ม.ค. 2563 เวลา 15.00 น. • Korakoch Jantree

RPA (Robotics Process Automation) หรือการใช้หุ่นยนต์มาควบคุมกระบวนการทำงานอัตโนมัติ กลายเป็นแนวทางหนึ่งในการแก้ปัญหาการขาดแคลนแรงงาน และช่วยเพิ่มประสิทธิภาพในการทำงานด้วยการปฏิรูปวิธีการทำงานในแบบเดิมๆ ซึ่งอาจจะรวมถึง ระบบงานอีเว้นท์ ในอนาคต โดยที่ผ่านมา RPA ได้ถูกนำมาใช้งานในหลายสายงาน รวมถึงในสาขาไฟแนนซ์ ซึ่งก็ได้ผลเป็นที่น่าพอใจ โดยเฉพาะในการช่วยจัดการกับเอกสารและการป้อนข้อมูลต่างๆ 

อย่างไรก็ตาม หลายบริษัทยังจำเป็นต้องมีคนทำงานจิปาถะ อย่างเช่นจดบันทึกการประชุม หรือถอดความจากการบันทึกเสียง แม้ว่าในปัจจุบันจะมีระบบ AI และซอฟต์แวร์แปลงคำพูดเป็นตัวอักษรวางขายในตลาดแล้ว การถอดเสียงพูดให้เป็นข้อความอย่างถูกต้องแม่นยำยังคงต้องอาศัยการทำงานของมนุษย์อยู่

เราจะช่วยแก้ปัญหาตรงจุดนี้ และร่วมสร้างสังคมที่คนสามารถทำงานได้ง่ายขึ้นได้อย่างไร? โตชิบามีคำตอบที่มาพร้อมระบบสมองกลอัจฉริยะ AI รับรู้เสียงพูดที่พัฒนาขึ้นล่าสุด

นายทาอิระ อาชิคาวะ และนายฮิโรชิ ฟูจิมูระ คือสองนักพัฒนาจากศูนย์วิจัยและพัฒนาของโตชิบา คอร์ปอเรชั่น ซึ่งเป็นผู้ที่พัฒนา AI ดังกล่าว พวกเขาจะเล่าถึงความเป็นมาของการใช้สมองกลในการจดจำคำพูด รวมไปถึงความสำเร็จที่เกิดขึ้นระหว่างการทำงานชิ้นนี้

ถอดความอย่างราบรื่น พร้อมแสดงผลข้อมูลที่อ่านง่ายและรวดเร็ว

โตชิบามีประสบการณ์ทำงานในแวดวงการวิเคราะห์สื่อ หรือ Media Intelligence มายาวนาน ซึ่งเป็นสาขาอาชีพที่ใช้ประโยชน์จากเสียงและภาพที่ผ่านการประมวลข้อมูลมาแล้ว และพื้นฐานที่บริษัทได้สั่งสมมาจากการทำงานในแวดวงนี้เอง ที่มีบทบาทสำคัญในการสร้าง AI รับรู้เสียงตัวนี้

โตชิบาเริ่มพัฒนา AI รับรู้เสียงพูดในปี ค.ศ. 2015 ซึ่งในขณะนั้นมีการตื่นตัวเรื่องความสำคัญการเข้าถึงข้อมูลเกิดขึ้นทั่วโลก โดยเฉพาะการสร้างสภาพแวดล้อมที่ช่วยให้คนหูหนวกหรือบกพร่องทางการได้ยิน สามารถเข้าถึงข้อมูลและส่งมอบข้อมูลต่าง ๆ ได้ ด้วยความเชื่อมั่นในการส่งเสริมความหลากหลายและการสร้างความเป็นอันหนึ่งอันเดียวกันในสถานที่ทำงาน โตชิบาจึงได้ริเริ่ม “Universal Design (UD) Advisor System” หรือ “ระบบที่ปรึกษาการออกแบบสากล” ขึ้นตั้งแต่ปี ค.ศ. 2007 เพื่อช่วยให้พนักงานที่มีความทุพพลภาพสามารถร่วมเสนอความคิดเพื่อช่วยพัฒนาผลิตภัณฑ์ได้ และยังได้พัฒนาสินค้าและบริการที่มีการออกแบบสากลขึ้นมาอีกมากมาย

ในช่วงหลายปีที่ผ่านมานายอาชิคาวะ เผยว่า “ตอนที่เราสัมภาษณ์ผู้ที่มีภาวะบกพร่องทางการได้ยินจากโครงการ UD Advisor System เราพบว่าพวกเขาอยากมีส่วนร่วมในการประชุม หรือการเรียนเล็คเชอร์แบบเรียลไทม์ (Real-time) ไม่ใช่แค่ตามอ่านเอกสารจากการถอดเทปภายหลัง เราจึงพยายามที่จะสร้างฟังก์ชันที่สามารถแสดงคำบรรยายที่อ่านเข้าใจง่ายๆ ได้แบบทันที เพื่อช่วยผู้บกพร่องทางการได้ยินในการรวบรวมและนำเสนอข้อมูล โดยเราเน้นหน้าที่หลัก 2 ประการคือ การขยายช่องทางการเข้าถึงข้อมูลสำหรับผู้บกพร่องทางการได้ยิน และการเพิ่มประสิทธิภาพการทำงานของระบบ ดังนั้น การพัฒนา AI รับรู้เสียงพูดของเราจึงเริ่มขึ้นจาก 2 ประการนี้” 

นายทาอิระ อาชิคาวะ หัวหน้าแผนกวิจัย ห้องปฏิบัติการสื่อ AI ศูนย์วิจัยและพัฒนาโตชิบา คอร์ปอเรชั่น

เทคโนโลยีเบื้องหลังความสำเร็จของระบบรับรู้เสียงพูด

หากคุณเคยพยายามถอดเทปเสียง คุณคงทราบดีว่า ขณะที่คุณพยายามจดรายละเอียดของการสนทนา ไม่ว่าจะระหว่างการประชุมหรือการบรรยาย ข้อความที่ได้มักจะยุ่งเหยิง อ่านยาก แถมยังมีรายละเอียดที่ไม่สำคัญเข้ามาเป็นอุปสรรคในการจดบันทึกเนื้อหาข้อมูลที่ถูกต้อง โดยเฉพาะพวกคำเติม (filler words) เช่น “เอ่อ” และ “อืม” หรือคำที่แสดงการตอบรับหรือเห็นด้วย ที่ไม่ได้มีความสำคัญอะไรกับเนื้อหาหลัก

เทคโนโลยี AI รับรู้เสียงพูดที่โตชิบาพัฒนาขึ้นนี้ สามารถรับรู้คำพูดด้วยความแม่นยำสูง และยังสามารถรับรู้ถึงพวกคำเติม และคำที่แสดงความลังเลได้เช่นกัน นี่ถือเป็นฟังก์ชันสำคัญในการปรับปรุงประสิทธิภาพการทำงานของระบบ อัลกอริทึม (Algorithm) นั้นเปรียบเสมือนแกนกลางของ AI และทีมนักพัฒนาก็ได้ทดลองหลากหลายวิธีการเพื่อเพิ่มประสิทธิภาพการทำงานของมัน

นายฟูจิมูระ เล่าว่า “ในช่วงแรกพวกเราเจอแต่ทางตัน เพราะไม่ว่าเราจะทำอย่างไรก็ไม่สามารถเพิ่มประสิทธิภาพความแม่นยำของการรับรู้เสียงได้ เพราะเป้าหมายหลักของเราคือการสร้างระบบที่ผู้ใช้งานสามารถใช้ได้อย่างสะดวกรวดเร็ว และด้วยโปรแกรมยอดนิยมอย่าง LSTM(*1) และCTC(*2)  เราได้พยายามสอน AI เกี่ยวกับลักษณะการพูด เช่น คำเติม และคำที่แสดงความลังเล ซึ่งเป็นลักษณะเฉพาะของการพูดของมนุษย์”

 (*1) LSTM (Long Short-term Memory) คือโมเดลหนึ่งของ RNN (Recurrent Neural Network) ซึ่งมีโครงข่ายแบบวนซ้ำซ่อนอยู่ในเลเยอร์ จึงสามารถเรียนรู้ความสัมพันธ์แบบพึ่งพาระยะยาว ซึ่งยากสำหรับ RNNs แบบเดิม 

(*2) CTC (Connectionist Temporal Classification) หรือ การจำแนกการเชื่อมต่อชั่วคราว คือหนึ่งในวิธีการฝึก RNN ให้แก้ปัญหาเมื่อความยาวของข้อมูลแบบลำดับแตกต่างกันในระหว่างการป้อนข้อมูล โดยการแนะนำลักษณะที่ถือเป็นโมฆะ และการปรับฟังก์ชันที่สูญเปล่า    

นายฮิโรชิ ฟูจิมูระ หัวหน้านักวิจัย ห้องปฏิบัติการสื่อ AI ศูนย์วิจัยและพัฒนาโตชิบา คอร์ปอเรชั่น

ระบบรับรู้เสียงพูดตั้งแต่อดีตจนถึงปัจจุบัน จะทำงานโดยวิเคราะห์รูปแบบคลื่นเสียงและจำแนกออกมาว่า จุดนี้คือเสียง “อะ” จุดนี้คือเสียง “อิ” เช่นนี้ไปเรื่อย ๆ แต่คำเติม และคำที่แสดงความลังเล มีรูปแบบแตกต่างกันมากมายนับไม่ถ้วน หากระบบจะเรียนรู้ทีละอันก็ต้องใช้เวลายาวนานในการพัฒนา

นายฟูจิมูระ เล่าต่อว่า “เราใช้ LSTM ในการตรวจจับข้อมูลว่า ‘นี่คือลักษณะคำเติมนะ’ หรือ ‘นี่คือเสียงเวลาคนแสดงความลังเล’ เป็นโมเดลทางสถิติ จากนั้นจึงใช้ CTC เข้ามาสอนให้ AI เรียนรู้ตามโมเดลนั้น ด้วยวิธีนี้ระบบสมองกลจึงสามารถตรวจจับหลากหลายรูปแบบของคำเติม และคำแสดงความลังเลเช่นกัน”

“แน่นอนว่ามันยังมีช่องทางในการพัฒนาอีกมากมายสำหรับเทคโนโลยีนี้ เพื่อให้เราสามารถนำเสนอระบบรับรู้เสียงพูดที่มีความแม่นยำสมบูรณ์แบบได้ ณ ตอนนี้ AI ของเราสามารถรับรู้เสียงพูดได้ 3 ภาษา ได้แก่ ภาษาญี่ปุ่น ภาษาอังกฤษ และภาษาจีน ซึ่งเรามีเป้าหมายที่จะสร้างสภาพแวดล้อมที่ผู้พูดภาษาต่าง ๆ สามารถสื่อสารกันได้อย่างราบรื่นไร้อุปสรรค นั่นคือสิ่งที่เราวาดฝันไว้ในตอนที่เราเริ่มพัฒนา AI นี้ ซึ่งมันเป็นภาพที่เราเคยเห็นแต่ในนิยาย sci-fi หรือในหนังสือการ์ตูน ซึ่งเราอยากทำให้มันกลายเป็นความจริง”

นี่คือวิธีการที่สมองกลถูกพัฒนาขึ้นจนกลายเป็น AI รับรู้เสียงพูดที่มีความแม่นยำสูง เมื่อทางทีมนักพัฒนามีโอกาสได้ใช้การบรรยายเป็นการทดสอบระบบ พวกเขาพบว่าตัว AI สามารถรับรู้เสียงพูดได้สูงถึง 85% นั่นหมายความว่ามันสามารถรับรู้เนื้อหาข้อมูลในการพูดนั้นได้สูงกว่าปกติโดยไม่จำเป็นต้องอาศัยการเรียบเรียงข้อมูลหรือการเรียนรู้ขั้นสูงใด ๆ และในตอนนี้ เมื่อพวกเขาสามารถเพิ่มประสิทธิภาพความถูกต้องแม่นยำของระบบรับรู้เสียงพูดแล้ว พวกเขาก็กำลังพิจารณาว่าจะนำมันไปใช้กับ AI สำหรับการสื่อสารอีกตัวของโตชิบาที่ชื่อ RECAIUS

พวกเขาพัฒนาแอปพลิเคชันที่มีฟังก์ชันแสดงภาพคำบรรยายแบบเรียลไทม์สำหรับผู้ที่มีความบกพร่องทางการได้ยิน โดยให้ AI แสดงข้อความที่ชัดเจนอ่านง่าย และแสดงคำเติม หรือคำแสดงความลังเลเป็นอักษรที่จางลง นี่เป็นวิธีที่พวกเขาค้นพบว่าง่ายต่อการใช้งานที่สุดหลังจากที่ได้พูดคุยรายละเอียดกับกลุ่มผู้ใช้งาน

ระบบถอดเสียงพูดเป็นคำบรรยายอัตโนมัติ (ซ้าย) และการแสดงภาพคำบรรยาย (ขวา)

นายอาชิคาวะ อธิบายว่า “ในมุมมองของเรา พวกคำเติมอย่าง “เอิ่ม” หรือ “เอ่อ” นั้นไม่ได้มีประโยชน์อะไร แต่สำหรับผู้ที่บกพร่องทางการได้ยิน พวกเขาต้องการที่จะได้รับข้อมูลให้มากที่สุดเท่าที่จะทำได้ เวลาที่พวกเขาอ่านคำบรรยายในขณะที่มองตามการขยับปากของผู้พูด พวกเขาอาจจะรู้สึกไม่สบายใจ ถ้าคำเติม และคำที่แสดงความลังเลพวกนี้ถูกตัดออก เพราะพวกเขาจะรู้สึกว่าสิ่งที่ผู้พูดกำลังสื่อสารนั้นไม่ได้แสดงอยู่ในคำบรรยาย”

“ด้วยเหตุนี้ เราจึงตัดสินใจปล่อยคำเติม และคำที่แสดงความลังเลพวกนี้ไว้ในคำบรรยายด้วย แต่แสดงเป็นอักษรสีจางลงเพื่อให้อ่านเข้าใจได้ง่ายขึ้น แต่ว่าเมื่อเราถอดความออกมาเป็นเอกสารอย่างเป็นทางการ เราจะตัดคำพวกนี้ออกไป เพื่อให้ได้เอกสารที่สั้นและกระชับมากขึ้น” 

 ประโยชน์ของ AI รับรู้เสียงใน ระบบงานอีเว้นท์

ใน ระบบงานอีเว้นท์ นั้น ต่างออกไปจากภาคผลิตอยู่มาก แต่ในแง่การมอบประสบการณ์ที่ดีต่อผู้มางานอีเว้นท์ ในอนาคตอาจจะไม่ต้องพิมพ์ หรือเสียบ หรือแตะบัตรอะไร ก่อนเข้างานอีเว้นท์ อาจจะใช้การพูดเพื่อกรอกข้อมูลที่เครื่องคีออสแทน ทำให้ผู้จัดงานอีเว้นท์ได้ข้อมูลจากผู้มางาน ผู้มางานก็สามารถให้ข้อมูลที่เป็นประโยชน์กับผู้จัดงานอีเว้นท์อีกด้วย และก้าวข้ามผ่านประเด็นเรื่องของภาษา เพราะ AI เหล่านี้รู้ทุกภาษาอยู่แล้ว รวมถึงการฟีดแบค ถ้าผู้มางานอีเว้นท์ฟีดแบคด้วยการพูด ก็น่าจะได้ข้อมูล ความคิดเห็นที่เป็นประโยชน์มากกว่า การเขียน หรือตอบแบบสอบถาม

เราหวังว่าเราจะสามารถใช้ความรู้และประสบการณ์ของเราเกี่ยวกับโรงงานการผลิต มาบูรณาการเทคโนโลยีรับรู้เสียงพูดเข้ากับการทำงาน ที่เราสามารถทำเช่นนั้นได้เพราะเราได้ใช้เวลายาวนานในการพัฒนา AI รับรู้เสียงพูด และสั่งสมความรู้เกี่ยวกับการผลิตและโครงสร้างพื้นฐาน‘ทำไมโตชิบาจะต้องสร้างเทคโนโลยีรับรู้เสียงพูดด้วย?’ ผมคิดว่านี่คือหนึ่งในคำตอบที่ชัดเจนที่สุด” นายฟูจิมูระ กล่าวสรุป

ฝากติดตามข่าวสารงานอีเว้นท์กับ Zipevent ในช่องทางโซเชียลมีเดียต่างๆ ตามนี้เลย Line: @Zipevent (อย่าลืมเติม @ ข้างหน้าด้วยนะคะ)
หรือจิ้มไปที่ลิงก์นี้ได้เลย @Zipevent
Instagram: @Zipevent
Website: www.zipeventapp.com 
Twitter: @Zipevent 
Facebook: @Zipevent

ดูข่าวต้นฉบับ
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...