พยากรณ์ผลฟุตบอลโลก 2018 โดยใช้ Machine Learning

มหกรรมการแข่งขันฟุตบอลโลก 2018 ได้เวียนมาบรรจบอีกครั้ง โดยในครั้งนี้ประเทศรัสเซียรับหน้าที่เป็นเจ้าภาพจัดการแข่งขัน นอกจากความสนุกในการชมเกมการแข่งขันในแต่ละนัดแล้ว ฟุตบอลโลกยังมักสร้างความสนุกทางวิชาการแก่นักวิเคราะห์ทางสถิติอยู่เสมอในการนำแบบจำลองทางเศรษฐศาสตร์ (การเงิน) มาใช้ในการพยากรณ์ผล
ยกตัวอย่างเช่นในครั้งปี 2010 บริษัท JP Morgan ได้ใช้แบบจำลองทางคณิตศาสตร์การเงินในการพยากรณ์พร้อมฟันธงว่า 3 ทีมที่น่าจะได้เป็นแชมป์ฟุตบอลโลก 2010 ได้แก่ อังกฤษ ในขณะที่ในครั้งปี 2014 บริษัท Goldman Sachs ก็ได้ใช้วิธีการที่ซับซ้อนขึ้นด้วยการสร้างแบบจำลองสถานการณ์แบบมอนติคาร์โล (Monte Carlo Simulation) ถึง 10,000 ครั้งและฟันธงว่าบราซิลจะเป็นทีมที่จะได้เป็นแชมป์ในการแข่งขันฟุตบอลโลกในครั้งก่อนด้วยความน่าจำเป็นที่สูงถึงร้อยละ 48

อย่างไรก็ดี ถึงวันนี้เราคงทราบกันดีแล้วว่า ผลของการพยากรณ์ทั้งสองครั้งดังกล่าวนั้น "ไม่แม่นยำเท่าใดนัก" เพราะแชมป์ของการแข่งขันในปี 2010 ได้แก่ประเทศสเปน ในขณะที่แชมป์ของการแข่งขันในปี 2014 กลับตกเป็นของประเทศเยอรมัน นั่นแสดงว่าแบบจำลองที่ใช้พยากรณ์ดังกล่าวยังไม่แม่นยำเท่าที่ควร และยังมีข้อผิดพลาด (Errors) อยู่มาก ในฟุตบอลโลกครั้งที่ก็เช่นกัน นักวิทยาศาสตร์ข้อมูล (Data Scientist) อย่าง Andreas Groll และทีมวิจัยของเขาจาก Technical University of Dortmund ของประเทศเยอรมนี ได้ยกระดับการพยากรณ์ผลฟุตบอลโลกขึ้นอีกขั้นโดยผสมผสานการพยากรณ์ด้วยสถิติแบบดั้งเดิม (Conventional Statistics) ร่วมกับการใช้ Machine Learning ด้วยวิธีการที่ชื่อว่า "Random Forest Approach" ซึ่งเหมาะสมในการนำมาวิเคราะห์ข้อมูลที่มีขนาดใหญ่ (Big Data) และทำการสร้าง "ต้นไม่ตัดสินใจ (Decision Tree) เพื่อพยากรณ์ว่าทีมใดจะมีความน่าจำเป็นที่จะเป็นผู้ชนะในการแข่งขันฟุตบอลโลกในครั้งนี้

ด้วยวิธีการนี้จะมีข้อดีอยู่ตรงที่จะเป็นกระบวนการคำนวณผลลัพธ์แบบสุ่มในหลายๆ ครั้ง ซึ่งผลลัพธ์ที่ได้จะมากจากค่าเฉลี่ยของแต่ละทางเลือกแบบสุ่มของ Decision Tree เหล่านั้น โดยวิธีการนี้มีข้อดีตรงที่การหาปัจจัยที่สำคัญที่สุดที่จะส่งผลต่อผลลัพธ์ของการแข่งขันในแต่ละแมช และขจัดปัจจัยที่จะไม่ส่งผลต่อผลลัพธ์เหล่านั้นออกไปได้ โดยในขั้นตอนแรก นักวิจัยได้เอาปัจจัยที่น่าจะส่งผลต่อการแพ้/ชนะมาคิดหลากหลายปัจจัยไม่ว่าจะเป็นปัจจัยทางเศรษฐกิจ (เช่นรายได้ประชาชาติ จำนวนประชากร), อันดับของแต่ละทีมทั้งจากการจัดอันดับของ FIFA และอันดับจากเวปไซต์พนันออนไลน์อย่าง Bookmakers, รวมไปถึงคุณลักษณะของแต่ละทีม เช่น อายุของผู้เล่น ประสบการณ์แข่งขันของผู้เล่นในระดับ Champion League, อายุและสัญชาติของโค้ช และอื่นๆ โดยหลังจากได้ใส่ตัวแปรเหล่านี้เข้าไปในแบบจำลองและทำการทดลองถึง 100,000 ครั้ง ผลที่ได้พบว่า "อันดับใน FIFA" เป็นปัจจัยที่สำคัญที่สุดต่อการชนะ/แพ้ นอกจากนี้ยังพบว่า รายได้ประชาชาติ (GDP) และจำนวนผู้เล่นในระดับ Champion League ยังเป็นอีกปัจจัยที่ส่งผลต่อการชนะ/แพ้ด้วยเช่นกัน ในขณะที่ยังมีปัจจัยที่ไม่ส่งผลอีกจำนวนหนึ่ง เช่น จำนวนประชากรของประเทศ และสัญชาติของโค้ชในแต่ละทีม เป็นต้น ผลของการพยากรณ์ด้วยวิธี Random Forest Approach นี้ได้เลือกให้ "ทีมชาติสเปน" จะเป็นทีมที่มีโอกาสคว้าแชมป์ในการแข่งขันฟุตบอลโลกครั้งนี้สูงที่สุด ด้วยความน่าจำเป็นที่ร้อยละ 17.8 โดยประเทศที่มีโอกาสเข้าชิงได้แก่ประเทศเยอรมนี (ซึ่งมีโอกาสที่จะเข้ารอบ Quarter Final อยู่ที่ร้อยละ 58) และประเทศสเปน (ซึ่งมีโอกาสที่จะเข้ารอบ Quarter Final อยู่ที่ร้อยละ 73) อย่างไรก็ดี ผลของการพยากรณ์นี้ไม่ได้ฟันธงว่าทีมสเปนจะเก่งกว่าทีมเยอรมัน แต่ที่เลือกให้ทีมสเปนมีโอกาสเป็นแชมป์มากกว่าก็เพราะว่าทีมเยอรมันอยู่ในสายที่แข็งกว่า และมีโอกาสที่จะเข้ารอบน้อยกว่านั่นเอง ในระหว่างที่กำลังเขียนบทความนี้ ตัวผมเองก็ไม่ทราบว่าวิธีการใหม่ที่ใช้ Machine Learning นี้จะมีความแม่นยำเพียงใด เพราะผลการพยากรณ์นี้ไม่สามารถเอาข้อมูลในปัจจัยบันที่ระหว่างทำการแข่งขันจริงๆ รวมถึงยังไม่สามารถนำปัจจัยการเตรียมทีมของแต่ละทีมมาวิเคราะห์ได้ ยกตัวอย่างจากการพยากรณ์ในครั้งที่แล้ว (ปี 2014) ที่ฟันธงให้ประเทศบราซิลน่าจะเป็นแชมป์ แต่ในการแข่งจริงบราซิลกลับแพ้ให้กับทีมเยอรมีถึง 7 ประตูต่อ 1
โดยสาเหตุสำคัญมากการที่ทีมเยอรมนีได้เก็บรวบรวมและนำฐานข้อมูลขนาดใหญ่ (Big Data) มาทำการวิเคราะห์ถึง 2 ปีเพื่อปรับปรุงรูปแบบการเล่น รวมไปถึงการคำนวณหาวิธีการเล่นที่จะชนะคู่แข่งในแต่ละทีม (โดยเฉพาะทีมบราซิล) และด้วยความสามารถในการวิเคราะห์ข้อมูลดังกล่าวทำให้ทีมเยอรมันสามารถทำได้จริง และได้เป็นแชมป์ในปี 2014 ไปในที่สุด ซึ่งผลที่พบนี้สรุปได้ว่า สุดท้าย"ทีมที่มีโอกาสจะชนะฟุตบอลโลกมากที่สุด อาจจะต้องเป็นทีมที่มีความพร้อมในการวิเคราะห์ข้อมูลขนาดใหญ่เหล่านั้นมากที่สุดก่อนก็เป็นได้ และถ้าแบบจำลองยังไม่มีความน่าเชื่อถือพอ ก็คงเป็นหน้าที่ของแฟนบอลอย่างเราที่ต้องเฝ้ารอชมจากหน้าจอต่อไป --------------------------- บทความโดย ศาสตราจารย์ ดร.พิริยะ ผลพิรุฬห์ https://piriya-pholphirul.blogspot.com/2018/06/2018-machine-learning.html

stock2morrow

ศูนย์รวมความรู้เรื่องหุ้น ศูนย์รวมนักลงทุนรายย่อย ที่อยากรู้วิธีการลงทุนในหุ้นอย่างถูกต้องและได้กำไรอย่างยั่งยืน ติดตามเราได้ที่ LINE@stock2morrow, FB:stock2morrow และ www.stock2morrow.com

โปรดอัพเดตเบราว์เซอร์

ธุรกิจ-เศรษฐกิจ

Stock2morrow

stock2morrow

ดูเพิ่มเติม Stock2morrow

ส่องหุ้น SCC ลงรอบนี้เป็นโอกาสหรือความเสี่ยง ?

อวสานของ Trader / โดย ดร.นิเวศน์ เหมวชิรวรากร

DDD vs. BEAUTY ความงามที่แตกต่าง ?