
เปิดตัวโครงการ “Typhoon Isan” โมเดลถอดเสียงเป็นข้อความภาษาอีสาน เผยเลือกพัฒนาภาษาอีสานเป็นอันดับแรก เพราะไทยมีผู้ใช้งานภาษาอีสานราว 20 ล้านคน คิดเป็น 1 ใน 3 ของประชากรทั้งประเทศ
เอสซีบี เท็นเอกซ์ (SCB 10X) ภายใต้กลุ่มเอสซีบีเอกซ์ (SCBX Group) เปิดตัวโครงการ “Typhoon Isan” โมเดลถอดเสียงเป็นข้อความภาษาอีสานที่สามารถถอดเสียงและสะกดคำอย่างเป็นระบบรายแรก พร้อมทั้งเปิดหลักเกณฑ์การใช้งานและคลังข้อมูลที่จะช่วยยกระดับการพัฒนาเทคโนโลยีภาษาไปอีกขั้น
โมเดลถอดเสียงเป็นตัวอักษร (ASR) ในปัจจุบันยังไม่สามารถรองรับ “ภาษาถิ่น” ได้อย่างมีประสิทธิภาพ โดยเฉพาะภาษาที่มีการเก็บข้อมูลในระบบดิจิทัลน้อยมาก เมื่อผู้ใช้สื่อสารด้วยภาษาถิ่น โมเดล AI จึงไม่สามารถถอดคำพูดหรือสำเนียงของภาษาถิ่นได้อย่างถูกต้อง
จึงเกิดเป็นจุดเริ่มต้นการของพัฒนาโมเดลภาษาถิ่น โดย SCB 10X เลือกพัฒนาภาษาอีสานเป็นอันดับแรก เพราะจากข้อมูลพบว่าประเทศไทยมีผู้ใช้งานภาษาอีสานราว 20 ล้านคน คิดเป็นหนึ่งในสามของประชากรทั้งประเทศ อีกทั้งภาคอีสานสามารถสร้างมูลค่า GDP รวมกว่า 180,000 ล้านบาท หรือประมาณ 10% ของมูลค่าเศรษฐกิจไทย
นอกจากนี้ ยังมีแรงงานที่ใช้ภาษาอีสานทำงานในหลากหลายอุตสาหกรรม และมีวัฒนธรรมที่เป็นเอกลักษณ์ อย่างไรก็ตาม ภาษาอีสานเป็นภาษาพูดที่ยังไม่มีมาตรฐานการเขียนที่ชัดเจน การบันทึกเสียงและคำพูดภาษาอีสานได้อย่างเป็นระบบจึงถือเป็นก้าวสำคัญในการรักษาภูมิปัญญาและวัฒนธรรม อันจะนำไปสู่การช่วยส่งเสริมเศรษฐกิจดิจิทัลของประเทศในระยะยาว
ด้วยความมุ่งมั่นที่ว่า AI ควรเข้าใจเสียงของคนไทยทุกถิ่น ทีมวิจัยและพัฒนาของ SCB 10X จึงได้พัฒนาโครงการ Typhoon Isan ซึ่งเป็นโครงการวิจัยแบบเปิด (Open-Source AI Initiative) ที่มุ่งสร้างและเผยแพร่โมเดล AI เชิงวิจัย (Research-driven) ที่เข้าใจภาษา วัฒนธรรม และเสียงพูดในบริบทของประเทศไทยอย่างแท้จริง
โครงการนี้เกิดจากความร่วมมือระหว่างทีมวิจัยของ SCB 10X กับนักภาษาศาสตร์ ผู้เชี่ยวชาญด้านภาษา ครู นักเรียน และชุมชนท้องถิ่น เพื่อสร้างมาตรฐานใหม่ให้กับภาษาอีสานในโลกดิจิทัล
ภายในงาน “TYPHOON เฮ็ดให้ AI ใจอีสาน” ได้เปิดตัวผลงานวิจัยหลัก ได้แก่ Typhoon Isan ASR (Automatic Speech Recognition) โมเดลโอเพนซอร์สที่สามารถถอดเสียงภาษาอีสานออกมาเป็นข้อความได้อย่างแม่นยำ และเปิดเผยเบื้องหลังพร้อมชุดสาธิตของ Typhoon Isan TTS (Text-to-Speech) โมเดลแปลงข้อความเป็นเสียงพูด ที่สามารถพูดภาษาอีสานได้อย่างเป็นธรรมชาติ พร้อมปล่อยชุดข้อมูลภาษาอีสานแบบเปิดที่วิจัยและจัดเก็บอย่างเป็นระบบ (Open Data) ประกอบด้วย
ดูข้อมูลเพิ่มเติมได้ที่ https://opentyphoon.ai/
รายงานและเรียบเรียง : ชัชชญา อังคุลี
เชื่อมต่อ พูดคุย แลกเปลี่ยนไอเดียกับเราที่นี่ >> efinanceThai-CONNECT