Tuesday, January 27, 2009

หุ่นปัญญาประดิษฐ์ติดหล่มภาษาไทย


การพัฒนาหุ่นยนต์เดินสองขาเหมือนมนุษย์หรือฮิวแมนนอยด์ ไม่ใช่เรื่องยากแล้วยุคนี้ หรืออาจไม่สำคัญด้วยซ้ำเมื่อหุ่นยนต์ล้อขับเคลื่อนอิสระเดินทางได้ทุกสภาพพื้นผิวได้ดีกว่า

ที่ยากเย็นแสนสาหัสสำหรับนักพัฒนาหุ่นยนต์ไทยรวมถึงการพัฒนาปัญญาประดิษฐ์ คือ ทำอย่างไรหุ่นยนต์จะฟังคำสั่งภาษาไทยรู้เรื่อง อุปสรรคที่สำคัญไม่ใช่อื่นไกล ก็ภาษาไทยที่เขียนกันเป็นพรืดนี่แหละ แม้แต่สมองกลยังศิโรราบ

ที่ผ่านมานักวิจัยภาษาหุ่นยนต์ต่างคนต่างคิดหากลวิธีทำให้สมองกลเข้าใจภาษาไทย ทำให้มาตรฐานการแบ่งคำ ตัดคำแตกต่างกันไปของใครของมัน และยังทำให้งานวิจัยด้านสมองกลอัจฉริยะของไทยไม่คืบหน้าด้วย

ดร.กฤษณ์โกสวัสดิ์ นักวิจัยหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษาศูนย์เทคโนโลยีอิเล็กทรอนิกส์และคอมพิวเตอร์แห่งชาติ (เนคเทค) ยอมรับสภาพว่า ตอนนี้เราต้องถอยหลังกลับไปเริ่มตั้งแต่การแบ่งคำแบ่งวลี และประโยคในที่สุด

นี่คือที่มาของโครงการการวัดเปรียบเทียบสมรรถนะเพื่อพัฒนามาตรฐานการประมวลผลภาษาไทย(Benchmark for Enhancing the Standard of Thai language porcessing : BEST) ที่เนคเทคประกาศหาสุดยอดโปรแกรมเมอร์มาร่วมแข่งขัน

การแข่งขันเปิดสำหรับ2 ประเภท ได้แก่ นักศึกษาและประชาชนทั่วไป ปีนี้เป็นการแข่งขันครั้งแรก ในหัวข้อ การแบ่งคำไทย มีผู้สนใจเข้าร่วมแข่งทั้งหมด 20 ทีมทั่วประเทศ แบ่งเป็นกลุ่มนักเรียน นิสิต นักศึกษา 12 ทีม และประชาชนทั่วไปอีก 8 ทีม

แต่ละทีมจะได้รับร่างหลักเกณฑ์ที่ผู้เชี่ยวชาญจัดทำขึ้นและฐานข้อมูลคำ 5 ล้านคำ ที่จะเปิดให้ดาวน์โหลดเป็นชุดจำนวน 6 ชุดคำ และต้องพัฒนาโปรแกรมให้สามารถตัดแบ่งข้อความภาษาไทยออกเป็นคำๆ ให้ได้ตามหลักเกณฑ์ที่กำหนดไว้ อาจจะใช้หรือไม่ใช้คลังข้อความที่ได้เตรียมไว้ให้ก็ได้ นอกจากนี้ยังสามารถสรรหาทรัพยากรอื่นๆ มาเพิ่มเติมได้เอง เช่น กฎการสะกดคำไทย รายการคำศัพท์และชนิดของคำจากพจนานุกรม เป็นต้น เพื่อให้ได้ซอฟต์แวร์แบ่งคำภาษาไทยที่ดีที่สุด

เราคาดว่าการแข่งขันในครั้งนี้จะสร้างมาตรฐานที่เป็นที่ยอมรับในวงกว้าง ดร.ชัยวุฒิวิวัฒน์ชัย ผู้อำนวยการหน่วยปฏิบัติการวิจัยวิทยาการมนุษยภาษากล่าว ก่อนเสริมว่า การแข่งขันแบ่งคำไทยนี้ อาจจะมีขึ้นอย่างน้อย 2-3 ครั้ง เพื่อให้มาตรฐานมีความแม่นยำ น่าเชื่อถือ จากนั้นจึงขยับไปสู่ขั้น นิพจน์ระบุนาม

นิพจน์ระบุนามหรือคำเฉพาะที่ระบุสถานที่ ชื่อเฉพาะ เนื่องจากเป็นสิ่งที่ไม่มีในพจนานุกรม และชื่อเฉพาะหรือศัพท์ใหม่เกิดขึ้นมาตลอดเวลา เช่นซานติก้า ที่หลายคนไม่เคยได้ยิน ก็กลายเป็นศัพท์ที่ถูกสืบค้นมากเป็นอันดับ 1 ในช่วงเวลา 1 เดือนที่ผ่านมา และระบบแบ่งคำที่มีอยู่ก็จะไม่สามารถแบ่งได้ เนื่องจากไม่รู้จัก และจะแบ่งรหัสที่ระบุไว้คือ ซา-น-ติ-ก้-า

ความซับซ้อนของภาษาไทยไม่ใช่เป็นปัญหาเดียวในโลกเพราะแต่ละภาษามีความซับซ้อนเฉพาะตัว ไม่ว่าจะเป็นภาษาลาว ที่มีรากฐานของภาษาแบบเดียวกับภาษาไทยนั้น มีการใช้เครื่องหมายคอมมา (,) และฟูลสต็อป (.) เพื่อแบ่งคำและประโยค ในขณะที่พม่าและภูฏาน ก็มีการแบ่งพยางค์ชัดเจน ทำให้การพัฒนาเทคนิคการแบ่งคำทำได้ง่ายกว่า

ไม่เฉพาะแต่ภาษาไทยที่หินภาษาที่ซับซ้อนกว่าก็มีให้เห็น เช่น ภาษาอาหรับ ที่มีทั้งการละบางคำทิ้ง หรือการเปลี่ยนรูปคำไปตามบริบท ทำให้แบ่งคำได้ยาก หรือภาษาเขมรที่มีความกำกวม ไม่มีการแบ่งพยางค์ หรือคำที่แน่นอน แต่ก็มีตัวจบประโยคปรากฏให้เห็น
ตัดให้ดีมีชัยสู่สมองกล

เราพัฒนามาเกิน10 ปีแล้ว แต่ท้ายที่สุดเราก็ต้องกลับมาสู่โครงการเบสต์ มาเริ่มตั้งไข่แบ่งคำใหม่ ซึ่งจากฐานข้อมูลคำที่มีมากขึ้น รวมถึงเทคโนโลยีที่พัฒนาขึ้น จะช่วยให้โครงการวิจัยของเราก้าวหน้า เช่น โปรแกรมแปลภาษา โปรแกรมสืบค้นข้อมูล การสั่งงานด้วยเสียง และการสังเคราะห์เสียง ดร.ชัยกล่าว

โปรแกรมแปลภาษาไทย-อังกฤษและอังกฤษ-ไทย ที่ปัจจุบัน ความแม่นยำอยู่ที่ 60% แปลอังกฤษเป็นไทยได้ แต่ไม่สามารถแปลไทยเป็นอังกฤษได้ เนื่องจากยังตัดคำได้ไม่สมบูรณ์ เช่นเดียวกับโปรแกรมสืบค้นในขณะที่ซอฟต์แวร์การสั่งงานด้วยเสียงก็ไม่สามารถทำงานได้สำเร็จเ หมือนเวอร์ชั่นภาษาญี่ปุ่น จีน และอังกฤษ ที่ปัจจุบันทำได้แล้ว การสังเคราะห์เสียงภาษาไทยยังผิดเพี้ยน ผิดความหมาย

หากเทคโนโลยีที่เป็นพื้นฐานเช่นนี้สำเร็จก็จะทำให้การวิจัยสมองกลอัจฉริยะเดินหน้าไปอย่างรวดเร็ว ดังเช่นเนคเทคที่จะมี 2 เทคโนโลยีใหม่ที่อยู่ระหว่างการพัฒนา คือ อับดุล ที่วิเคราะห์คำได้ดีขึ้น และการสรุปความอัตโนมัติ (Summarization) ทำหน้าที่สรุปใจความสำคัญไม่ว่าจะเป็นอีเมลหรือข่าว แต่มีความยากในระดับสูง เพราะต้องตัดทั้งคำ วลี ประโยคและต้องเข้าใจเนื้อหาทั้งหมดก่อนที่จะสรุป ดร.ชัยกล่าว

นอกเหนือจากองค์ความรู้ใหม่และเทคนิคใหม่ ผู้แข่งขันยังมีส่วนร่วมในการพัฒนามาตรฐานการประมวลผลการแบ่งคำ จากร่างหลักเกณฑ์ที่นำไปใช้ ซึ่งทางผู้จัดจะได้รับรู้ข้อดี ข้อเสีย และหาวิธีการแก้ไข

นอกจากนี้เนคเทคยังมีแผนจะจัดแข่งขันในระดับนานาชาติ โดยใช้ภาษาไทยเป็นโจทย์ เพื่อเปิดโอกาสให้ชาวต่างชาติหรือนักศึกษาไทยในต่างประเทศได้เข้าร่วม โดยตั้งเป้าจัดการแข่งขันขึ้นภายในงาน Symposium on Natural Language Processing (SNLP) ที่จะจัดขึ้นในเดือนตุลาคม 2552 นี้

สาลินีย์ทับพิลา

ที่มา: http://www.komchadluek.net/
Link: http://www.komchadluek.net/2009/01/27/x_it_h001_333738.php?news_id=333738

1 comment:

Cookies said...

เป็นบล็อกให้ข้อมูลเกี่ยวกับเขมรและแปลภาษาเขมรที่ดีจริงๆ