Machine Learning trong NLP

Trong những năm gần đây, Máy học (Machine Learning) đang trở thành 1 phần không thể thiếu trong quá trình xử lý ngôn ngữ tự nhiên. 
Từ việc xây dựng các tập qui tắc bằng tay đòi hỏi rất nhiều công sức và thời gian, các nghiên cứu đang hướng đến việc sử dụng cơ sở dữ liệu lớn để tự động (hoặc bán tự động) sinh ra các qui tắc đó. Phương pháp này đã, đang thu được những kết quả vô cùng khả quan trong nhiều lĩnh vực khác nhau của NLP. 

Bài viết này sẽ đưa ra 1 cái nhìn khái quát về khái niệm máy học, các thuật toán máy học được sử dụng nhiều nhất trong NLP, và những hướng phát triển đầy hứa hẹn trong tương lai. 

Các thuật toán máy học sẽ được trình bày dưới dạng ứng dụng trong bài toán phân loại văn bản- một bài toán rất quan trọng và phổ biến trong NLP. 


Phần tiếp theo của bài viết sẽ nói về các thuật toán "gán nhãn chuỗi" (sequential labeling). Những thuật toán này được ứng dụng cụ thể trong các vấn đề như gán nhãn từ loại. Sau khi đọc xong những bài viết dưới đây, tôi sẽ đưa ra ví dụ về việc ứng dụng những thuật toán này để gán nhãn từ loại cho tiếng Việt.