Việt hoá Mecab

Mecab là 1 công cụ phân tách từ tiếng Nhật rất nổi tiếng và hiệu quả (trên 99% với tiếng Nhật). 
Bản giới thiệu và hướng dẫn bằng tiếng Nhật tại đây http://code.google.com/p/mecab/ . (tôi không tìm thấy bản tiếng Anh).

Ưu điểm tuyệt với của Mecab là tính mềm dẻo và ứng dụng rất cao. Mecab được xây dựng với  phương hướng là tách biệt hoàn toàn chương trình và dữ liệu (từ điển, corpus huấn luyện, các định nghĩa và tham số). Vì thế, chỉ cần thay đổi dữ liệu trong Mecab, ta có thể nhận được những ứng dụng mới một cách hiệu quả. 

Trong phần giới thiệu về Mecab, tác giá Kudo Taku đã đưa ra 1 loạt các ví dụ về những ứng dụng của mecab như : 
-thêm nguyên âm cho tiếng Nhật, ví dụ "nhg" sẽ thêm nguyên âm thành "nihongo" (tiếng Nhật). 
-đổi từ bàn phím 9 số sang chữ. Ví dụ chuỗi "226066" sẽ đổi thành "cam on". (phím 2 tương ứng với abc, phím 6 tương ứng với mno).
...

Từ đặc điểm rất hiệu quả đó của mecab, tôi đang thực hiện việc Việt hoá Mecab bằng cách thay thế các dữ liệu của mecab từ tiếng Nhật sang tiếng Việt. 
Khó khăn hiện tại là sự khan hiếm về dữ liệu, khi mà có rất ít từ điển và corpus huấn luyện được công khai trên mạng. 
Bằng cách sử dụng dữ liệu của các phầm mềm mở cho tiếng Việt, tôi đã lấy được 1 số dữ liệu cần thiết như từ điển (khoảng 30.000 từ), corpus (khoảng 5000 câu đã tách từ - quá ít so với yêu cầu cần thiết). 

Ngoài các ứng dụng tách từ, tôi sẽ tìm hiểu thêm về cách sử dụng mecab để thêm dấu cho tiếng Việt, hay ứng dụng tạo bàn phím gõ tiếng Việt trên điện thoại. 

Tôi sẽ công khai những kiến thức và những bản dịch của mình, hi vọng sẽ giúp được cho những người khác.