Kế hoạch xây dựng tự động corpus từ nguồn Web

Như tôi đã nói trong các phần trước, corpus và từ điển là 2 tài nguyên vô cùng cần thiết và cơ bản đối với NLP. Để xây dựng nên các hệ thống và ứng dụng tốt, ta rất cần có 1 nguồn tài nguyên phong phú và chất lượng. Ví dụ đối với các NLP về tiếng Nhật, việc có sử dụng hay không có sử dụng WordNet tiếng Nhật, thường tạo ra sự chênh lệch về độ chính xác đến 2 chữ số. So sánh với các NLP về ngôn ngữ khác, Tiếng Việt quả thực rất thiếu những điều này.

Vì thế, trước khi bắt tay vào nghiên cứu và tạo ra các ứng dụng cho tiếng Việt, tôi sẽ thực hiện 1 chương trình về việc tạo ra các corpus tự động từ nguồn Web.

 

Sauk hi tham khảo 1 số nguồn tài liệu về Web corpus, tôi lên kế hoạch cho chương trình của mình như sau :

1. Xây dựng crawler :

là các bot tự động tìm kiếm các website, cách thức hoạt động cũng khá giống như googlebot, MSNbot, Yahoo! Slurp, …

2. Kiểm tra thông tin Encoding

Các thông tin trong charset hoặc sử dụng các hàm có sẵn trong python.

3. Phán đoán Web tiếng Việt :

tôi đề ra phương án là tính xác suất xuất hiện của các chữ cái đặc trưng của tiếng Việt như : â, ư, ơ, ê, đ, … Xác suất là bao nhiêu thì tạm thời tôi chưa xác định được (Nếu có 1 corpus từ trước thì việc này không phải là quá khó – bạn có thể thấy sự cần thiết của các corpus).

4. Lấy ra các câu văn từ Web :

Phân tích HTML, coi các thẻ br, p là các dấu câu. Thẻ pre coi như không chứa văn bản. Phần còn lại sẽ sử dụng dấu câu để tách.

5. Tách ra các câu văn tiếng Việt:

Trong 1 Web tiếng Việt vẫn sẽ có các câu không phải tiếng Việt. Tại đây ta sẽ xác định lại 1 lần nữa. Ngoài ra còn cần thêm 1 bước loại bỏ các câu văn trùng nhau.

6. Tái kiểm tra corpus.

Chọn ngẫu nhiên trong corpus ra 1000 câu văn để người kiểm tra. Ngoài ra sẽ thực hiện thêm 1 số thông kê đơn giản trong corpus.