* Bài dịch từ Google+ của Taku Kudo, đăng ngày 2011/11/27 * Taku Kudo : là người tạo ra MeCab - 1 công cụ nổi tiếng về phân tích từ tiếng Nhật. Độ chính xác lên tới hơn 99%. Anh cũng là thành viên tạo ra ChaSen - 1 công cụ xử lý NLP tiếng Nhật rất nổi tiếng khác. Anh hiện đang làm kĩ sư phần mềm cho Google Japan. Trong 1 lần thảo luận với @zzzelch về sự khác biệt giữa "việc thêm vào các thông tin từ loại" và "điểm dự trắc + chú thích bộ phận" (1), tôi đã nhận được ý kiến : "trong những tác vụ không cần đến thông tin từ loại, thì những thông tin đó hoàn toàn vô ích" (2). Điều này có thực sự đúng không? Kể cả khi ta không sử dụng thông tin từ loại cho các tác vụ đó, thì nó có thực sự là vô ích?. Nói cách khác, liệu có khả năng những thông tin từ loại này được sử dụng 1 cách vô tình, hay dưới 1 hình thức khác ? Trong các công cụ tách từ tiếng Nhật, không hề có 1 ngoại lệ nào, tất cả đều được cấu thành theo dạng "hệ nhãn từ loại"+"từ điển"+"corpus". Việc thiết kế nhãn từ loại, tạo từ điển, tạo corpus đều được tiến hành đồng thời. Đến thời điểm này, không có 1 corpus nào chỉ đơn giản là tách từ (3). Có lẽ lý do là vì việc tạo ra 1 corpus như thế thì rất khó để đảm bảo tính nhất quán trong toàn corpus. @zzzelch đã phản luận lại rằng, việc dạy cho những người thực hiện corpus hiểu về hệ nhãn từ loại là 1 việc rất khó khăn. Nhưng ví dụ với từ "thẻ sinh viên" thì sẽ tách thành 1 từ "thẻ_sinh_viên" hay thành 2 từ "thẻ"+"sinh_viên"(4). Rất khó để phán đoán sự nhập nhằng này. Thực nghiệm về ứng dụng chuyên ngành của Kytea, cũng chỉ đơn giản là 1 mô phỏng sử dụng "corpus đã tách từ" BCCWJ (5). Về BCCWJ, về lý thuyết là được tạo nên từ những người hiểu rất rõ về hệ nhãn từ loại, nhưng thực tế vẫn có rất nhiều sai sót. Khi xác nhận 1 đơn vị từ vựng, ta cần có sự nhất quán về việc lý giải hệ nhãn từ loại, các thông tin từ vựng, gán nhãn từ loại, ... cho những từ nhập nhằng. Với 1 chuyên gia biết tất cả về nhãn từ loại, thì việc này không phải việc khó, nhưng với 1 người thường, thì đó là 1 chuyên không thể. Vì thế, việc tham khảo từ điển, từ loại, hệ nhãn từ loại, ... là 1 việc cần thiết. Thêm vào đó, khi phát hiện ra 1 lỗi về từ loại, ta cũng cần phải sửa lại lỗi đó, cũng như những ghi chú liên quan. Với 1 corpus chỉ tách từ, thì việc sửa lại những lỗi này là rất khó khăn. Giả sử rằng có làm được 1 corpus chỉ tách từ đi nữa, thì với những người nghiên cứu nó có tác dụng gì ? Nó có thể trở thành 1 công cụ cho những người nghiên cứu về học máy. Nhưng nếu không có các thông tin từ loại, thông tin ngôn ngữ đi kèm, thì thực sự nó có tác dụng gì không ? Nếu muốn tạo ra 1 công cụ chỉ để tách từ, thì tôi nghĩ rằng "học máy không giám sát" cũng đủ. (1) người dịch : Điểm dự trắc - Pointwise Prediction - là 1 thuật toán mới được được đề xuất nhằm làm giảm sự vất vả của việc chú thích từ trong corpus, tôi sẽ trình bày cụ thể hơn ở 1 bài viết khác. (2) người dịch : trong công cụ tách từ, nhiệm vụ chính là tách từ, không phải là phán đoán từ loại. Vì thế mà zzzelch cho rằng khi tách từ, thì việc sử dụng các thông tin từ loại trong corpus hoặc từ điển là hoàn toàn vô ích. (3) "corpus chỉ tách từ" là chỉ những corpus gồm các câu đã được tách từ nhưng không có những thông tin từ loại đi kèm. Ví dụ của corpus dạng này là "tôi là 1 học_sinh". (4) Ví dụ do người dịch đưa ra, nhằm đảm bảo đúng ý của tác giả. (5) Kytea là 1 công cụ mới dựa trên thuật toán điểm dự trắc pointwise prediction. BCCWJ là 1 corpus tiếng Nhật khổng lồ. Ý của tác giả là, Kytea đã thực hiện việc học máy dựa trên corpus BCCWJ đã loại bỏ đi các thông tin từ loại. Điều này cho thấy vẫn cần phải có thông tin từ loại khi xây dựng corpus BCCWJ. Kytea có vẻ nhưng không cần thông tin từ loại, nhưng về sâu xa, thì vẫn cần những thông tin này để xây dựng nên BCCWJ, chỉ là ta không nhìn thấy, không sử dụng nó 1 cách trực tiếp thôi. |