1. Lý do :
Sử dụng tiếng Việt không dấu đang là một thói quen không tốt của nhiều người Việt trên internet. Thói quen này tạo ra nhiều cản trở cho người sử dụng cũng như người nghiên cứu : 1. Người sử dụng : tiếng Việt không dấu khó đọc, và dễ gây hiểu lầm. 2. Người sử dụng : hiện tại tất cả những công cụ NLP cho tiếng Việt đều dựa trên tiếng Việt có dấu. Nếu có, thì cũng làm giảm hiệu quả và độ chính xác của chương trình.
Vì những lý do như thế, tôi đã bắt tay vào giải quyết bài toán thêm dấu cho tiếng Việt. 2. Thực trạng :
Bài toán thêm dấu cho tiếng Việt đã được đặt ra từ lâu, nhưng những nghiên cứu về bài toán này lại chưa thực sự thu được nhiều thành công.
Sau đây tôi xin giới thiệu những nghiên cứu (chương trình) có kết quả tạm chấp nhận được :
- Nhóm nghiên cứu : không rõ
- Kết quả nghiên cứu : đăng tải trên web, không rõ độ chính xác
- Open Source : không
- Nhóm nghiên cứu :
giảng viên và sinh viên Học viện Công nghệ Bưu chính Viễn thông (vietmarker@gmail.com).
- Kết quả nghiên cứu : 93%
- Open Source : không
Kết quả của VietMarker là 1 kết quả rất khả quan, lên tới 93%, nhưng đáng tiếc là không có tài liệu nghiên cứu (về hướng tiếp cận, thuật toán, dữ liệu) và không ở dạng open source dù là 1 phần mềm miễn phí.
3. Mục đích :
- Xây dựng 1 chương trình mã nguồn mở, để có thể ghép vào các nghiên cứu khác cho tiếng Việt.
- Độ chính xác : mục tiêu là 97% (con số này là độ chính xác của chương trình tách từ tiếng Việt của nhóm VLSP)
4. Phương hướng :
Xử lý cùng lúc 2 quá trình thêm dấu và tách từ. Như thế, có thể xử lý những văn bản hỗn hợp giữa có dấu và không dấu, tận dụng được độ chính xác cao từ phương pháp tách từ.
Thay đổi dữ liệu từ điển :
- 1 từ trong từ điển sẽ được định nghĩa theo dạng :
- [từ không dấu|từ có dấu|sai chính tả]+[thông tin từ loại]+[từ viết chuẩn]
- Ưu điểm : xử lý đồng thời việc thêm dấu, phân tích từ, sửa lỗi chính tả.
- Nhược điểm : tăng kích thước từ điển, giảm độ chính xác, đòi hỏi dữ liệu huấn luyện lớn.
Với phương án tiếp cận trên, tôi đã bước đầu xây dựng thành công việc phân tách từ. Dữ liệu sử dụng có trong file đính kèm.
- Input :
- "trong cái lạnh giá của mùa đông, tình người lại càng ấm áp.
- trong cai lanh gia cua mua dong, tinh nguoi lai cang am ap.
- trongcailanhgiacuamuadong,tinhnguoilaicangamap."
- Output :
- Kết quả này không mấy khả quan, nhưng với từ điển 70.000 từ mà dữ liệu huấn luyện chỉ có 200 câu thì kết quả này là có thể đoán trước.
Outputtrong V,*,*,tròng cái N,*,*,cái lạnh giá A,*,*,lạnh giá của C,*,*,của mùa N,*,*,mùa đông N,*,*,đông , Y,*,*,* tình N,*,*,tình người N,*,*,người lại R,*,*,lại càng R,*,*,càng ấm áp A,*,*,ấm áp . S,*,*,* EOS trong cai N,*,*,trống cái lanh gia A,*,*,lạnh giá cua C,*,*,của mua N,*,*,mua dong N,*,*,dong , Y,*,*,* tinh N,*,*,tinh nguoi N,*,*,nguội lai cang A,*,*,lai căng am ap A,*,*,ấm áp . S,*,*,* EOS trong V,*,*,tròng cai N,*,*,cai lanh V,*,*,lành giac N,*,*,giặc ua E,*,*,ủa mua N,*,*,mua dong N,*,*,dong , Y,*,*,* tinh N,*,*,tinh nguoi N,*,*,nguội lai R,*,*,lại cang R,*,*,càng a E,*,*,á map A,*,*,mập . S,*,*,* EOS
6. Tương lai :
Sử dụng dữ liệu huấn luyện lớn hơn để tăng độ chính xác cho chương trình.
|
 Updating...
TiengVietKhongDau.rar (1599k) anh@jnlp.org, 20:46 26 thg 2, 2012
|