Vấn đề thêm dấu tiếng Việt


1. Lý do : 

  Sử dụng tiếng Việt không dấu đang là một thói quen không tốt của nhiều người Việt trên internet. Thói quen này tạo ra nhiều cản trở cho người sử dụng cũng như người nghiên cứu : 
1. Người sử dụng : tiếng Việt không dấu khó đọc, và dễ gây hiểu lầm. 
2. Người sử dụng : hiện tại tất cả những công cụ NLP cho tiếng Việt đều dựa trên tiếng Việt có dấu. Nếu có, thì cũng làm giảm hiệu quả và độ chính xác của chương trình. 

  Vì những lý do như thế, tôi đã bắt tay vào giải quyết bài toán thêm dấu cho tiếng Việt. 

2. Thực trạng : 

  Bài toán thêm dấu cho tiếng Việt đã được đặt ra từ lâu, nhưng những nghiên cứu về bài toán này lại chưa thực sự thu được nhiều thành công. 

  Sau đây tôi xin giới thiệu những nghiên cứu (chương trình) có kết quả tạm chấp nhận được : 
    • Nhóm nghiên cứu : không rõ
    • Kết quả nghiên cứu : đăng tải trên web, không rõ độ chính xác
    • Open Source : không
    • Nhóm nghiên cứu :  giảng viên và sinh viên Học viện Công nghệ Bưu chính Viễn thông (vietmarker@gmail.com).
    • Kết quả nghiên cứu : 93%
    • Open Source : không
  Kết quả của VietMarker là 1 kết quả rất khả quan, lên tới 93%, nhưng đáng tiếc là không có tài liệu nghiên cứu (về hướng tiếp cận, thuật toán, dữ liệu) và không ở dạng open source dù là 1 phần mềm miễn phí. 

3. Mục đích : 

      • Xây dựng 1 chương trình mã nguồn mở, để có thể ghép vào các nghiên cứu khác cho tiếng Việt. 
      • Độ chính xác : mục tiêu là 97% (con số này là độ chính xác của chương trình tách từ tiếng Việt của nhóm VLSP)
4. Phương hướng : 

  Xử lý cùng lúc 2 quá trình thêm dấu và tách từ. Như thế, có thể xử lý những văn bản hỗn hợp giữa có dấu và không dấu, tận dụng được độ chính xác cao từ phương pháp tách từ. 
 
5. Thực hiện : 

  Thay đổi dữ liệu từ điển : 
    • 1 từ trong từ điển sẽ được định nghĩa theo dạng :
    • [từ không dấu|từ có dấu|sai chính tả]+[thông tin từ loại]+[từ viết chuẩn]
    • Ưu điểm : xử lý đồng thời việc thêm dấu, phân tích từ, sửa lỗi chính tả.
    • Nhược điểm : tăng kích thước từ điển, giảm độ chính xác, đòi hỏi dữ liệu huấn luyện lớn. 
Với phương án tiếp cận trên, tôi đã bước đầu xây dựng thành công việc phân tách từ. Dữ liệu sử dụng có trong file đính kèm. 
Kết quả ví dụ : 
    • Input :
    • "trong cái lạnh giá của mùa đông, tình người lại càng ấm áp.
    • trong cai lanh gia cua mua dong, tinh nguoi lai cang am ap.
    • trongcailanhgiacuamuadong,tinhnguoilaicangamap."
    • Output : 
    • Kết quả này không mấy khả quan, nhưng với từ điển 70.000 từ mà dữ liệu huấn luyện chỉ có 200 câu thì kết quả này là có thể đoán trước.
  • Output

    trong V,*,*,tròng
    cái N,*,*,cái
    lạnh giá A,*,*,lạnh giá
    của C,*,*,của
    mùa N,*,*,mùa
    đông N,*,*,đông
    , Y,*,*,*
    tình N,*,*,tình
    người N,*,*,người
    lại R,*,*,lại
    càng R,*,*,càng
    ấm áp A,*,*,ấm áp
    . S,*,*,*
    EOS
    trong cai N,*,*,trống cái
    lanh gia A,*,*,lạnh giá
    cua C,*,*,của
    mua N,*,*,mua
    dong N,*,*,dong
    , Y,*,*,*
    tinh N,*,*,tinh
    nguoi N,*,*,nguội
    lai cang A,*,*,lai căng
    am ap A,*,*,ấm áp
    . S,*,*,*
    EOS
    trong V,*,*,tròng
    cai N,*,*,cai
    lanh V,*,*,lành
    giac N,*,*,giặc
    ua E,*,*,ủa
    mua N,*,*,mua
    dong N,*,*,dong
    , Y,*,*,*
    tinh N,*,*,tinh
    nguoi N,*,*,nguội
    lai R,*,*,lại
    cang R,*,*,càng
    a E,*,*,á
    map A,*,*,mập
    . S,*,*,*
    EOS

6. Tương lai :

  Sử dụng dữ liệu huấn luyện lớn hơn để tăng độ chính xác cho chương trình. 

ċ
TiengVietKhongDau.rar
(1599k)
anh@jnlp.org,
20:46 26 thg 2, 2012
Comments