Từ điển cảm xúc/ý kiến trong phân tích đánh giá của khách hàng.

Giới thiệu về từ điển:

Từ điển VietSentiLex chủ yếu được xây dựng dựa trên các review khách sạn[1], các từ trong đây được kiểm tra lại bằng tay sau khi tự động trích xuất từ các review trên. Khác với các từ điển khác như VietSentiWordnet và VnEmolex, ngoài 4 nhãn cơ bản gồm: “Strong Positive”, “Positive”, “Negative”, “Strong Negative”, từ điển này có thêm nhãn “Ambiguous”.

Ở đây, các từ được gắn nhãn “Ambiguous” là các từ có phân cực positive hoặc negative dựa trên các từ mà nó diễn giải. Ví dụ như “gần”, gần bãi rác, gần người hút thuốc sẽ là negative nhưng nếu như gần trung tâm, gần khu du lịch, nhà hàng... thì sẽ trở thành positive. Đa số từ có nhãn ambiguous không có phân cực khi nó đứng riêng, mà chỉ có khi nó đứng cùng với các từ mà nó bổ nghĩa. Tuy nhiên, vẫn tồn các cái từ có phân cực mặc định vì đại đa số trường hợp nó sẽ có giá trị đó và chỉ có ít trường hợp nó có giá trị ngược lại. Ví dụ như “đắt”, đại đa số trường hợp sẽ có nghĩa vật gì đó quá mắc, không phù hợp, nhưng một số trường hợp được ghi ra trong tu điển như buôn bán đắt, đắt khách, đắt show, đắt hàng, là các trường hợp đặc biết của từ này.

Bởi vì các từ trong VietSentiLex đã được kiểm tra và hiệu chỉnh lại bằng tay, mặc dù không thể luôn luôn đúng trong mọi trường hợp nhưng đại đa số các trường hợp thông thường sẽ có độ chính xác khá cao. Từ điển này được thử nghiệm trên 3 corpus, một là corpus mà VietSentiLex được xây dựng trên, đạt được giá trị F1 0.95; thứ hai là review khách sạn của Duyên et al.[2], đạt kết quả 0.87. Ngoài ra, review một số sản phẩm trên trên Tiki.vn[3] cũng được thử nghiệm, vì từ điển chủ yếu dựa trên review khách sạn, kết quả đánh giá các sản phẩm khác không cao, kết quả trung bình đánh giá 10 sản phẩm khác nhau là 0.56.

Link download từ điển:

    VietSentiLex [57.9 Mb]


Lưu ý:

  • Việc đánh giá sentiment của các từ Ambiguous đòi hỏi phải có các công cụ phân tích sự liên quan hệ giữa các từ trong câu để tìm xác định các từ bổ nghĩa.
  • Đối với các từ trong nhãn Ambiguous: cột 1 là các từ cảm xúc/ý kiến, các cột tiếp theo là các từ mang ngữ cảnh giúp xác định phân cực chính xác hơn.  

    [1] B. T. Kieu and S. B. Pham, 2010."Sentiment Analysis for Vietnamese," 2010 Second International Conference on Knowledge and Systems Engineering, pp. 152-157.

    [2] N. T. Duyen, N. X. Bach, and T. M. Phuong, 2014.“An empirical study on sentiment analysis for Vietnamese”International Conference on Advanced Technologies for Communications (ATC 2014), pp. 309–314.

    [3] Có thẻ tải từ: https://github.com/quangvh23/tiki-dataset-sentiment-classification


Tác giả:

Võ Huỳnh Quốc Việt - Năm 4 đại học Công nghệ Nagaoka.

Email: viet@jnlp.org


Comments