Phân loại văn bản bằng định lý Bayes

Là 1 phương pháp phân loại có giám sát. Dù rất dễ hiểu và dễ cài đặt, nhưng kết quả thu được lại rất tốt, vì thế đây là 1 phương pháp rất quan trọng trong NLP. Ứng dụng đầu tiên trong NLP của máy phân loại này là phân loại văn bản. Gần đây, máy phân loại này còn được ứng dụng thành công vào phần mềm lọc spam tự động.

Lý thuyết về định lý Bayes và máy phân loại Bayes đã được nhắc đến trong phần Định lý Bayes. Bài viết này sẽ nói kĩ và sâu hơn về việc ứng dụng phân loại Bayes cho phân loại văn bản. Cuối cùng sẽ có 1 ví dụ về ứng dụng máy phân loại Bayes trong bộ lọc spam. 

bài toán phân loại văn bản.

Vector đặc trưng x biểu diễn số lần xuất hiện các từ trong văn bản, y là các catalog (nhãn) mà văn bản thuộc về (ví dụ như thể thao, kinh tế, giải trí, …)

Cho 1 tập dữ liệu huấn luyện đã được gán nhãn D={(x(i),y­(i))}với i=1~N.

Ở đây x(i) là vector đặc trưng thứ i trong tập huấn luyện, y­(i) thuộc {1,2,…,C} là các nhãn tương ứng với vector đó. x(i)=( x(i)1,x(i)2,x(i)D) x(i)là số lần xuất hiện của từ thứ d trong từ điển (từ giờ sẽ gắn số thứ tự với từ, nên sẽ gọi là từ d).

Áp dụng công thứ Bayes, ta tính giá trị của p(y|x), nếu giá trị này lớn hơn 1 giá trị t cho trước, ta kết luận nhãn của vector x là y.

Yêu cầu đặt ra là ngăn chặn spam bằng cách phân loại một email gửi đến là spam hay non-spam. Cần đạt được hiệu quả phân loại email thật khả quan. Tuy nhiên cần tuyệt đối tránh lỗi sai cho rằng email non-spam là spam vì có thể gây hậu quả nghiêm trọng hơn là khả năng lọc spam thấp. Do đó yêu cầu đối với hệ thống là phải nhận ra được email spam càng nhiều càng tốt và giảm thiểu lỗi nhận sai email non-spam là email spam.

Bài toán bộ lọc spam

Ý tưởng của phương pháp là tìm cách xây dựng một bộ phân loại nhằm phân loại cho một mẫu mới bằng cách huấn luyện từ những mẫu có sẵn. Ở đây mỗi mẫu mà ta xét đến chính là mỗi một email, tập các lớp mà mỗi email có thể thuộc về là y={spam, non-spam}

Khi ta nhận được 1 email mới gửi đến, khi đó ta dựa vào một số đặc điểm hay thuộc tính nào đó của email để tăng khả năng phân loại chính xác email đó. Các đặc điểm của 1 email như: tiêu đề, nội dung, có tập tin đính kèm hay không… Càng nhiều những thông tin như vậy xác suất phân loại đúng càng lớn, tất nhiên còn phụ thuộc vào kích thước của tập mẫu huấn luyện.

Việc tính toán xác suất sẽ dựa vào công thức Naïve Bayes, từ xác suất thu được ta đem so sánh với một giá trị ngưỡng t nào đó mà ta xem là ngưỡng để phân loại email spam hay non-spam. Nếu lớn hơn t thì email đó là spam, ngược lại là non-spam. Như ta đã biết khi phân loại email có hai lỗi : lỗi nhận 1 email non-spam thành spam và lỗi cho qua một email spam. Loại lỗi thứ nhất nghiêm trọng hơn, vì vậy ta xem mỗi một email non-spam như là λ email non-spam. Như vậy khi lỗi nhận 1 email non-spam thành spam xảy ra ta xem như là λ lỗi, và khi phân loại đúng xem như λ lần thành công. Ngưỡng để phân loại t sẽ phụ thuộc và chỉ số λ này.

CƠ SỞ LÝ THUYẾT

Công thức xác suất có điều kiện
Xác suất điều kiện của biến cố A với điều kiện biến cố B đã xảy ra là một số không âm, ký hiệu là P( A/B ) nó biểu thị khả năng xảy ra biến cố A trong tình huống biến cố B đã xảy ra.
P( A/B ) = (P( AB ))/(P( B ))
Suy ra
P( A/B ) . P( B ) = P( B/A ) . P( A ) = P( AB )

Công thức xác suất đầy đủ 
Giả sử B1, B2, … Bn là 1 nhóm đầy đủ các biến cố. Xét biến cố A sao cho A xảy ra chỉ khi một trong các biến cố B1, B2, … Bn xảy ra. Khi đó :
P(A) = ∑ P(Bi) . P(A/Bi)

Công thức xác suất Bayes 
Từ các công thức ở trên ta có công thức xác suất Bayes :
P(Bk/A) = (P(ABk) )/(P(A) ) = (P(Bk) .P(A/Bk) )/(ΣP(Bi) .P(A/Bi))

Phương pháp phân loại Naïve-Bayesian

Phân loại Bayesian là phương pháp phân loại sử dụng tri thức các xác suất đã qua huấn luyện. Phương pháp này thích hợp với những lớp bài toán đòi hỏi phải dự đoán chính xác lớp của mẫu cần kiểm tra dựa trên những thông tin từ tập huấn luyện ban đầu

Giả thiết mỗi một email được đại diện bởi một vector thuộc tính đặc trưng là x = (x1, x2,…,xn) với x1, x2, …, xn là giá trị của các thuộc tính X1, X2,…,Xn tương ứng trong không gian vector đặc trưng X

Dựa vào công thức xác suất Bayes và công thức xác suất đầy đủ ta có được xác suất 1 email với vector đặc trưng x thuộc về loại c là :
P(C=c | X=x) = (P(C=c) .P(X=x | C=c) )/(∑P(C=k) .P(X=x | C=k)) 
với C là email được xét , c € {spam, non-spam}

Xác suất P(C=c) được tính dễ dàng từ tập huấn luyện. Thực tế rất khó để tính được xác suất P(X=x | C=c) . Giả thiết rằng tất cả các biến cố X1, X2…Xn là độc lập với nhau do đó chúng ta có thể tính được xác suất P(X=x | C=c) dựa theo công thức:
P(X=x | C=c) = ∏ P(Xi=xi | C=c)

Như vậy công thức tính xác suất 1 email là spam sẽ được viết thành :
P(C=c | X=x) = (P(C=c) . ∏ P(Xi=xi | C=c) )/(∑ P(C=k) .∏ P(Xi=xi | C=k))

Từ xác suất này ta so sánh với một giá trị ngưỡng t là ngưỡng để phân loại email là spam hay không, nếu xác suất này lớn hơn t, ta cho email đó là spam, ngược lại email đó là non-spam

Trong phân loại email có 2 loại sai lầm, một là sai lầm nhận 1 email spam thành non-spam và sai lầm thứ 2 là nhận 1 email non-spam thành spam. Rõ ràng sai lầm thứ 2 là nghiêm trọng hơn vì người dùng có thể chấp nhận một email spam vượt qua bộ lọc nhưng không thể chấp nhận một email hợp lệ quan trọng lại bị bộ lọc chặn lại.

Giả sử ta gọi S->N và N->S tương ứng với 2 loại lỗi ở trên. Để hạn chế loại lỗi thứ 2 ta giả sử rằng lỗi N->S có chi phí gấp λ lỗi S->N nghĩa là ta phân loại 1 email là spam dựa theo :
(P(C=spam | X=x) )/(P(C=non-spam | X=x)) > λ

Mặt khác
P(C=spam | X=x) = 1 – P(C=non-spam | X=x) và P(C=spam | X=x) > t
Như vậy ta giá trị ngưỡng t phụ thuộc vào λ, cụ thể :
t = λ / (λ + 1)

PHƯƠNG PHÁP THỰC HIỆN

Để đánh giá 1 email ta phải chuyển mỗi một email sang một vector x = (x1,x2,…xn) với x1,x2,..xn là giá trị các thuộc tính X1,X2…Xn trong không gian vector đặc trưng X. Mỗi thuộc tính được thể hiện bởi một token đơn. Theo phương pháp đơn giản nhất ta có thể lập ra một từ điển chứa các token. Sau đó với mỗi token trong email nếu nó xuất hiện trong từ điển thì giá trị thuộc tính sẽ là 1, ngược lại thì là 0. Tuy nhiên trên thực tế, tập huấn luyện của ta không thường là một bộ từ điển như vậy. Thay vào đó tập huấn luyện lúc này sẽ gồm có 2 kho ngữ liệu. Kho ngữ liệu Spam sẽ chứa một list các email đã được xác định là spam trước đó, và tương tự với kho ngữ liệu Non-spam sẽ chứa các email hợp lệ.

Như vậy nếu ta vẫn để giá trị các thuộc tính là 0 hoặc 1 thì sẽ rất khó đánh giá được 1 email là spam hay không. Đặc biệt nếu email nhận được là dài, khi đó nếu ta vẫn sử dụng giá trị thuộc tính là 0 hoặc 1 thì sự xuất hiện của 1 token 100 lần cũng tương đương với việc xuất hiện chỉ 1 lần.

Để khắc phục vấn đề này giá trị thuộc tính bây giờ ta sẽ thay bằng xác suất spam của token đó. Xác suất này tương đương với xác suất spam của 1 email chỉ chứa token đó và là email spam. Việc tính xác suất này thì có nhiều phương pháp. Ta có thể tính dựa trên số lần xuất hiện của token này trong mỗi kho ngữ liệu học ban đầu. Ví dụ một token w có số lần xuất hiện trong kho ngữ liệu spam là s và non-spam là n, số email tổng cộng ở kho spam và non-spam tương ứng là Ns và Nn thì xác suất spam của token w này sẽ là :
P(X=w | C=spam) = (s/Ns)/(s/Ns+n/Nn)

Tuy nhiên nhược điểm của phương pháp này khả năng spam của một token xuất hiện 100 lần ở 100 email khác nhau là bằng với khả năng spam của một token xuất hiện 100 lần chỉ ở trong 1 email.

Thay vào việc tính xác suất này dựa theo số lần xuất hiện của token trong từng kho ngữ liệu ta có thể dựa vào số email chứa token trong từng kho ngữ liệu. Ví dụ một token w có số email chứa nó trong kho ngữ liệu spam và non-spam là ns và nn thì xác suất spam của token w này sẽ là :
P(X=w | C=spam) = (s/Ns)/(ns/Ns+nn/Nn)

Nhược điểm của phương pháp này là khả năng spam của một token xuất hiện 1 lần trong 1 email là bằng với khả năng spam của một token xuất hiện 100 lần trong 1 email.

Vì vậy chúng ta sử dụng cách thứ ba là tổng hợp của hai cách trên :
P(X=w | C=spam) = ((s*ns)/Ns)/((ns*s)/Ns+(nn*n)/Nn))

Còn đối với các token chỉ xuất hiện trong kho ngữ liệu này mà không xuất hiện trong kho ngữ liệu kia thì không thể kết luận một token chỉ xuât hiện ở kho ngữ liệu spam thì không bao giờ xuất hiện trong kho ngữ liệu non-spam và ngược lại. Cách thích hợp thì ta sẽ gán cho chúng một giá trị phù hợp. Với những token chỉ xuất hiện trong kho ngữ liệu spam thì ta gán xác suất spam cho nó là giá trị N gần với 1 ( chẳng hạn 0,9999) và ngược lại thì gán xác suất spam là giá trị M gần với 0 ( chẳng hạn 0,0001).

Như vậy ta có công thức tính xác suất spam của token dựa trên số lần xuất hiện và số email chứa nó là :
P = Max ( M, Min ( N, ((ns*s)/Ns)/((ns*s)/Ns+(nn*n)/Nn) ) )

ns : số email chứa token trong kho spam
nn : số email chứa token trong kho non-spam
s : số lần token xuất hiện trong kho spam
n : số lần token xuất hiện trong kho non-spam
Ns : tổng số email trong kho spam
Nn : tổng số email trong kho non-spam

================

Như thế, các bạn đã nắm được những khái niệm cơ bản nhất về định lý Bayes và bộ lọc Bayes. Tiếp theo, tôi xin giới thiệu 1 phần mềm mã nguồn mở sử dụng bộ lọc spam bằng máy phân loại Bayes. Các bạn có thể  tải về. Các tài liệu hướng dẫn có sẵn bên trong. Dù thuật toán rất đơn giản, nhưng với bộ test của chương trình, độ chính xác vẫn lên đến 96%. 

Comments