Phán đoán Web tiếng Việt

    Để phán đoán 1 page có phải page tiếng Việt hay không, tôi đề xuất phương án kiểm tra các kí tự thuần Việt chứa trong page đó. 
    Trong Unicode, có 134 kí tự thuần Việt : 
VietChar = u"ẠẢÃÀÁÂẬẦẤẨẪĂẮẰẶẲẴÓÒỌÕỎÔỘỔỖỒỐƠỜỚỢỞỠÉÈẺẸẼÊẾỀỆỂỄÚÙỤỦŨƯỰỮỬỪỨÍÌỊỈĨÝỲỶỴỸĐạảãàáâậầấẩẫăắằặẳẵóòọõỏôộổỗồốơờớợởỡ
éèẻẹẽêếềệểễúùụủũưựữửừứíìịỉĩýỳỷỵỹđ"
    Tôi liệt kê thêm tất cả các kí tự latin : 
LatinChar = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
    Sau đó đếm tổng số kí tự thuần việt vnCount và tổng số kí tự latin có trong web laCount, nếu vnCount/(vnCount+laCount)>10% thì ta phán đoán page đó là page tiếng Việt.

def countVietChar(st):
    vnCount = 0
    laCount = 0
    for i in range(0,len(st)):
        if VietChar.find(st[i])>-1:
            vnCount+=1
            continue
        if LatinChar.find(st[i])>-1:
            laCount+=1
    if laCount != 0 : 
        return vnCount*100.0/(vnCount+laCount)
    else :
        return 0.0  
Comments