Lấy ra các câu văn từ Web

    Để lấy ra được các câu văn từ Web, điều đầu tiên phải làm là loại bỏ các mã HTML không cần thiết. Có nhiều công cụ để thực hiện thao tác này, nhưng sau khi thử nghiệm, tôi thấy công cụ khử HTML của NLTK là hoạt động hiệu quả và chính xác nhất :
    
    import nltk
    raw = unicode(nltk.clean_html(html),'utf8')

Comments