Download dữ liệu

VNESEcorpus.txt

  • Kích thước : 64.59 Mb. 
  • Số lượng câu : khoảng 650.000 câu.
  • Trích xuất từ khoảng 10000 bài báo trên vietnamnet.vn, dantri.com.vn, nhanhdan.com.vn,
  • Dữ liệu không có phân loại theo thể loại.
  • Đã qua xử lý cơ bản như :
    • chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
    • loại bỏ những câu giống nhau.
    • loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download
 

VNTQcorpus(small).txt

  • Kích thước : ~35 Mb. 
  • Số lượng câu : khoảng 300.000 câu.
  • Trích xuất từ khoảng 1.000 bài báo trên vnthuquan.net
  • Dữ liệu không có phân loại theo thể loại, nhưng tập trung vào thể loại văn bản nghệ thuật.
  • Đã qua xử lý cơ bản như :
    • chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
    • loại bỏ những câu giống nhau.
    • loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download


VNTQcorpus(big).txt

  • Kích thước : ~240 Mb. 
  • Số lượng câu : khoảng 1.750.000 câu.
  • Trích xuất từ khoảng 13000 bài báo trên vnthuquan.net
  • Dữ liệu không có phân loại theo thể loại, nhưng tập trung vào thể loại văn bản nghệ thuật.
  • Đã qua xử lý cơ bản như :
    • chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
    • loại bỏ những câu giống nhau.
    • loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download