Download dữ liệu

VNESEcorpus.txt

 • Kích thước : 64.59 Mb. 
 • Số lượng câu : khoảng 650.000 câu.
 • Trích xuất từ khoảng 10000 bài báo trên vietnamnet.vn, dantri.com.vn, nhanhdan.com.vn,
 • Dữ liệu không có phân loại theo thể loại.
 • Đã qua xử lý cơ bản như :
  • chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
  • loại bỏ những câu giống nhau.
  • loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download
 

VNTQcorpus(small).txt

 • Kích thước : ~35 Mb. 
 • Số lượng câu : khoảng 300.000 câu.
 • Trích xuất từ khoảng 1.000 bài báo trên vnthuquan.net
 • Dữ liệu không có phân loại theo thể loại, nhưng tập trung vào thể loại văn bản nghệ thuật.
 • Đã qua xử lý cơ bản như :
  • chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
  • loại bỏ những câu giống nhau.
  • loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download


VNTQcorpus(big).txt

 • Kích thước : ~240 Mb. 
 • Số lượng câu : khoảng 1.750.000 câu.
 • Trích xuất từ khoảng 13000 bài báo trên vnthuquan.net
 • Dữ liệu không có phân loại theo thể loại, nhưng tập trung vào thể loại văn bản nghệ thuật.
 • Đã qua xử lý cơ bản như :
  • chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
  • loại bỏ những câu giống nhau.
  • loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download