VNESEcorpus.txt- Kích thước : 64.59 Mb.
- Số lượng câu : khoảng 650.000 câu.
- Trích xuất từ khoảng 10000 bài báo trên vietnamnet.vn, dantri.com.vn, nhanhdan.com.vn,
- Dữ liệu không có phân loại theo thể loại.
- Đã qua xử lý cơ bản như :
- chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
- loại bỏ những câu giống nhau.
- loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download VNTQcorpus(small).txt- Kích thước : ~35 Mb.
- Số lượng câu : khoảng 300.000 câu.
- Trích xuất từ khoảng 1.000 bài báo trên vnthuquan.net
- Dữ liệu không có phân loại theo thể loại, nhưng tập trung vào thể loại văn bản nghệ thuật.
- Đã qua xử lý cơ bản như :
- chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
- loại bỏ những câu giống nhau.
- loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
DownloadVNTQcorpus(big).txt- Kích thước : ~240 Mb.
- Số lượng câu : khoảng 1.750.000 câu.
- Trích xuất từ khoảng 13000 bài báo trên vnthuquan.net
- Dữ liệu không có phân loại theo thể loại, nhưng tập trung vào thể loại văn bản nghệ thuật.
- Đã qua xử lý cơ bản như :
- chỉnh sửa lại những kí tự lỗi khi chuyển từ html sang dạng text.
- loại bỏ những câu giống nhau.
- loại bỏ những câu có thể không phải tiếng Việt. (dựa vào thống kê các kí tự đặc trưng của tiếng Việt như : ả, ạ, á, ã, ...)
Download
|
|