Khái yếu về corpus

2. Corpus

2.1 khái niệm về Corpus

Corpus là 1 dữ liệu tập hợp các văn bản, ngôn ngữ đã được số hoá. Cách dịch thông thường ở VN là “kho ngữ liệu”. Ví dụ về corpus như “tuyển tập các tác phẩm của Nam Cao”, hay “tuyển tập ca từ của Trịnh Công Sơn”, …

 

  Các corpus là 1 tài nguyên quan trọng trong NLP. Từ các corpus, ta có thể rút ra những dữ liệu quan trọng sau :

1. Từ các corpus, ta có thể chiết suất 1 cách tự động các qui tắc ngữ pháp “văn mạch tự do”.

2. Từ các corpus có thể tính toán được xác suất, tần suất xuất hiện của các từ.

 

Để đảm bảo tính chính xác cho 2 kết luận trên, corpus phải đảm bảo 1 số nguyên tắc nhất định :

1. Tính đại diện : các thành phần trong corpus phải có tính phổ quát, đa dạng và phong phú.

2. Kích thước : kích thước của corpus càng lớn thì càng được đánh giá cao.

 

Dựa vào mục đích, cách xây dựng corpus, người ta chia corpus thành các loại sau :

1. Corpus thô (raw corpus): đơn giản chỉ là tập hợp các dữ liệu mà không có xử lý gì thêm.

2. corpus được gắn nhãn (tagged corpus) : các dữ liệu trong corpus đã được xử lý như phân tích từ, phân tích cú pháp, gắn nhãn từ loại, …

3. Parallel Corpus : được sử dụng nhiều trong ứng dụng máy dịch.

 

Ngoài cách chia trên, ta cũng có thể chia corpus theo cấu tạo của nó.

1. Corpus biệt lập : dữ liệu lấy vào 1 cách ngẫu nhiên, biệt lập và không phân biệt với nhau.

2. Corpus theo danh mục : dựa vào các danh mục để chia dữ liệu trong corpus thành các nhóm.

3. Corpus trùng lặp : các dữ liệu trong corpus có thể ở nhiều nhóm cùng lúc.

4. Corpus theo thời gian : các dữ liệu sắp xếp theo thời gian thu thập và thời gian xuất hiện.

 

2.2 Thống kê trong corpus

Khái niệm về n-gram : là tần suất xuất hiện của n kí tự ( hoặc từ ) liên tiếp nhau có trong dữ liệu của corpus.

 

Với n = 1 và tính trên kí tự, ta có thông tin về tần suất xuất hiện nhiều nhất của các chữ cái. Điều này ứng dụng để làm keyboard : các phím hay xuất hiện nhất sẽ ở những vị trí dễ sử dụng nhất.

 

Với n = 2, ta có khái niệm bigram. Ví dụ với các chữ cái tiếng Anh, ‘th’,’he’,’in’,’an’,’er’ là các cặp kí tự hay xuất hiện nhất. Ngoài ra, ta có thể biết thêm rằng sau kí tự ‘q’ thì phần lớn đều là kí tự ‘u’.

 

Với n = 3, ta có trigram. Nhưng vì n càng lớn thì số trường hợp càng lớn nên thường người ta chỉ sử dụng với n = 1,2 hoặc đôi lúc là 3. Ví dụ với các kí tự tiếng Anh, tiếng Anh sử dụng 26 kí tự, vậy với n = 1 thì số trường hợp là 26, n = 2 thì số trường hợp là 26^2 = 676 trường hợp, n = 3 có 17576 trường hợp.

 

Bigram được sử dụng nhiều trong việc phân tích hình thái (từ, cụm từ, từ loại) cho các ngôn ngữ khó phân tích như tiếng Việt, tiếng Nhật, tiếng Trung, … Dựa vào tần suất xuất hiện cạnh nhau của các từ, người ta sẽ tính cách chia 1 câu thành các từ sao cho tổng bigram là cao nhất có thể. Với thuật giải phân tích hình thái dựa vào trọng số nhỏ nhất, người ta sử dụng n = 1 để xác định tuần suất xuất hiện của các từ và tính trọng số.

 

Để đảm bảo tính thống kê chính xác đòi hỏi các corpus phải lớn và có tính đại diện cao.

 

Comments