Chuyên sâu hơn về corpus

Chuyên sâu về Corpus.

Lưu Tuấn Anh

Cùng với từ điển, corpus là những tài nguyên ngôn ngữ vô cùng căn bản và cần thiết cho NLP. Từ điển là tập hợp các tri thức về ngôn ngữ, cách sử dụng và ý nghĩa của từ, thì ngược lại, corpus là dữ liệu về cách sử dụng, cách viết của từ đó trong thực tế.

Corpus có thể chia thành 2 loại chính : corpus hẹp và corpus rộng.

Corpus hẹp là corpus được xây dựng 1 cách cân bằng nhằm phản ánh trung thực tính đa dạng của ngôn ngữ. Ngược lại, corpus rộng là corpus tập hợp rất lớn các văn bản điện tử mà không quan tâm tới sự cân bằng của corpus.

Đối với corpus hẹp, vấn đề lớn nhất là “để đảm bảo tính đại diện và cân bằng của corpus, thì phải lấy những chủng loại ngôn ngữ nào, và tỉ lệ là bao nhiêu”. Không có 1 con số cụ thể và khách quan nào về những tỉ lệ này. Vì sự khó khăn của việc xây dựng corpus hẹp, mà phần lớn corpus hiện nay đều là các corpus rộng.

1.1 Các loại corpus

(đã nói ở những phần trước)

1.2 Cấu trúc của corpus

Như đã trình bày ở trên, có 2 hướng khi thiết kế 1 corpus : 1 là quan tâm và tính toán đến sự cân bằng của corpus, và 1 là tập trung vào số lượng mà không quan tâm đến sự cân bằng. Tuỳ theo 2 hướng xây dựng này mà các corpus sẽ có cấu trúc và quá trình xây dựng khác nhau.

Khi xây dựng các corpus hẹp, thường trải qua các quá trình sau :

1. Tính toán, thiết kế corpus

Đây là quá trình quan trọng nhất quyết định đặc điểm, tính chất của corpus. Trước đó, ta phải kiểm tra những điều sau : (a) mục đích sử dụng corpus, (b) kích thức corpus hay số lượng ngôn ngữ, (c) các chủng loại văn bản được chọn, (d) phương pháp phân tầng, phương pháp tính tỉ suất cấu thành, (e) độ dài các văn bản sẽ lấy, (f) bản quyền tác giả, phương pháp công khai, và nhiều yếu tố khác.

2. Lấy mẫu (sampling)

Từ tập hợp mẫu ta chọn ra lần lượt từng thành phần (là các văn bản). Quá trình này phải tuân theo tỉ suất cấu thành được thiết lập từ bước 1 để xác định độ dài văn bản, số lượng văn bản ở mỗi tầng. Sau khi xác định được các yếu tố này, người ta thường dùng phương pháp chọn ngẫu nhiên các mẫu để xây dựng các tầng.

3. Xây dựng hình thức (Formalization)

Quá trình gắn thêm các tag cần thiết cho các mẫu.

4. Chú thích (annotation)

Bổ xung thêm thông tin về hình thái, phân tách từ, cấu trúc câu …

5. Sửa, bổ xung thêm các văn bản, thông tin liên quan

Các thông tin liên quan như quyền tác giả, giới thiệu, phương pháp, nguồn thông tin, …

1.3 Chú thích (annotation)

Chú thích là quá trình sửa đổi các nội dung gốc (tagging ) hay loại bỏ các nội dung đã thêm vào (tag). Vế thứ 2 có nghĩa là khi ta loại bỏ các chú thích, ta sẽ thu lại được nội dung gốc ban đầu. Nói cách khác, quá trình chú thích không làm mất đi nội dung gốc.

 

Có 2 dạng chú thích chính :

1. Chú thích được ghi cùng nội dung.

2. Chú thích tách biệt khỏi nội dung.

Chúng ta sẽ xem xét ví dụ dưới đây :

“hôm nay trời đẹp.”

Với dạng 1, chú thích ghi cùng nội dung, ta sẽ có :

<N>hôm nay</N> <N>trời</N> <A>đẹp</A>.

   Nằm trong cụm <N> </N> là danh từ, <A> </A> là tính từ.

Có thể thấy, khi ta bỏ các chú thích đi, ta vẫn sẽ nhận lại được câu văn ban đầu.

Với dạng 2, chú thích tách biệt khỏi nội dung, ta sẽ có :

<start=0 end=16><N start=0 end=7><N start=8 end=12><A  start=13 end=16>

Các ví dụ này do tác giả tạo ra nhằm làm rõ hơn về khái niệm chú thích, không phải là dạng chú thích chuẩn được sử dụng trong thực tế.

 

Đối với các chú thích ngữ học, sẽ có nhiều thông tin hơn được đưa vào. Với mỗi dạng corpus (có lẽ) sẽ có 1 dạng tag khác nhau, vì thế nên đọc kĩ các tài liệu liên quan đến corpus để thao tác được chính xác.

1.4 Sử dụng corpus

Corpus được sử dụng trong thống kê ngôn ngữ học, để quan sát và phân tích các hiện tượng ngôn ngữ. Từ khoảng những năm 1990, với sự phát triển vượt bậc của tốc độ máy tính, hàng loạt corpus được làm tự động hay bán tự động đã được ra đời, điều này cũng làm tăng kích thước corpus và độ chính xác của các thống kê.

Ngoài ra, corpus còn có 1 tác dụng vô cùng quan trọng nữa, là làm tài nguyên cho các máy học (machine learning)các hệ chuyên gia, data mining (khai phá dữ liệu) .  

1.5 Triển vọng cho corpus

Cùng với sự phát triển vũ bão của internet, các thông tin, văn bản, ngôn ngữ trên internet cũng tăng lên với cấp số nhân. Nếu lấy những dữ liệu trên Web tạo thành 1 corpus, ta sẽ tạo ra được những corpus với kích thước gấp hàng chục, thậm chí hàng trăm lần những corpus đã biết.

Nhưng các corpus từ dữ liệu Web cũng có những vấn đề riêng :

1. Không phải là corpus cân bằng.

2. Những sai sót như sử dụng sai, sai chính tả … còn nhiều. Ngoài ra không thể không nói đến những nội dung có tính vi phạm pháp luật hoặc vô đạo đức.

3. Không có tính tái hiện khi dữ liệu trên Web là dữ liệu động, có thể bị xoá bất cứ lúc nào.

 

Mặc dù vẫn còn những vấn đề lớn, nhưng sự hấp dẫn từ những corpus khổng lồ quả thực không thể cưỡng lại. Vấn đề 3 có thể giải quyết bằng cách lưu lại những trang web đã lấy dữ liệu, vấn đề 1 và 2, nói cách khác lại phản ánh được sự biến đổi của ngôn ngữ, cũng như cách sử dụng của ngôn ngữ trong thực tế. 

Comments