Chuyên sâu về từ điển

Chuyên sâu về Từ điển

1. Các loại từ điển dùng cho máy tính

Thường chia thành 2 loại :

1. Từ điển lấy cơ sở là hình thức biểu thị của từ.

Vì ứng với mỗi mục đích khác nhau mà cấu tạo của từ điển sẽ khác nhau, nên khi ta cần sử dụng nhiều từ điển 1 lúc sẽ rất bất tiện cho việc tổng hợp thông tin. Để giải quyết vấn đề này, project EAGLES đã tạo nên 1 chuẩn quốc tế (ISO) gọi là LMF (Lexical Markup Framework). Trong chuẩn LMF, những phần trung tâm của từ điển như Lexicon, Lexical Entry, Form, Form Representation, Sense, Definition, … sẽ coi như là các core-package (thành phần cốt lõi). Các thông tin về package, dữ liệu thống kê, thông tin ý nghĩa, … sẽ được coi là phần mở rộng của từ điển.

 

2. Từ điển lấy cơ sở là ý nghĩa mà từ biểu thị.

Những cách gọi khác của từ điển loại này là thesaurus, hoặc ontology. Từ điển loại này lấy ý nghĩa mà từ biểu thị, các mối quan hệ từ-từ làm trung tâm để phân loại các từ. 1 vấn đề lớn với từ điển loại này là làm thế nào để nắm được ý nghĩa và biểu thị được ý nghĩa của từ. Có ít nhất 3 cách xử lý vấn đề này : (1) các lớp ý nghĩa class, (2) tập hợp các từ đồng nghĩa, và (3)khái niệm định danh Concept identifier. Từ điển lớn nhất dạng này có lẽ là WordNet.

 

2. Thesaurus

(đã đăng ở phần trước)

3. Từ điển chuyên môn(Teminology)

Teminology là khái niệm chỉ : (1) những nghiên cứu về từ ngữ chuyên môn, (2) từ chuyên môn và (3)từ điển từ ngữ chuyên môn với các hình thái cụ thể của từ.

 

4. Suy nghĩ về từ điển tiếng Việt dành cho NLP

 (sẽ đăng vào 1 bài viết khác)

 

Comments