1. Hướng tới chuẩn tách từ - ISO/TC37/SC4/WG2/WordSeg WG2/WordSeg[1-3] về vấn đề chuẩn hoá tách từ cho các ngôn ngữ trong đó ranh giới giữa các từ không thể xác định rõ ràng chỉ dựa vào hình thức in ấn (như sử dụng dấu cách trong tiếng Anh). 2. Đặc trưng cấu tạo từ tiếng Việt Các phương thức cấu tạo từ tiếng Việt: Từ đơn: Từ có ý nghĩa từ vựng. Từ có ý nghĩa ngữ pháp (từ công cụ). Từ tượng thanh. Từ cảm thán. Từ phức: Từ ghép. - Từ ghép đẳng lập (tổng hợp). - Từ ghép chính phụ. - Từ ghép phụ gia (yếu tố ghép trước hay ghép sau để tạo từ hàng loạt). Từ láy. Dạng lặp. Ngữ cố định: Thành ngữ (cao chạy xa bay, tránh vỏ dưa gặp vỏ dừa…). Quán ngữ (nói tóm lại, đáng chú ý là, mặt khác thì…). Ngoài ra, trong văn bản còn có các thành phần sau: Tên riêng (người, địa danh, tổ chức). Các dạng ngày – tháng – năm. Các dạng số – chữ số – kí hiệu. Dấu câu, dấu ngoặc. Từ tiếng nước ngoài. Chữ viết tắt. 3. Đề xuất nguyên tắc tách từ cho tiếng Việt Nguyên tắc tách từ cho tiếng Việt xét các loại đơn vị từ vựng sau đây: Từ đơn. Từ ghép đẳng lập. Từ ghép chính phụ. Từ ghép phụ gia (kết hợp với yếu tố cấu tạo từ: bất, vô, hoá, phi, viên, v.v.). Từ láy, dạng lặp. Thành ngữ. Quán ngữ. Tên riêng. Ngày – tháng – năm, số – chữ số – kí hiệu. Dấu câu, ngoặc. Từ tiếng nước ngoài. Chữ viết tắt. Tham khảo tài liệu của Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương |