Description
Ngữ liệu dóng hàng câu Hán-Việt là nguồn tài nguyên quan trọng cho nghiên cứu lịch sử, văn hóa, ngôn ngữ cũng như phát triển các ứng dụng xử lý ngôn ngữ tự nhiên với văn bản cổ. Tuy nhiên, hiện nay vẫn thiếu các bộ ngữ liệu dóng hàng Hán-Việt có chất lượng và độ tin cậy cao, phương pháp xây dựng thủ công đòi hỏi nhiều thời gian và nhân lực, trong khi các phương pháp tự động thường tiềm ẩn lỗi và sai lệch ngữ nghĩa. Để giải quyết vấn đề này, chúng tôi đề xuất quy trình xây dựng bộ ngữ liệu dóng hàng chuẩn theo hướng bán tự động, kết hợp các kỹ thuật tiền xử lý, dóng hàng tự động và hiệu đính chuyên gia. Quy trình được áp dụng trên tập tài liệu lịch sử Hán-Việt nhằm tạo ra bộ ngữ liệu dóng hàng có độ tin cậy cao và giảm đáng kể khối lượng hiệu đính thủ công. Bộ ngữ liệu thu được góp phần hình thành nguồn tài nguyên nền tảng cho nghiên cứu và phát triển các ứng dụng xử lý ngôn ngữ tự nhiên đối với văn bản Hán-Việt.
Từ khóa
xử lý ngôn ngữ tự nhiên, xây dựng ngữ liệu, ngữ liệu song ngữ, dóng hàng câu, văn bản lịch sử, Hán-Việt
Thông tin các tác giả
Lưu Hồng Ngọc Quỳnh Như (Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP. HCM)