27 November 2026
Trường Đại học Ngoại ngữ - Tin học TP.HCM
Asia/Ho_Chi_Minh timezone

Xây dựng bộ ngữ liệu dóng hàng Hán-Việt theo phương pháp bán tự động cho tài liệu lịch sử

Not scheduled
20m
Hội trường lầu 6 (Trường Đại học Ngoại ngữ - Tin học TP.HCM)

Hội trường lầu 6

Trường Đại học Ngoại ngữ - Tin học TP.HCM

828 Sư Vạn Hạnh Quận 10 TP.HCM

Description

Ngữ liệu dóng hàng câu Hán-Việt là nguồn tài nguyên quan trọng cho nghiên cứu lịch sử, văn hóa, ngôn ngữ cũng như phát triển các ứng dụng xử lý ngôn ngữ tự nhiên với văn bản cổ. Tuy nhiên, hiện nay vẫn thiếu các bộ ngữ liệu dóng hàng Hán-Việt có chất lượng và độ tin cậy cao, phương pháp xây dựng thủ công đòi hỏi nhiều thời gian và nhân lực, trong khi các phương pháp tự động thường tiềm ẩn lỗi và sai lệch ngữ nghĩa. Để giải quyết vấn đề này, chúng tôi đề xuất quy trình xây dựng bộ ngữ liệu dóng hàng chuẩn theo hướng bán tự động, kết hợp các kỹ thuật tiền xử lý, dóng hàng tự động và hiệu đính chuyên gia. Quy trình được áp dụng trên tập tài liệu lịch sử Hán-Việt nhằm tạo ra bộ ngữ liệu dóng hàng có độ tin cậy cao và giảm đáng kể khối lượng hiệu đính thủ công. Bộ ngữ liệu thu được góp phần hình thành nguồn tài nguyên nền tảng cho nghiên cứu và phát triển các ứng dụng xử lý ngôn ngữ tự nhiên đối với văn bản Hán-Việt.

Từ khóa

xử lý ngôn ngữ tự nhiên, xây dựng ngữ liệu, ngữ liệu song ngữ, dóng hàng câu, văn bản lịch sử, Hán-Việt

Thông tin các tác giả

Lưu Hồng Ngọc Quỳnh Như (Trường Đại học Khoa Học Tự Nhiên, ĐHQG TP. HCM)

Author

Nhu Luu Hong Ngoc Quynh (Trường Đại Học Khoa Học Tự Nhiên, ĐHQG, TP.HCM)

Co-authors

Mr Dien Dinh (Trường Đại Học Khoa Học Tự Nhiên, ĐHQG, TP.HCM) Mr Long Nguyen Hong Buu (Trường Đại Học Khoa Học Tự Nhiên, ĐHQG, TP.HCM)

Presentation materials

There are no materials yet.