27 November 2026
Trường Đại học Ngoại ngữ - Tin học TP.HCM
Asia/Ho_Chi_Minh timezone

Nhận dạng thực thể lịch sử có tên trong văn bản Hán Nôm Việt Nam.

Not scheduled
20m
Hội trường lầu 6 (Trường Đại học Ngoại ngữ - Tin học TP.HCM)

Hội trường lầu 6

Trường Đại học Ngoại ngữ - Tin học TP.HCM

828 Sư Vạn Hạnh Quận 10 TP.HCM

Description

Văn bản Hán Nôm Việt Nam là nguồn tư liệu quan trọng cho nghiên cứu lịch sử và bảo tồn di sản văn hóa. Tuy nhiên, khai thác tự động loại tư liệu này còn hạn chế do đặc trưng ngôn ngữ cổ, ranh giới thực thể không rõ ràng, cách ghi chép thiếu chuẩn hóa và thiếu dữ liệu gán nhãn. Nghiên cứu này tập trung vào bài toán nhận dạng thực thể lịch sử có tên trong văn bản Hán Nôm Việt Nam, lấy Đại Việt sử ký làm ngữ liệu trung tâm.

Về phương pháp, nghiên cứu sử dụng mô hình BERT-CRF, kết hợp biểu diễn ngữ cảnh của mô hình ngôn ngữ tiền huấn luyện với ràng buộc chuỗi nhãn của CRF nhằm cải thiện độ chính xác và tính nhất quán khi gán nhãn. Các nhóm thực thể gồm nhân danh, địa danh, chức tước, niên đại và tên sách/tư liệu. Kết quả thực nghiệm cho thấy mô hình đạt F1-score 81%, cải thiện 6 điểm phần trăm so với baseline 75%, khẳng định hiệu quả của BERT-CRF trong nhận dạng thực thể lịch sử trên văn bản Hán Nôm Việt Nam.

Từ khóa

Hán Nôm; nhận dạng thực thể lịch sử có tên; BERT-CRF; truy xuất tri thức; bảo tồn di sản; ngôn ngữ học tính toán.

Thông tin các tác giả

Lê Thành Công, đang là học viên thạc sĩ Khoa Học Dữ Liệu tại Đại Học Khoa Học Tự Nhiên TP HCM. Email: lethanhconghcmus@gmail.com, Sđt: 0336019129

Author

Co-authors

Presentation materials

There are no materials yet.