Description
Văn bản Hán Nôm Việt Nam là nguồn tư liệu quan trọng cho nghiên cứu lịch sử và bảo tồn di sản văn hóa. Tuy nhiên, khai thác tự động loại tư liệu này còn hạn chế do đặc trưng ngôn ngữ cổ, ranh giới thực thể không rõ ràng, cách ghi chép thiếu chuẩn hóa và thiếu dữ liệu gán nhãn. Nghiên cứu này tập trung vào bài toán nhận dạng thực thể lịch sử có tên trong văn bản Hán Nôm Việt Nam, lấy Đại Việt sử ký làm ngữ liệu trung tâm.
Về phương pháp, nghiên cứu sử dụng mô hình BERT-CRF, kết hợp biểu diễn ngữ cảnh của mô hình ngôn ngữ tiền huấn luyện với ràng buộc chuỗi nhãn của CRF nhằm cải thiện độ chính xác và tính nhất quán khi gán nhãn. Các nhóm thực thể gồm nhân danh, địa danh, chức tước, niên đại và tên sách/tư liệu. Kết quả thực nghiệm cho thấy mô hình đạt F1-score 81%, cải thiện 6 điểm phần trăm so với baseline 75%, khẳng định hiệu quả của BERT-CRF trong nhận dạng thực thể lịch sử trên văn bản Hán Nôm Việt Nam.
Từ khóa
Hán Nôm; nhận dạng thực thể lịch sử có tên; BERT-CRF; truy xuất tri thức; bảo tồn di sản; ngôn ngữ học tính toán.
Thông tin các tác giả
Lê Thành Công, đang là học viên thạc sĩ Khoa Học Dữ Liệu tại Đại Học Khoa Học Tự Nhiên TP HCM. Email: lethanhconghcmus@gmail.com, Sđt: 0336019129