Hội thảo Quốc gia lần thứ 4 về Ngôn ngữ học Tính toán (VCL2026)

Name: Hội thảo Quốc gia lần thứ 4 về Ngôn ngữ học Tính toán (VCL2026)
Start: 2026-11-27T07:00:00+07:00
End: 2026-11-27T18:00:00+07:00
Location: Trường Đại học Ngoại ngữ - Tin học TP.HCM

27 November 2026

Trường Đại học Ngoại ngữ - Tin học TP.HCM

Asia/Ho_Chi_Minh timezone

Thông tin liên hệ

Nhận dạng thực thể lịch sử có tên trong văn bản Hán Nôm Việt Nam.

Not scheduled

20m

Hội trường lầu 6 (Trường Đại học Ngoại ngữ - Tin học TP.HCM)

Hội trường lầu 6

Trường Đại học Ngoại ngữ - Tin học TP.HCM

828 Sư Vạn Hạnh Quận 10 TP.HCM

Văn bản Hán Nôm Việt Nam là nguồn tư liệu quan trọng cho nghiên cứu lịch sử và bảo tồn di sản văn hóa. Tuy nhiên, khai thác tự động loại tư liệu này còn hạn chế do đặc trưng ngôn ngữ cổ, ranh giới thực thể không rõ ràng, cách ghi chép thiếu chuẩn hóa và thiếu dữ liệu gán nhãn. Nghiên cứu này tập trung vào bài toán nhận dạng thực thể lịch sử có tên trong văn bản Hán Nôm Việt Nam, lấy Đại Việt sử ký làm ngữ liệu trung tâm.

Về phương pháp, nghiên cứu sử dụng mô hình BERT-CRF, kết hợp biểu diễn ngữ cảnh của mô hình ngôn ngữ tiền huấn luyện với ràng buộc chuỗi nhãn của CRF nhằm cải thiện độ chính xác và tính nhất quán khi gán nhãn. Các nhóm thực thể gồm nhân danh, địa danh, chức tước, niên đại và tên sách/tư liệu. Kết quả thực nghiệm cho thấy mô hình đạt F1-score 81%, cải thiện 6 điểm phần trăm so với baseline 75%, khẳng định hiệu quả của BERT-CRF trong nhận dạng thực thể lịch sử trên văn bản Hán Nôm Việt Nam.

Thông tin các tác giả

Lê Thành Công, đang là học viên thạc sĩ Khoa Học Dữ Liệu tại Đại Học Khoa Học Tự Nhiên TP HCM. Email: lethanhconghcmus@gmail.com, Sđt: 0336019129

Từ khóa

Hán Nôm; nhận dạng thực thể lịch sử có tên; BERT-CRF; truy xuất tri thức; bảo tồn di sản; ngôn ngữ học tính toán.

Lê Thành Công

Dien Dinh Ms Hai Minh Nguyen

There are no materials yet.

Email thông báo tạo tài khoản, nhận bài, duyệt bài có thể vào Spam. Vui lòng kiểm tra Spam mail và Report Not Spam để email của hội thảo vào Inbox lần sau.

Hội thảo Quốc gia lần thứ 4 về Ngôn ngữ học Tính toán (VCL2026)

Thông tin liên hệ

Nhận dạng thực thể lịch sử có tên trong văn bản Hán Nôm Việt Nam.

Hội trường lầu 6

Trường Đại học Ngoại ngữ - Tin học TP.HCM

Description

Thông tin các tác giả

Từ khóa

Author

Co-authors

Presentation materials

Email thông báo tạo tài khoản, nhận bài, duyệt bài có thể vào Spam. Vui lòng kiểm tra Spam mail và Report Not Spam để email của hội thảo vào Inbox lần sau.

Choose timezone

Hội thảo Quốc gia lần thứ 4 về Ngôn ngữ học Tính toán (VCL2026)

Thông tin liên hệ

Description

Thông tin các tác giả

Từ khóa

Author

Co-authors

Presentation materials