Description
Nhiệm vụ ánh xạ ngữ nghĩa tự động giữa từ điển OALD và WordNet có ý nghĩa quan trọng trong xây dựng tài nguyên từ vựng có cấu trúc phục vụ Xử lý Ngôn ngữ Tự nhiên. Thách thức đặt ra là sự thiếu hụt dữ liệu gán nhãn để huấn luyện mô hình và hạn chế của phương pháp truyền thống khi chỉ dựa vào tương đồng bề mặt định nghĩa, bỏ qua tri thức bổ trợ. Nghiên cứu này đề xuất cách tiếp cận không cần tinh chỉnh mô hình mà dựa trên biểu diễn vector tri thức tổng hợp. Bằng cách nhúng độc lập từng thành phần tri thức (định nghĩa, ví dụ...) rồi tổ hợp trong không gian vector. Kết quả cho thấy phương pháp đạt hiệu quả vượt trội, khẳng định vai trò tích hợp tri thức hệ thống trong điều kiện thiếu dữ liệu.
Thông tin các tác giả
(1) Phan Văn Bá Hải: Sinh viên ngành Công nghệ thông tin, Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, 227 Nguyễn Văn Cừ, Phường Chợ Quán, TP. HCM; số điện thoại: 076.776.7200; e-mail: phanvanbahai@gmail.com
(2) Đỗ Quốc Trí: Sinh viên ngành Công nghệ thông tin,Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, 227 Nguyễn Văn Cừ, Phường Chợ Quán, TP. HCM; số điện thoại: 091.986.2313; e-mail: doquoctri2003@gmail.com
(3) Phan Thị Mỹ Trang: NCS., Trường Đại học Khoa học xã hội và Nhân văn, ĐHQG-HCM, số 10-12 Đinh Tiên Hoàng, Phường Sài Gòn, TP. HCM; ThS., Trường Đại học Công nghệ Sài Gòn, 180 Cao Lỗ, Phường Chánh Hưng, TP. HCM; số điện thoại: 090.305.7986; e-mail: mytrang779@gmail.com
(4) Đinh Điền: PGS. TS., Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM, 227 Nguyễn Văn Cừ, Phường Chợ Quán, TP. HCM; số điện thoại: 090.827.8207; e-mail: ddien@fit.hcmus.edu.vn
Từ khóa
WordNet, OALD, tương đồng ngữ nghĩa, Sentence-BERT, tích hợp tri thức