Description
Phát hiện phát ngôn thù ghét là yếu tố then chốt để duy trì môi trường giao tiếp an toàn trên mạng xã hội, đặc biệt trong tiếng Việt với cú pháp phức tạp và nhiều biến thể phi chính thống. Nghiên cứu này đánh giá khả năng của mô hình Mistral 7B Instruct trong phân loại nhị phân (độc hại – không độc hại) trên bộ dữ liệu UIT-ViCTSD. Bằng cách áp dụng tinh chỉnh hiệu quả tham số (PEFT) kết hợp QLoRA, mô hình được huấn luyện với chi phí thấp nhưng vẫn đạt hiệu năng cao. Kết quả cho thấy Mistral 7B đạt độ chính xác 91,5% và điểm F1-macro 75,4%, vượt trội so với các mô hình dựa trên BERT vốn cần tiền xử lý hoặc tăng cường dữ liệu. Ngoài việc nâng cao hiệu quả phân loại, phương pháp còn giảm ảnh hưởng của mất cân bằng nhãn mà không đòi hỏi xử lý thủ công. Nghiên cứu khẳng định tiềm năng ứng dụng LLM trong phát hiện phát ngôn thù ghét tiếng Việt và gợi mở hướng xây dựng hệ thống kiểm duyệt hiệu quả, dễ triển khai và minh bạch.
Thông tin các tác giả
1/LÊ TỶ KHÁNH. TS. Trường Đại học Công Thương TP. Hồ Chí Minh-HUIT; Email: khanhlt@huit.edu.vn
2/NGUYỄN HOÀNG MINH NHẬT ThS. Trường Đại học Văn Hiến TP. Hồ Chí Minh; Email: nhatnhm@vhu.edu.vn
3/LÊ THANH. ThS.NCS. Trường Đại Học Công Nghệ TP. Hồ Chí Minh-HUTECH; Email: lthanh25nct@hutech.edu.vn
Từ khóa
Phát ngôn thù ghét; Mô hình ngôn ngữ lớn; Xử lý ngôn ngữ tự nhiên tiếng Việt; Tinh chỉnh mô hình; LLMs; Hate speech detection; PEFT; QLoRA