Email thông báo tạo tài khoản, nhận bài, duyệt bài có thể vào Spam. Vui lòng kiểm tra Spam mail và Report Not Spam để email của hội thảo vào Inbox lần sau.

27 November 2025
Trường Đại học Ngoại ngữ - Tin học TP.HCM
Asia/Ho_Chi_Minh timezone

Application of AI in Automatically Transliterating Sino - Nôm Script into Vietnamese national script

Not scheduled
20m
Hội trường lầu 6 (Trường Đại học Ngoại ngữ - Tin học TP.HCM)

Hội trường lầu 6

Trường Đại học Ngoại ngữ - Tin học TP.HCM

828 Sư Vạn Hạnh Quận 10 TP.HCM
Tiểu ban 1: Những tiến bộ và thành tựu mới trong lĩnh vực Ngôn ngữ học Tính toán

Description

Automated transliteration of the Sino-Nôm script is a vital task for preserving Vietnamese digital heritage. Current models, however, frequently fail to resolve homograph ambiguity, as they cannot reliably distinguish between Sino and Nôm characters. This core deficiency stems from a prevailing focus on data quantity over model optimization. To overcome this limitation, our novel two-stage framework first employs a fine-tuned BERT model to perform contextual classification, identifying each sentence as either Sino or Nôm. This classification then guides a final Statistical Machine Translation (SMT) model for transliteration, effectively resolving the ambiguity. Our approach yields a 6-point BLEU improvement over baseline systems, confirming a significant increase in transliteration accuracy while maintaining full semantic integrity.

Thông tin các tác giả

1/ Tống Trọng Tâm. Sinh viên, đang học tại Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 69 Tân Lập, Đông Hoà,Dĩ An, Bình Dương(cũ) - Bcon Miền Đông, email: tongtrongtam1909@gmail.com.
2/ Phạm Văn Vinh, đang công tác tại Uỷ Ban Nhân Dân TP.HCM, 127 Trương Định, phường Xuân Hòa, Thành phố Hồ Chí Minh, email: phamvanlinh1985@gmail.com. 3/Lương An Vinh: TS, đang công tác tại Trường Đại học Công Nghệ Sài Gòn, số 180 Cao Lỗ, Phường 4, Quận 8, Hồ Chí Minh, email: anvinhluong@gmail.com

Từ khóa

Sino-Nôm, Transliteration, Classification, BERT, SMT

Authors

Mr Phạm Văn Linh (Đảng ủy Ủy ban Nhân dân Thành phố Hồ Chí Minh) Tống Trọng Tâm (Trường Đại Học Khoa Học Tự Nhiên TP.HCM) Dr Vinh Lương An (Saigon Technology University)

Presentation materials

There are no materials yet.