Description
Automated transliteration of the Sino-Nôm script is a vital task for preserving Vietnamese digital heritage. Current models, however, frequently fail to resolve homograph ambiguity, as they cannot reliably distinguish between Sino and Nôm characters. This core deficiency stems from a prevailing focus on data quantity over model optimization. To overcome this limitation, our novel two-stage framework first employs a fine-tuned BERT model to perform contextual classification, identifying each sentence as either Sino or Nôm. This classification then guides a final Statistical Machine Translation (SMT) model for transliteration, effectively resolving the ambiguity. Our approach yields a 6-point BLEU improvement over baseline systems, confirming a significant increase in transliteration accuracy while maintaining full semantic integrity.
Thông tin các tác giả
1/ Tống Trọng Tâm. Sinh viên, đang học tại Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 69 Tân Lập, Đông Hoà,Dĩ An, Bình Dương(cũ) - Bcon Miền Đông, email: tongtrongtam1909@gmail.com.
2/ Phạm Văn Vinh, đang công tác tại Uỷ Ban Nhân Dân TP.HCM, 127 Trương Định, phường Xuân Hòa, Thành phố Hồ Chí Minh, email: phamvanlinh1985@gmail.com. 3/Lương An Vinh: TS, đang công tác tại Trường Đại học Công Nghệ Sài Gòn, số 180 Cao Lỗ, Phường 4, Quận 8, Hồ Chí Minh, email: anvinhluong@gmail.com
Từ khóa
Sino-Nôm, Transliteration, Classification, BERT, SMT