27 November 2026
Trường Đại học Ngoại ngữ - Tin học TP.HCM
Asia/Ho_Chi_Minh timezone

A Survey on Deep Learning Architectures for Sentence Segmentation and Punctuation in Classical Chinese

Not scheduled
20m
Hội trường lầu 6 (Trường Đại học Ngoại ngữ - Tin học TP.HCM)

Hội trường lầu 6

Trường Đại học Ngoại ngữ - Tin học TP.HCM

828 Sư Vạn Hạnh Quận 10 TP.HCM

Description

The automatic punctuation and segmentation of historical texts are fundamental tasks for the digitization and computational analysis of ancient literature. While various natural language processing methods have been proposed, there remains a need for a comprehensive evaluation of their performance on complex historical corpora. This paper presents a survey and comparative study of different punctuation and segmentation methods, specifically evaluated on a dataset comprising multiple historical books. We systematically compare several baseline and advanced models to identify the most effective approaches for historical text processing. Our experimental results demonstrate that adapting domain-specific language models with parameter-efficient finetuning yields superior performance. Notably, our proposed approach—fine-tuning the Siku-BERT model combined with a Convolutional Neural Network (CNN) via the QLoRA technique—achieves the best overall results. Specifically, the model attains an F1-score of 0.7096 for the punctuation task and 0.7895 for the segmentation task. This study not only provides a comprehensive overview of current methodologies but also establishes a highly effective framework for processing large-scale historical datasets.

Từ khóa

sikubert, sentence segmentation, punctuation, classical chinese, qlora

Thông tin các tác giả

1/Huỳnh Thanh Xuân: Học viên thạc sĩ., đang học tập tại Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 227 Nguyễn Văn Cừ, Phường Chợ Quán, TP. Hồ Chí Minh, email: xuanhuynh233@gmail.com
2/Đinh Điền: PGS.TS,. đang công tác tại Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 227 Nguyễn Văn Cừ, Phường Chợ Quán, TP. Hồ Chí Minh, email: ddien@fit.hcmus.edu.vn
3/Nguyễn Hải Minh: TS,. đang công tác tại Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh, 227 Nguyễn Văn Cừ, Phường Chợ Quán, TP. Hồ Chí Minh, email: nhminh@fit.hcmus.edu.vn

Author

Xuân Huỳnh (Trường Đại học Khoa học tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh)

Co-authors

Hai Minh Nguyen Đinh Điền (Trường Đại học Khoa học Tự nhiên, ĐHQG TP.HCM)

Presentation materials

There are no materials yet.