Implementasi Model T5 untuk Ringkasan Otomatis pada Artikel Teks Berbahasa Indonesia
Keywords:
Ringkasan Otomatis, T5, Abstraktif, NLP, Bahasa IndonesiaAbstract
Peningkatan volume informasi digital menuntut teknologi ringkasan otomatis yang efektif. Penelitian ini mengimplementasikan model Text-to-Text Transfer Transformer (T5) untuk ringkasan otomatis artikel berbahasa Indonesia. Metode meliputi preprocessing, tokenisasi, fine-tuning T5-base pada dataset INDOSUM, dan evaluasi menggunakan metrik ROUGE serta analisis kualitatif. Hasil menunjukkan T5-base mencapai skor tertinggi (ROUGE-1: 0,428; ROUGE-2: 0,245; ROUGE-L: 0,392) dibandingkan baseline BART-base dan TextRank. Ringkasan yang dihasilkan koheren, informatif, dan natural, meski terdapat keterbatasan pada kebutuhan komputasi dan potensi hallucination. Disimpulkan bahwa T5 merupakan pendekatan efektif untuk ringkasan otomatis teks bahasa Indonesia.
References
Cahyawijaya, S., et al. (2021). IndoNLG: Benchmark and Resources for Evaluating Indonesian Natural Language Generation. Proceedings of EMNLP. https://doi.org/10.18653/v1/2021.emnlp-main.699
Fuadi, M., et al. (2023). idT5: Indonesian Version of Multilingual T5 Transformer. arXiv:2302.00856. https://doi.org/10.48550/arXiv.2302.00856
Koto, F., et al. (2021). IndoSum: A New Benchmark for Indonesian Text Summarization. Proceedings of ICON. https://aclanthology.org/2021.icon-main.41
Lewis, M., et al. (2020). BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension. Proceedings of ACL. https://doi.org/10.18653/v1/2020.acl-main.703
Raffel, C., et al. (2020). Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer. Journal of Machine Learning Research, 21(140). https://jmlr.org/papers/v21/20-074.html
Suryani, D., et al. (2022). Fine-tuning Pre-trained Transformer Models for Indonesian News Summarization. Journal of ICT Research and Applications, 16(2). https://doi.org/10.5614/itbj.ict.res.appl.2022.16.2.1
Xue, L., et al. (2021). mT5: A Massively Multilingual Pre-trained Text-to-Text Transformer. Proceedings of NAACL-HLT. https://doi.org/10.18653/v1/2021.naacl-main.41




