Klasifikasi Bahasa Menggunakan FastText
Keywords:
Klasifikasi Bahasa, FastText, Pemrosesan Bahasa Alami, Pembelajaran Mesin, Teks MultibahasaAbstract
Perkembangan teknologi pemrosesan bahasa alami (Natural Language Processing/NLP) mendorong meningkatnya kebutuhan akan sistem yang mampu mengidentifikasi bahasa teks secara otomatis. Klasifikasi bahasa menjadi tahap awal yang penting sebelum dilakukan proses lanjutan, seperti penerjemahan otomatis, analisis sentimen, dan klasifikasi dokumen. Penelitian ini bertujuan untuk membangun dan menguji sistem klasifikasi bahasa teks menggunakan algoritma FastText dengan pendekatan supervised learning. Dataset yang digunakan berupa teks multibahasa yang telah diberi label, dengan fokus pada Bahasa Indonesia dan Bahasa Inggris. Tahapan penelitian meliputi praproses data, pelatihan model FastText, pengujian model, serta evaluasi kinerja menggunakan metrik akurasi. Hasil pengujian menunjukkan bahwa model FastText mampu melakukan klasifikasi bahasa teks dengan tingkat akurasi sebesar 50% pada data uji. Meskipun nilai akurasi masih tergolong rendah, hasil penelitian menunjukkan bahwa FastText dapat diimplementasikan secara efektif untuk tugas klasifikasi bahasa. Keterbatasan performa model terutama dipengaruhi oleh jumlah data latih yang terbatas dan variasi data yang kurang beragam. Penelitian ini diharapkan dapat menjadi dasar pengembangan sistem identifikasi bahasa berbasis teks dengan performa yang lebih optimal di masa mendatang.
References
Dewi, B. E. S. (2025). Pengukuran kemiripan kalimat bahasa Indonesia menggunakan representasi word embedding FastText. Jurnal Teknologi Informasi dan Digital, 3(1), 20–29.
Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2016). Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759.
Jurafsky, D., & Martin, J. H. (2023). Speech and language processing (3rd ed.). Stanford University.
Mitchell, T. M. (1997). Machine learning. McGraw-Hill.
Wyawhare, A. (2023). Comparative analysis of multilingual text classification and identification through deep learning and embedding visualization. arXiv preprint arXiv:2312.03789.




