Clustering Tweet Publik Menggunakan Metode TF-IDF dan K-Means dengan Modifikasi Preprocessing

Authors

  • Rama Achmad Fadillah University
  • Muhammad Sabiilul Hikam Azzuhrie Universitas Pamulang
  • Rayhan Numa Shaquille Then Universitas Pamulang
  • Rafif Octaviano Hibabullah Universitas Pamulang
  • Perani Rosyani Universitas Pamulang

Keywords:

Text Mining, Clustering, K-Means, TF-IDF, Natural Language Processing, Analisis Twitter, Pemodelan Topik

Abstract

Pertumbuhan platform media sosial, khususnya Twitter, telah menghasilkan data teks tidak terstruktur dalam jumlah besar yang berisi berbagai opini dan topik publik. Analisis manual terhadap data tersebut tidak efisien dan tidak praktis. Penelitian ini mengusulkan pendekatan clustering teks otomatis untuk mengelompokkan tweet ke dalam topik yang bermakna menggunakan TF-IDF (Term Frequency-Inverse Document Frequency) untuk representasi fitur dan algoritma K-Means untuk clustering tidak terawasi. Penelitian menggunakan dataset TweetTopic yang berisi tweet berbahasa Inggris berlabel berbagai topik. Teknik preprocessing yang ditingkatkan termasuk pembersihan data, case folding, tokenisasi, penghapusan stopword, dan stemming diterapkan untuk meningkatkan kualitas teks. Jumlah cluster optimal (K=3) ditentukan menggunakan Metode Elbow dan analisis Silhouette Score, sesuai dengan tiga topik utama: politik, olahraga, dan hiburan. Hasil eksperimen menunjukkan Silhouette Score sebesar 0,64, mengindikasikan pemisahan dan kualitas cluster yang baik. Dibandingkan dengan penelitian baseline menggunakan CountVectorizer dengan preprocessing minimal, pendekatan TF-IDF dengan preprocessing komprehensif menunjukkan peningkatan signifikan dalam koherensi cluster dan interpretabilitas topik. Temuan penelitian memberikan wawasan praktis untuk pemantauan media sosial, analisis isu publik, dan aplikasi text mining.

References

Andi STMIK TIME, Juliandy, C., & STMIK TIME, D. (2022). Clustering Analysis of Tweets About COVID-19 Using the K-Means Algorithm. Sinkron: Jurnal dan Penelitian Teknik Informatika, 8(1). https://doi.org/10.33395/sinkron.v8i1.12145

Astutik, D. K., Indrasetianingsih, A., & Fitriani, F. (2022). Penerapan Text Mining pada Analisis Sentimen Pengguna Twitter Layanan Transportasi Online Menggunakan Metode DBSCAN dan K-Means. J Statistika: Jurnal Ilmiah Teori dan Aplikasi Statistika, 15(1). https://doi.org/10.36456/jstat.vol15.no1.a5983

Br Sembiring, T. A., & Hasibuan, M. S. (2023). Text Clustering in Karo Language Using TF-IDF Weighting and K-Means Clustering. Jurnal Teknik Informatika (JUTIF), 4(5), 1257-1265. https://doi.org/10.52436/1.jutif.2023.4.5.1462

Chen, Z., Mi, C., Duo, S., He, J., & Zhou, Y. (2023). ClusTop: An unsupervised and integrated text clustering and topic extraction framework. arXiv preprint.

Darwis, M., Pranoto, G. T., Wicaksana, Y. E., & Yaddarabullah. (2022). Implementation of TF-IDF Algorithm and K-Means Clustering Method to Predict Words or Topics on Twitter. Jurnal Informatika dan Sains (JISA).

Fani, S. M., Imro’ah, N., & Aprizkiyandari, S. (2021). Penerapan Text Mining Data Tweet Tokopedia Menggunakan K-Means Clustering. BIMASTER: Buletin Ilmiah Matematika, Statistika dan Terapannya. https://doi.org/10.26418/bbimst.v13i3.77706

Kusumaningtyas, K., Habibi, M., Dwijayanti, I., & Sumiyarini, R. (2023). Tweet Analysis of Mental Illness Using K-Means Clustering and Support Vector Machine. Telematika: Jurnal Telematika dan Teknologi Informasi, 20(3), 295-308. https://doi.org/10.31315/telematika.v20i3.9820

Lengari, C. G., & Puspitasari, I. (2024). Identifying Twitter Topics Using K-Means Clustering and Association Rule Mining for Improved Insights. Indonesian Journal of Artificial Intelligence and Data Mining, 8(1), 67-75.

Remawati, D., Wijayanto, H., Utami, Y. R. W., & Raharja, B. D. (2023). Pengelompokkan Film Trending di YouTube Menggunakan TF-IDF dan K-Means Clustering. Jurnal Sistem Informasi Triguna Dharma (JURSI TGD). https://doi.org/10.53513/jursi.v4i1.10614

Santi, & Februariyanti, H. (2023). Implementation of Clustering on Tweet Uploading Side Effects of COVID-19 Post Vaccination Using K-Means Algorithm. Jurnal Teknik Informatika (JUTIF). https://doi.org/10.52436/1.jutif.2023.4.4.704

Surianto, D. F. (2023). Clustering Tweets Data on Twitter Social Media using K-Means Method. Journal of Security, Computer, Information, Embedded, Network, and Intelligence System, 1(2), 44-51. https://doi.org/10.61220/scientist.v1i2.20232

Wang, L., Gao, C., Wei, J., Ma, W., Liu, R., & Vosoughi, S. (2020). An Empirical Survey of Unsupervised Text Representation Methods on Twitter Data. arXiv preprint.

Wiguna, R. A. R., & Rifai, A. I. (2021). Analisis Text Clustering Masyarakat di Twitter Mengenai Omnibus Law Menggunakan Orange Data Mining. Journal of Information Systems and Informatics, 3(1), 1-12. https://doi.org/10.33557/journalisi.v3i1.78

Downloads

Published

2025-12-23

How to Cite

Fadillah, R. A., Hikam Azzuhrie, M. S., Shaquille Then, R. N., Hibabullah, R. O., & Rosyani, P. (2025). Clustering Tweet Publik Menggunakan Metode TF-IDF dan K-Means dengan Modifikasi Preprocessing. AI Dan SPK : Jurnal Artificial Intelligent Dan Sistem Penunjang Keputusan, 3(2), 198–204. Retrieved from https://jurnalmahasiswa.com/index.php/aidanspk/article/view/3336

Most read articles by the same author(s)

1 2 3 > >> 

Similar Articles

<< < 1 2 3 4 5 6 > >> 

You may also start an advanced similarity search for this article.