Penerapan K-Means Clustering dan Vektorisasi TF-IDF untuk Identifikasi dan Pemetaan Topik Publik Tweet Pendidikan UKT, COVID-19, dan Kereta Cepat
Keywords:
text mining, TF-IDF, K-Means clustering, Twitter, isu publikAbstract
Media sosial Twitter menjadi salah satu sumber utama dalam penyampaian opini dan diskusi publik terhadap berbagai isu aktual. Tingginya volume data teks yang dihasilkan membuat analisis secara manual menjadi tidak efisien, sehingga diperlukan pendekatan otomatis berbasis text mining. Penelitian ini bertujuan untuk mengidentifikasi dan memetakan topik isu publik berdasarkan data tweet menggunakan metode Term Frequency–Inverse Document Frequency (TF-IDF) dan algoritma K-Means Clustering. Data yang digunakan berupa tweet berbahasa Indonesia yang berkaitan dengan tiga isu, yaitu Tweet Pendidikan UKT, COVID-19, dan Kereta Cepat. Tahapan penelitian meliputi pengumpulan data, prapemrosesan teks, vektorisasi menggunakan TF-IDF, serta pengelompokan data menggunakan K-Means. Hasil penelitian menunjukkan bahwa metode yang diterapkan mampu mengelompokkan tweet ke dalam beberapa klaster yang merepresentasikan topik pembahasan utama pada masing-masing isu. Pemetaan topik yang dihasilkan memberikan gambaran terstruktur mengenai fokus dan kecenderungan diskusi publik di Twitter. Dengan demikian, penelitian ini dapat menjadi dasar dalam analisis isu publik berbasis media sosial serta mendukung pengambilan keputusan berbasis data.
References
Aggarwal, C. C., & Zhai, C. (2012). Mining text data. Springer. https://link.springer.com/book/10.1007/978-1-4614-3223-4
Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84. https://doi.org/10.1145/2133806.2133826
Feldman, R., & Sanger, J. (2007). The text mining handbook: Advanced approaches in analyzing unstructured data. Cambridge University Press. https://doi.org/10.1017/CBO9780511546914
Han, J., Kamber, M., & Pei, J. (2012). Data mining: Concepts and techniques (3rd ed.). Morgan Kaufmann. https://www.sciencedirect.com/book/9780123814791/data-mining-concepts-and-techniques
Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651–666. https://doi.org/10.1016/j.patrec.2009.09.011
Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data clustering: A review. ACM Computing Surveys, 31(3), 264–323. https://doi.org/10.1145/331499.331504
Kaplan, A. M., & Haenlein, M. (2010). Users of the world, unite! The challenges and opportunities of social media. Business Horizons, 53(1), 59–68. https://doi.org/10.1016/j.bushor.2009.09.003
MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability (pp. 281–297). University of California Press. https://projecteuclid.org/euclid.bsmsp/1200512992
Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval. Cambridge University Press. https://nlp.stanford.edu/IR-book/
Pak, A., & Paroubek, P. (2010). Twitter as a corpus for sentiment analysis and opinion mining. In Proceedings of the 7th International Conference on Language Resources and Evaluation (LREC). https://aclanthology.org/L10-1141/
Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513–523. https://doi.org/10.1016/0306-4573(88)90021-0
Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613–620. https://doi.org/10.1145/361219.361220
Sari, Y. A., dkk. (2019). Analisis clustering dokumen Twitter menggunakan metode K-Means dan TF-IDF. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), 3(2), 275–281. https://doi.org/10.29207/resti.v3i2.945
Adawiyah, R. (2022). Cluster text random opinion tweet using automatic clustering. Jurnal Penelitian Rumpun Ilmu Teknik, 2(1). https://doi.org/10.55606/juprit.v2i1.1194
Mawaddah, N. I., & Aprizkiyandari, S. (2023). Penerapan text mining data tweet menggunakan K-Means clustering. Buletin Ilmiah Matematika, Statistika dan Terapannya (BIMASTER), 13(3). https://doi.org/10.26418/bbimst.v13i3.77706
Darwis, M., Nugroho, A., & Putra, R. (2021). Implementation of TF-IDF algorithm and K-Means clustering to predict topics on Twitter. Jurnal Informatika dan Sains, 6(2). https://www.trilogi.ac.id/journal/ks/index.php/JISA/article/view/831
Alfian, I. (2025). Penerapan metode K-Means dalam pengelompokan bencana alam berbasis text mining. Jurnal Algoritma, 20(1). https://doi.org/10.33364/algoritma/v.20-1.1275
Weiss, S. M., Indurkhya, N., Zhang, T., & Damerau, F. (2010). Text mining: Predictive methods for analyzing unstructured information. Springer. https://link.springer.com/book/10.1007/978-1-4419-5738-8
Hidayatullah, A. F., & Ma’arif, M. R. (2016). Pre-processing tasks in Indonesian text mining. Journal of Information Systems Engineering and Business Intelligence, 2(1), 1–8. https://doi.org/10.20473/jisebi.2.1.1-8
Nugroho, A., & Setiawan, N. A. (2018). Analisis topic modeling pada Twitter menggunakan TF-IDF dan clustering. Jurnal Teknologi Informasi dan Ilmu Komputer, 5(3), 295–302. https://doi.org/10.25126/jtiik.201853770
Adistya, A. P., Luthfyani, N., Tara, P., Adriyan, R., & Rosyani, P. (2023). Klasterisasi menggunakan algoritma K-Means clustering untuk memprediksi kelulusan mata kuliah mahasiswa. OKTAL: Jurnal Ilmu Komputer dan Sains, 2(8), 2301–2306.
Hanifudin, R., Rokhmayati, P., Nugraha, N. P., Alrasyid, M. A., & Rosyani, P. (2023). Literatur review: Pemanfaatan kecerdasan buatan (artificial intelligence) untuk mendeteksi hasil CT scan paru-paru pasien yang terinfeksi COVID-19. Journal of Research and Publication Innovation, 1(2), 297–302.
Rosyani, P., Suhendi, A., Apriyanti, D. H., & Waskita, A. A. (2021). Color features based flower image segmentation using K-Means and fuzzy C-means. Building of Informatics, Technology and Science (BITS), 3(3), 253–259.
Zam-Zam, S., Chandra, D., Andriani, F. N., Afita, I. B., & Rosyani, P. (2021). Perbandingan metode forward chaining dan backward chaining untuk mendiagnosa COVID-19. Scientia Sacra: Jurnal Sains, Teknologi dan Masyarakat, 1(1), 23–26.
Prasetia, O., Machfud, S., Rosyani, P., & Agustian, B. (2025). Klasifikasi gender berbasis citra wajah menggunakan clustering dan deep learning. Bulletin of Computer Science Research, 5(4), 770–777.




