Penerapan K-Means Clustering dan Vektorisasi TF-IDF untuk Identifikasi dan Pemetaan Topik Publik Tweet Pendidikan UKT, COVID-19, dan Kereta Cepat

Authors

  • Ferdy Ardiansyah Universitas Pamulang
  • Rafi Mupashal Universitas Pamulang
  • Dion Mauludin Universitas Pamulang
  • M. Rangga Fachriri Universitas Pamulang
  • Perani Rosyani Universitas Pamulang

Keywords:

text mining, TF-IDF, K-Means clustering, Twitter, isu publik

Abstract

Media sosial Twitter menjadi salah satu sumber utama dalam penyampaian opini dan diskusi publik terhadap berbagai isu aktual. Tingginya volume data teks yang dihasilkan membuat analisis secara manual menjadi tidak efisien, sehingga diperlukan pendekatan otomatis berbasis text mining. Penelitian ini bertujuan untuk mengidentifikasi dan memetakan topik isu publik berdasarkan data tweet menggunakan metode Term Frequency–Inverse Document Frequency (TF-IDF) dan algoritma K-Means Clustering. Data yang digunakan berupa tweet berbahasa Indonesia yang berkaitan dengan tiga isu, yaitu Tweet Pendidikan UKT, COVID-19, dan Kereta Cepat. Tahapan penelitian meliputi pengumpulan data, prapemrosesan teks, vektorisasi menggunakan TF-IDF, serta pengelompokan data menggunakan K-Means. Hasil penelitian menunjukkan bahwa metode yang diterapkan mampu mengelompokkan tweet ke dalam beberapa klaster yang merepresentasikan topik pembahasan utama pada masing-masing isu. Pemetaan topik yang dihasilkan memberikan gambaran terstruktur mengenai fokus dan kecenderungan diskusi publik di Twitter. Dengan demikian, penelitian ini dapat menjadi dasar dalam analisis isu publik berbasis media sosial serta mendukung pengambilan keputusan berbasis data.

References

Aggarwal, C. C., & Zhai, C. (2012). Mining text data. Springer. https://link.springer.com/book/10.1007/978-1-4614-3223-4

Blei, D. M. (2012). Probabilistic topic models. Communications of the ACM, 55(4), 77–84. https://doi.org/10.1145/2133806.2133826

Feldman, R., & Sanger, J. (2007). The text mining handbook: Advanced approaches in analyzing unstructured data. Cambridge University Press. https://doi.org/10.1017/CBO9780511546914

Han, J., Kamber, M., & Pei, J. (2012). Data mining: Concepts and techniques (3rd ed.). Morgan Kaufmann. https://www.sciencedirect.com/book/9780123814791/data-mining-concepts-and-techniques

Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651–666. https://doi.org/10.1016/j.patrec.2009.09.011

Jain, A. K., Murty, M. N., & Flynn, P. J. (1999). Data clustering: A review. ACM Computing Surveys, 31(3), 264–323. https://doi.org/10.1145/331499.331504

Kaplan, A. M., & Haenlein, M. (2010). Users of the world, unite! The challenges and opportunities of social media. Business Horizons, 53(1), 59–68. https://doi.org/10.1016/j.bushor.2009.09.003

MacQueen, J. (1967). Some methods for classification and analysis of multivariate observations. In Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability (pp. 281–297). University of California Press. https://projecteuclid.org/euclid.bsmsp/1200512992

Manning, C. D., Raghavan, P., & Schütze, H. (2008). Introduction to information retrieval. Cambridge University Press. https://nlp.stanford.edu/IR-book/

Pak, A., & Paroubek, P. (2010). Twitter as a corpus for sentiment analysis and opinion mining. In Proceedings of the 7th International Conference on Language Resources and Evaluation (LREC). https://aclanthology.org/L10-1141/

Salton, G., & Buckley, C. (1988). Term-weighting approaches in automatic text retrieval. Information Processing & Management, 24(5), 513–523. https://doi.org/10.1016/0306-4573(88)90021-0

Salton, G., Wong, A., & Yang, C. S. (1975). A vector space model for automatic indexing. Communications of the ACM, 18(11), 613–620. https://doi.org/10.1145/361219.361220

Sari, Y. A., dkk. (2019). Analisis clustering dokumen Twitter menggunakan metode K-Means dan TF-IDF. Jurnal RESTI (Rekayasa Sistem dan Teknologi Informasi), 3(2), 275–281. https://doi.org/10.29207/resti.v3i2.945

Adawiyah, R. (2022). Cluster text random opinion tweet using automatic clustering. Jurnal Penelitian Rumpun Ilmu Teknik, 2(1). https://doi.org/10.55606/juprit.v2i1.1194

Mawaddah, N. I., & Aprizkiyandari, S. (2023). Penerapan text mining data tweet menggunakan K-Means clustering. Buletin Ilmiah Matematika, Statistika dan Terapannya (BIMASTER), 13(3). https://doi.org/10.26418/bbimst.v13i3.77706

Darwis, M., Nugroho, A., & Putra, R. (2021). Implementation of TF-IDF algorithm and K-Means clustering to predict topics on Twitter. Jurnal Informatika dan Sains, 6(2). https://www.trilogi.ac.id/journal/ks/index.php/JISA/article/view/831

Alfian, I. (2025). Penerapan metode K-Means dalam pengelompokan bencana alam berbasis text mining. Jurnal Algoritma, 20(1). https://doi.org/10.33364/algoritma/v.20-1.1275

Weiss, S. M., Indurkhya, N., Zhang, T., & Damerau, F. (2010). Text mining: Predictive methods for analyzing unstructured information. Springer. https://link.springer.com/book/10.1007/978-1-4419-5738-8

Hidayatullah, A. F., & Ma’arif, M. R. (2016). Pre-processing tasks in Indonesian text mining. Journal of Information Systems Engineering and Business Intelligence, 2(1), 1–8. https://doi.org/10.20473/jisebi.2.1.1-8

Nugroho, A., & Setiawan, N. A. (2018). Analisis topic modeling pada Twitter menggunakan TF-IDF dan clustering. Jurnal Teknologi Informasi dan Ilmu Komputer, 5(3), 295–302. https://doi.org/10.25126/jtiik.201853770

Adistya, A. P., Luthfyani, N., Tara, P., Adriyan, R., & Rosyani, P. (2023). Klasterisasi menggunakan algoritma K-Means clustering untuk memprediksi kelulusan mata kuliah mahasiswa. OKTAL: Jurnal Ilmu Komputer dan Sains, 2(8), 2301–2306.

Hanifudin, R., Rokhmayati, P., Nugraha, N. P., Alrasyid, M. A., & Rosyani, P. (2023). Literatur review: Pemanfaatan kecerdasan buatan (artificial intelligence) untuk mendeteksi hasil CT scan paru-paru pasien yang terinfeksi COVID-19. Journal of Research and Publication Innovation, 1(2), 297–302.

Rosyani, P., Suhendi, A., Apriyanti, D. H., & Waskita, A. A. (2021). Color features based flower image segmentation using K-Means and fuzzy C-means. Building of Informatics, Technology and Science (BITS), 3(3), 253–259.

Zam-Zam, S., Chandra, D., Andriani, F. N., Afita, I. B., & Rosyani, P. (2021). Perbandingan metode forward chaining dan backward chaining untuk mendiagnosa COVID-19. Scientia Sacra: Jurnal Sains, Teknologi dan Masyarakat, 1(1), 23–26.

Prasetia, O., Machfud, S., Rosyani, P., & Agustian, B. (2025). Klasifikasi gender berbasis citra wajah menggunakan clustering dan deep learning. Bulletin of Computer Science Research, 5(4), 770–777.

Downloads

Published

2025-12-19

How to Cite

Ardiansyah, F., Mupashal, R., Mauludin, D., Fachriri, M. R., & Rosyani, P. (2025). Penerapan K-Means Clustering dan Vektorisasi TF-IDF untuk Identifikasi dan Pemetaan Topik Publik Tweet Pendidikan UKT, COVID-19, dan Kereta Cepat. AI Dan SPK : Jurnal Artificial Intelligent Dan Sistem Penunjang Keputusan, 3(2), 143–150. Retrieved from https://jurnalmahasiswa.com/index.php/aidanspk/article/view/3331

Most read articles by the same author(s)

<< < 1 2 3 

Similar Articles

You may also start an advanced similarity search for this article.