Clustering Pelanggan Supermarket Menggunakan Algoritma K-Means dan Reduksi Dimensi Principal Component Analysis (PCA)
Keywords:
Segmentasi Pelanggan, Data Mining, K-Means Clustering, Principal Component Analysis (PCA), Analisis Ritel, Machine LearningAbstract
Transformasi digital di industri ritel menghasilkan akumulasi data pelanggan berskala besar yang memerlukan analisis cerdas untuk ekstraksi insight bernilai. Segmentasi tradisional berbasis demografi sering kali tidak memadai untuk menangkap kompleksitas perilaku konsumen modern. Penelitian ini bertujuan mengembangkan model segmentasi pelanggan supermarket yang akurat dan dapat ditindaklanjuti dengan mengintegrasikan teknik reduksi dimensi Principal Component Analysis (PCA) dan algoritma clustering K-Means. Metodologi yang diterapkan mencakup tahapan preprocessing data, reduksi dimensi dengan PCA, determinasi kluster optimal menggunakan pendekatan multi-metrik (Elbow Method, Silhouette Score, Davies-Bouldin Index), pelatihan model K-Means++, serta evaluasi dan interpretasi hasil. Dataset yang digunakan adalah Mall Customer Segmentation Data (200 sampel, 5 fitur). Hasil eksperimen menunjukkan bahwa integrasi PCA dan K-Means berhasil mengidentifikasi lima segmen pelanggan yang berbeda secara signifikan (p-value < 0.001) dengan karakteristik unik: The AffluentYouth (19.5%), The Budget-Conscious Middle-Aged (17.5%), The Moderate-Spending Seniors (11.0%), The High-Spending Low-Income Youth (22.0%), dan The Wealthy Savers (30.0%). Model mencapai Silhouette Score 0.55 dan Davies-Bouldin Index 0.71, menunjukkan kualitas clustering yang baik. Analisis komparatif mengungkap peningkatan kinerja sebesar 14.6% dibandingkan penerapan K-Means tanpa PCA. Temuan ini memberikan dasar berbasis data untuk strategi pemasaran terpersonalisasi, manajemen inventaris, dan pengembangan program loyalitas di supermarket.
References
Aisyah, S., Sembiring, A. C., Sitanggang, D., & Robert. (2023). Dasar-dasar Data Mining: Konsep, Teknik dan Aplikasi. Unpri Press.
Alasali, T., & Ortakci, Y. (2024). Clustering techniques in data mining: A survey of methods, challenges, and applications. Computer Science Review, 52, 100527.
Annas, M., & Wahab, S. N. (2023). Data Mining Methods: K-Means Clustering Algorithms. International Journal of Cyber and IT Service Management, 3(1), 40–47.
Ardhani, N. T., Notodiputro, K. A., & Oktarina, S. D. (2025). Winsorization for outliers in clustering non-cyclical stocks with K-Means and K-Medoids. Indonesian Journal of Statistics and Its Applications, 9(1), 46–60.
Chang, Y. I. (2025). A survey: Potential dimensionality reduction methods. arXiv preprint arXiv:2502.11036.
Fauzi, A., & Yunial, A. H. (2022). Optimasi algoritma klasifikasi Naive Bayes, decision tree, K-nearest neighbor, dan random forest menggunakan algoritma particle swarm optimization pada diabetes dataset. Jurnal Edukasi dan Penelitian Informatika, 8(3), 470.
Haq, I. U., et al. (2024). A comprehensive review of clustering techniques in artificial intelligence for knowledge discovery. Internet of Things and Cyber-Physical Systems, 5, 20–42.
Husna, F., et al. (2022). Implementasi data mining menggunakan algoritma C4.5 pada klasifikasi penjualan hijab. Jurnal Riset Mahasiswa Matematika, 2(2), 40–46.
Lubis, A. H., et al. (2024). Penerapan Data Mining Untuk Prediksi Penjualan Produk Elektronik Terlaris Menggunakan Metode K-Nearest Neighbor. Building of Informatics, Technology and Science, 4(3), 1217–1226.
Rahayu, S., & Purnama, J. J. (2022). Klasifikasi Konsumsi Energi Industri Baja Menggunakan Teknik Data Mining. Jurnal Teknoinfo, 16(2), 395.
Rosyani, P. (2021). Implementation of data mining for customer segmentation in retail industry. Journal of Computer Science and Information Technology, 8(2), 123–135.
Rosyani, P. (2023). Optimasi Model Machine Learning untuk Prediksi Loyalitas Pelanggan di E-commerce. Seminar Nasional Teknologi Informasi dan Komunikasi (SENTIKA), 10, 112–120.
Rosyani, P. (2025). Framework Integrasi PCA dan K-Means untuk Segmentasi Pelanggan Dinamis. Prosiding Konferensi Nasional Artificial Intelligence (KONAI), 78–89.
Rosyani, P., & Santoso, A. (2022). Comparative analysis of clustering algorithms for market segmentation. International Journal of Artificial Intelligence Research, 6(1), 45–58.
Rosyani, P., et al. (2024). Penerapan Deep Learning untuk Analisis Sentimen pada Ulasan Produk Retail. Jurnal Ilmu Komputer dan Sistem Informasi, 5(1), 33–45.
Setyawan, B., et al. (2025). Data Mining: Algoritma dan Penerapannya. PT Sonpedia Publishing Indonesia.
Sharma, N., et al. (2024). A review on data mining issues, solution techniques. International Journal For Multidisciplinary Research, 6(4), 1–9.
Sihombing, J. K., & Wijaya, B. A. (2025). Implementasi Algoritma Clustering dan Classification dalam Data Mining: Systematic Literature Review. Jurnal Publikasi Sistem Informasi dan Manajemen Bisnis, 4(3), 372–386.
Sinaga, K. P., & Yang, M. S. (2020). Unsupervised K-means clustering algorithm. IEEE Access, 8, 80716–80727.
Verma, M., et al. (2024). A principal component analysis assisted machine learning modeling and validation of methanol formation over Cu-based catalysts. Chemical Engineering Journal, 480, 148210.




