Implementasi Naive Bayes dalam Klasifikasi Spam pada Email mengunakan Bahasa pemrograman Python.
Keywords:
Naive Bayes,Klasifikasi Spam,Klasifikasi email,Python Programing.Abstract
Klasifikasi spam pada email adalah proses penting dalam analisis data yang bertujuan untuk mengelompokkan data ke dalam kategori-kategori yang telah ditentukan sebelumnya. Metode Naive Bayes telah terbukti efektif dalam klasifikasi data dengan memanfaatkan teorema Bayes. Berdasarkan hasil survey Badan Pusat Statistik bekerjasam dengan APJII, kegiatan pengiriman dan penerimaan email sudah mengalahkan posisi media sosial dengan mencapai 95.75%. Penggunaan email yang sangat intens dapat menimbulkan dampak positif dan negatif. Dalam penelitian ini dilakukan pengolahan data dari email/gmail dengan teks mining lalu menguji dengan beberapa metode klasifikasi data mining diantaranya yaitu Algoritma Naïve Bayes, SVM, Random Forest dan dipadukan dengan Partical Swarm Optimization dalam memprediksi spam email dengan tujuan agar algoritma terpilih merupakan yang paling akurat. Dari hasil pengujian menggunakan dengan mengukur kinerja dari keempat algoritma tersebut menggunakan Confusion Matrix dan ROC , diketahui bahwa algoritma Naïve Bayes dengan Partical Swarm Optimization (PSO) memiliki nilai accuracy paling tinggi, yaitu 81.40 % dan AUC 0,78.
References
Mitchell, T. (199). Machine Learning. McGraw-Hill.
Abu-Mostafa, Y.S., Magdon-Ismail, M., & Lin, H.T. (2012). Learning from Data AMLBook.
Scikit-learn Documentation: https://scikit-learn.org/stable/
Sahami, M., Dumais, S., Heckerman, D., & Horvitz, E. (1998). A Bayesian Approach to Filtering Junk Email. Proceedings of the AAAI Workshop for Text Categorization, 55-62.
McCallum, A., & Nigam, K. (1998). A Comparison of Event Models for Naive Bayes Classification. AAAI/ICML-98 Workshop on Learning for Text Categorization, 41-48.