Skripsi/Tugas Akhir
Analisis Perbandingan Performa Normalisasi Data untuk Klasifikasi Dataset Penyakit Menggunakan Metode K-Nearest Neighbor dengan Aplikasi Rapidminer
ABSTRAK
Salah satu algoritma machine learning, yaitu K-Nearest Neighbor (K-NN) menggunakan perhitungan jarak antara titik data. Skala yang tidak seimbang antar fitur dapat mempengaruhi kinerja algoritma ini. Oleh karena itu, penting untuk memastikan semua fitur data memiliki skala yang konsisten. Normalisasi data membantu memitigasi masalah ini. Pada beberapa penelitian sebelumnya dilakukan perbandingan metode normalisasi data menggunakan algoritma klasifikasi K-NN dan mayoritas menghasilkan Min-Max sebagai metode terbaik. Namun, perbandingan dengan MaxAbs belum dilakukan, sehingga belum diketahui apakah MaxAbs jauh lebih baik dari Min-Max. Selain itu, terdapat pula penelitian yang tidak menjelaskan karakteristik datanya, sehingga metode normalisasi data terbaik yang diperoleh tidak dapat dijadikan acuan untuk setiap kondisi dataset. Penelitian ini bertujuan untuk mengetahui performa dari empat metode normalisasi data (MinMax, Z-Score, Decimal Scaling, dan MaxAbs) yang dipadukan dengan algoritma KNN dalam mengklasifikasi tiga dataset penyakit yaitu kanker prostat sebanyak 100 data dengan 9 fitur, ginjal sebanyak 400 data dengan 14 fitur, dan jantung sebanyak 1025 data dengan 14 fitur. Hasil penelitian diharapkan dapat membantu menggeneralisasi metode normalisasi data terbaik untuk karakteristik data tertentu. Sebelum memulai eksperimen, peneliti menganalisis distribusi ketiga dataset dengan Uji Kolmogorov-Smirnov. Hasil penelitian ini menunjukkan bahwa tanpa normalisasi, ketiga dataset menghasilkan akurasi yang rendah yaitu ≤ 65%. Metode Decimal Scaling menghasilkan akurasi tertinggi pada dataset penyakit kanker prostat yaitu 90.00% dan nilai AUC 0.969. Metode Min-Max dan Z-Score menghasilkan akurasi tertinggi pada dataset penyakit ginjal dengan nilai yang sama yaitu 97.50% dan nilai AUC 0.999. Metode MaxAbs juga menghasilkan akurasi yang tinggi pada dataset penyakit ginjal yaitu 96.25% dan nilai AUC 0.997. Pada dataset penyakit jantung, Min-Max dan MaxAbs menghasilkan nilai akurasi sebesar 82.93% dan 81.95% serta nilai AUC sebesar 0.912 dan 0.906. Temuan yang diperoleh berdasarkan hasil penelitian menyimpulkan bahwa Decimal Scaling cenderung cocok untuk jumlah dataset kecil, jumlah fitur yang sedikit, dan data yang berdistribusi normal. Metode Min-Max dan MaxAbs cenderung cocok untuk dataset dengan jumlah data yang besar, fitur yang banyak, dan data yang tidak mengikuti distribusi normal. Metode Z-Score biasanya cenderung cocok untuk dataset dengan jumlah fitur yang relatif besar atau kecil, dan cocok untuk data yang memiliki distribusi normal atau mendekati distribusi normal. Z-Score juga dapat diterapkan pada data yang tidak memiliki distribusi normal, terutama jika data tersebut tidak memiliki outlier yang signifikan dan distribusinya tidak terlalu jauh dari normalitas.
Kata Kunci: Normalisasi Data, Penyakit, Min-Max, Z-Score, Decimal Scaling, MaxAbs, K-Nearest Neighbor
ABSTRACT
One of the machine learning algorithms, K-Nearest Neighbor (K-NN), uses the calculation of distances between data points. An unbalanced scale between features can affect the performance of these algorithms. It is therefore important to ensure all data features have consistent scale. Normalization of the data helps mitigate this problem. In some previous studies a comparison of data normalization methods was performed using K-NN classification algorithms and the majority resulted in Min-Max as the best method. However, comparisons with MaxAbs have not been made, so it is not yet known whether MaxAbs is much better than Min-Max. In addition, there are also studies that do not explain the characteristics of the data, so the best methods of normalizing the data obtained cannot be used as a reference for each condition of the dataset. This study aimed to determine the performance of four data normalization methods (Min-Max, Z-Score, Decimal Scaling, and MaxAbs) combined with K-NN algorithm in classifying three disease datasets, namely prostate cancer of 100 data with 9 features, kidney of 400 data with 14 features, and heart of 1025 data with 14 features. The results of the study are expected to help generalize the best data normalization methods for specific data characteristics. Before starting the experiment, researchers analyzed the distribution of all three datasets with the Kolmogorov-Smirnov Test. The results of this study showed that without normalization, all three datasets yielded a low accuracy of ≤ 65%. The Decimal Scaling method results in the highest accuracy in the prostate cancer dataset of 90.00% and an AUC value of 0.969. The Min-Max and Z-Score methods yielded the highest accuracy in the renal disease dataset with the same value of 97.50% and AUC value of 0.999. The MaxAbs method also resulted in high accuracy in the renal disease dataset of 96.25% and AUC value of 0.997. In the heart disease dataset, Min-Max and MaxAbs yielded accuracy values of 82.93% and 81.95% and AUC values of 0.912 and 0.906. The findings obtained based on the results of the study conclude that Decimal Scaling tends to be suitable for a small number of datasets, a small number of features and normally distributed data. Min-Max and MaxAbs methods tend to be suitable for datasets with large amounts of data, abundant features and data that do not follow a normal distribution. Z-Score methods usually tend to be suitable for datasets with a relatively large or small number of features and are suitable for data that have a normal distribution or are close to normal distribution. Z-Score can also be applied to data that do not have a normal distribution, especially if the data has no significant outliers and the distribution is not too far from normality.
Keywords: Data Normalization, Disease, Min-Max, Z-Score, Decimal Scaling, MaxAbs, K-Nearest Neighbor
Tidak ada salinan data
Universitas DIPA Makassar
NPP 7371142D1000002
Jln. Perintis Kemerdekaan KM.9
Telp. (0411)587194
Hotline: +6281228221994
WhatsApp Admin: +6281342092072
e-Mail: perpustakaan@undipa.ac.id
© 2024 — Perpustakaan UNDIPA Makassar - SLiMS