OPAC (Online Public Access Catalog)

Pencarian berdasarkan :

SEMUA Pengarang Subjek ISBN/ISSN Pencarian Spesifik

Pencarian terakhir:

Image of Analisis Perbandingan Performa Normalisasi Data untuk Klasifikasi Dataset Penyakit Menggunakan Metode K-Nearest Neighbor dengan Aplikasi Rapidminer

Skripsi/Tugas Akhir

Analisis Perbandingan Performa Normalisasi Data untuk Klasifikasi Dataset Penyakit Menggunakan Metode K-Nearest Neighbor dengan Aplikasi Rapidminer

Allorerung, Petronilia Palinggik - Penulis; Muhammad Bagussahrir - Penulis;

Rating Anda tentang Buku/Tulisan ini!

5

dari 5

ABSTRAK
Salah satu algoritma machine learning, yaitu K-Nearest Neighbor (K-NN) menggunakan perhitungan jarak antara titik data. Skala yang tidak seimbang antar fitur dapat mempengaruhi kinerja algoritma ini. Oleh karena itu, penting untuk memastikan semua fitur data memiliki skala yang konsisten. Normalisasi data membantu memitigasi masalah ini. Pada beberapa penelitian sebelumnya dilakukan perbandingan metode normalisasi data menggunakan algoritma klasifikasi K-NN dan mayoritas menghasilkan Min-Max sebagai metode terbaik. Namun, perbandingan dengan MaxAbs belum dilakukan, sehingga belum diketahui apakah MaxAbs jauh lebih baik dari Min-Max. Selain itu, terdapat pula penelitian yang tidak menjelaskan karakteristik datanya, sehingga metode normalisasi data terbaik yang diperoleh tidak dapat dijadikan acuan untuk setiap kondisi dataset. Penelitian ini bertujuan untuk mengetahui performa dari empat metode normalisasi data (MinMax, Z-Score, Decimal Scaling, dan MaxAbs) yang dipadukan dengan algoritma KNN dalam mengklasifikasi tiga dataset penyakit yaitu kanker prostat sebanyak 100 data dengan 9 fitur, ginjal sebanyak 400 data dengan 14 fitur, dan jantung sebanyak 1025 data dengan 14 fitur. Hasil penelitian diharapkan dapat membantu menggeneralisasi metode normalisasi data terbaik untuk karakteristik data tertentu. Sebelum memulai eksperimen, peneliti menganalisis distribusi ketiga dataset dengan Uji Kolmogorov-Smirnov. Hasil penelitian ini menunjukkan bahwa tanpa normalisasi, ketiga dataset menghasilkan akurasi yang rendah yaitu ≤ 65%. Metode Decimal Scaling menghasilkan akurasi tertinggi pada dataset penyakit kanker prostat yaitu 90.00% dan nilai AUC 0.969. Metode Min-Max dan Z-Score menghasilkan akurasi tertinggi pada dataset penyakit ginjal dengan nilai yang sama yaitu 97.50% dan nilai AUC 0.999. Metode MaxAbs juga menghasilkan akurasi yang tinggi pada dataset penyakit ginjal yaitu 96.25% dan nilai AUC 0.997. Pada dataset penyakit jantung, Min-Max dan MaxAbs menghasilkan nilai akurasi sebesar 82.93% dan 81.95% serta nilai AUC sebesar 0.912 dan 0.906. Temuan yang diperoleh berdasarkan hasil penelitian menyimpulkan bahwa Decimal Scaling cenderung cocok untuk jumlah dataset kecil, jumlah fitur yang sedikit, dan data yang berdistribusi normal. Metode Min-Max dan MaxAbs cenderung cocok untuk dataset dengan jumlah data yang besar, fitur yang banyak, dan data yang tidak mengikuti distribusi normal. Metode Z-Score biasanya cenderung cocok untuk dataset dengan jumlah fitur yang relatif besar atau kecil, dan cocok untuk data yang memiliki distribusi normal atau mendekati distribusi normal. Z-Score juga dapat diterapkan pada data yang tidak memiliki distribusi normal, terutama jika data tersebut tidak memiliki outlier yang signifikan dan distribusinya tidak terlalu jauh dari normalitas.
Kata Kunci: Normalisasi Data, Penyakit, Min-Max, Z-Score, Decimal Scaling, MaxAbs, K-Nearest Neighbor

ABSTRACT
One of the machine learning algorithms, K-Nearest Neighbor (K-NN), uses the calculation of distances between data points. An unbalanced scale between features can affect the performance of these algorithms. It is therefore important to ensure all data features have consistent scale. Normalization of the data helps mitigate this problem. In some previous studies a comparison of data normalization methods was performed using K-NN classification algorithms and the majority resulted in Min-Max as the best method. However, comparisons with MaxAbs have not been made, so it is not yet known whether MaxAbs is much better than Min-Max. In addition, there are also studies that do not explain the characteristics of the data, so the best methods of normalizing the data obtained cannot be used as a reference for each condition of the dataset. This study aimed to determine the performance of four data normalization methods (Min-Max, Z-Score, Decimal Scaling, and MaxAbs) combined with K-NN algorithm in classifying three disease datasets, namely prostate cancer of 100 data with 9 features, kidney of 400 data with 14 features, and heart of 1025 data with 14 features. The results of the study are expected to help generalize the best data normalization methods for specific data characteristics. Before starting the experiment, researchers analyzed the distribution of all three datasets with the Kolmogorov-Smirnov Test. The results of this study showed that without normalization, all three datasets yielded a low accuracy of ≤ 65%. The Decimal Scaling method results in the highest accuracy in the prostate cancer dataset of 90.00% and an AUC value of 0.969. The Min-Max and Z-Score methods yielded the highest accuracy in the renal disease dataset with the same value of 97.50% and AUC value of 0.999. The MaxAbs method also resulted in high accuracy in the renal disease dataset of 96.25% and AUC value of 0.997. In the heart disease dataset, Min-Max and MaxAbs yielded accuracy values of 82.93% and 81.95% and AUC values of 0.912 and 0.906. The findings obtained based on the results of the study conclude that Decimal Scaling tends to be suitable for a small number of datasets, a small number of features and normally distributed data. Min-Max and MaxAbs methods tend to be suitable for datasets with large amounts of data, abundant features and data that do not follow a normal distribution. Z-Score methods usually tend to be suitable for datasets with a relatively large or small number of features and are suitable for data that have a normal distribution or are close to normal distribution. Z-Score can also be applied to data that do not have a normal distribution, especially if the data has no significant outliers and the distribution is not too far from normality.
Keywords: Data Normalization, Disease, Min-Max, Z-Score, Decimal Scaling, MaxAbs, K-Nearest Neighbor

Ketersediaan

Tidak ada salinan data

Informasi Detail

Judul Seri: --
No. Panggil: SKR 24-49 ALL a - 0620TI
Penerbit: Makassar : Universitas DIPA., 2024
Deskripsi Fisik: xiii + 87 hlm.; 20,5 x 28,5 cm
Bahasa: Indonesia
ISBN/ISSN: --
Klasifikasi: SKR 24-49
Tipe Isi: Text dan Gambar
Edisi/Cetakan: Edisi/Cetakan 19 Februari 2024
Subjek: Skripsi/Tugas Akhir
K-Nearest Neighbor
Rapid Miner

Lampiran File

Silakan Login untuk Baca e-Book

OPAC (Online Public Access Catalog)

Analisis Perbandingan Performa Normalisasi Data untuk Klasifikasi Dataset Penyakit Menggunakan Metode K-Nearest Neighbor dengan Aplikasi Rapidminer

Rating Anda tentang Buku/Tulisan ini!

5

Ketersediaan

Informasi Detail

Lampiran File

Perpustakaan Nasional Republik Indonesia

Perpustakaan UNDIPA Makassar