Exploratory Data Analysis (EDA)
Kembali40,000
Total Data
5
Fitur Input
32000 / 8000
Train / Test
2
Kelas Target
Distribusi Fitur Numerik
Histogram + KDE (Kernel Density Estimation) untuk 3 fitur numerik utama. Distribusi mendekati normal menunjukkan dataset yang bersih.
Heatmap Korelasi
Warna merah = korelasi positif, Biru = negatif. Semakin gelap = semakin kuat hubungannya.
Distribusi Target (Kelulusan)
Dataset seimbang: ~50% Lulus, ~50% Tidak Lulus. Box plot menunjukkan perbedaan nilai per kelompok.
Analisis Fitur Penting
Interpretasi Korelasi Fitur
-
Jam belajar per minggu
Korelasi kuat dengan kelulusan (0.48) -
Nilai akademik sebelumnya
Kontribusi besar sebagai historis nilai (0.47) -
Tingkat kehadiran kuliah
Kehadiran ≥75% signifikan (0.44) -
Pendidikan orang tua
Pengaruh lingkungan keluarga (0.09) -
Ekstrakulikuler
Dampak paling kecil pada kelulusan (0.08)
Visualisasi K-Means Clustering (PCA 2D)
Dimensi direduksi ke 2D menggunakan PCA. Kiri: Cluster hasil K-Means. Kanan: Label aktual (0=Tidak Lulus, 1=Lulus). Kesamaan pola menunjukkan K-Means cukup efektif mengelompokkan data.