Exploratory Data Analysis (EDA)

Kembali
40,000
Total Data
5
Fitur Input
32000 / 8000
Train / Test
2
Kelas Target
Distribusi Fitur Numerik
Distribusi Fitur

Histogram + KDE (Kernel Density Estimation) untuk 3 fitur numerik utama. Distribusi mendekati normal menunjukkan dataset yang bersih.

Heatmap Korelasi
Heatmap Korelasi

Warna merah = korelasi positif, Biru = negatif. Semakin gelap = semakin kuat hubungannya.

Distribusi Target (Kelulusan)
Target Distribution

Dataset seimbang: ~50% Lulus, ~50% Tidak Lulus. Box plot menunjukkan perbedaan nilai per kelompok.

Analisis Fitur Penting
Feature Importance
Interpretasi Korelasi Fitur
  •  
    Jam belajar per minggu
    Korelasi kuat dengan kelulusan (0.48)
  •  
    Nilai akademik sebelumnya
    Kontribusi besar sebagai historis nilai (0.47)
  •  
    Tingkat kehadiran kuliah
    Kehadiran ≥75% signifikan (0.44)
  •  
    Pendidikan orang tua
    Pengaruh lingkungan keluarga (0.09)
  •  
    Ekstrakulikuler
    Dampak paling kecil pada kelulusan (0.08)
Visualisasi K-Means Clustering (PCA 2D)
K-Means Clustering

Dimensi direduksi ke 2D menggunakan PCA. Kiri: Cluster hasil K-Means. Kanan: Label aktual (0=Tidak Lulus, 1=Lulus). Kesamaan pola menunjukkan K-Means cukup efektif mengelompokkan data.