Tentang Proyek

Prediksi Kelulusan Mahasiswa

Proyek ini adalah implementasi Ujian Tengah Semester (UTS) Praktikum Kecerdasan Buatan yang membangun sistem prediksi kelulusan mahasiswa menggunakan 5 algoritma Machine Learning.

Dataset yang digunakan adalah Student Performance Prediction Dataset dari Kaggle dengan 40.000 data mahasiswa dan fitur akademik seperti jam belajar, tingkat kehadiran, nilai sebelumnya, keikutsertaan ekstrakulikuler, dan pendidikan orang tua.

Pipeline Machine Learning:

1. Data Collection
Dataset dari Kaggle (40.000 sampel)

2. Preprocessing
Missing values, encoding, normalisasi, clip outlier

3. Feature Engineering
Skor akademik tertimbang sebagai target

4. EDA
Visualisasi distribusi, korelasi, feature importance

5. Model Training
Training 5 algoritma ML

6. Evaluasi
Accuracy, MAE, RMSE, R², Confusion Matrix

7. Deployment
Flask web app dengan Bootstrap 5

Detail 5 Algoritma ML

Konfigurasi: Analogi Linear Regression untuk klasifikasi biner. Memodelkan probabilitas kelulusan dengan fungsi sigmoid. Optimizer: L-BFGS, C=1.0, max_iter=1000.

Hasil: Sederhana, cepat, mudah diinterpretasi. Akurasi 99.88%.

Konfigurasi: Jaringan saraf tiruan dengan 2 hidden layer (64 dan 32 neuron). Aktivasi ReLU. Optimizer: Adam. Early stopping dengan validation fraction 10%.

Hasil: Mampu menangkap pola non-linear. Akurasi 99.75%.

Konfigurasi: Disimulasikan menggunakan Deep MLP 5 hidden layer (128-64-64-32-16) dengan aktivasi tanh (sama seperti gating LSTM). Batch size 64, adaptive learning rate.

Hasil: Arsitektur paling dalam. Aktivasi tanh meniru mekanisme gating LSTM. Akurasi 99.61%.

Konfigurasi: Algoritma clustering unsupervised dengan k=2. Cluster disesuaikan dengan label aktual menggunakan majority vote. Evaluasi dengan Silhouette Score.

Hasil: Tidak membutuhkan label. Berguna untuk eksplorasi struktur data. Silhouette Score 0.22.

Konfigurasi: MLPClassifier dengan SGD optimizer, fungsi aktivasi sigmoid (logistic), learning rate konstan 0.01, momentum 0.9. Menonjolkan mekanisme backpropagation klasik.

Hasil: Model terbaik (99.91%). Konvergensi stabil karena momentum SGD.

Statistik Dataset

Total Data 40.000 sampel
Data Training 32000 sampel (80%)
Data Testing 8000 sampel (20%)
Jumlah Fitur 5 fitur
Kelas Target 2 (Lulus / Tidak Lulus)
Missing Values ~5% per kolom
Metode Imputing Median (numerik), Mode (kategorikal)
Standardisasi StandardScaler

Tech Stack

Python 3.12 — Bahasa pemrograman utama
scikit-learn — Training 5 algoritma ML
Flask — Web framework backend
Bootstrap 5 — Frontend responsive
Pandas / NumPy — Manipulasi data
Matplotlib / Seaborn — Visualisasi
Joblib — Serialisasi model (.pkl)

File Model Tersimpan

scaler.pkl
logistic_regression.pkl
ann_model.pkl
rnn_model.pkl
kmeans_model.pkl
backpropagation.pkl
pca.pkl
results.json
meta.json

Tentang Proyek

Prediksi Kelulusan Mahasiswa

Pipeline Machine Learning:

Detail 5 Algoritma ML

Model 1: Logistic Regression

Model 2: ANN (Artificial Neural Network)

Model 3: RNN/LSTM (Deep Sequential MLP)

Model 4: K-Means Clustering

Model 5: Backpropagation

Statistik Dataset

Tech Stack

File Model Tersimpan