Selamat Datang! 📈
Overfitting adalah salah satu masalah paling umum dalam machine learning. Ini terjadi ketika model terlalu "menghafal" data training dan tidak bisa generalisasi dengan baik ke data baru.
Mengapa ini penting?
- Model yang overfit tidak berguna di dunia nyata
- Memahami overfitting membantu membuat model yang lebih robust
- Balance antara underfitting dan overfitting adalah kunci sukses ML
Apa itu Overfitting?
Bayangkan Anda menghafal semua soal ujian beserta jawabannya. Saat ujian dengan soal yang sama persis, Anda akan sempurna. Tapi ketika ada soal baru yang sedikit berbeda, Anda kesulitan menjawab. Itulah overfitting!
Tiga Kondisi Model
Key Insight: Model yang sempurna di training data belum tentu bagus di dunia nyata. Yang penting adalah kemampuan generalisasi!
Simulasi Interaktif
Gunakan slider di bawah untuk mengubah kompleksitas model dan lihat efeknya terhadap overfitting. Perhatikan perbedaan antara training score dan validation score!
Pengaturan Data
Kontrol Kompleksitas Model
Training Score
Validation Score
Overfitting Index
Interpretasi
Atur kompleksitas model menggunakan slider di atas untuk melihat efek overfitting.
Formula yang Digunakan
R2 = 1 - (SSres / SStot)
dengan SSres = Σ(yi - ŷi)2 dan SStot = Σ(yi - ȳ)2
Overfitting Index = Training Score - Validation Score
Lihat Step-by-Step Perhitungan Skor
Cara Mengatasi Overfitting
Ada beberapa teknik yang bisa digunakan untuk mencegah atau mengurangi overfitting. Berikut adalah yang paling umum digunakan:
Tambah Data Training
Semakin banyak data, semakin sulit model untuk menghafal semuanya.
- Kumpulkan lebih banyak data
- Data augmentation
- Synthetic data generation
Regularisasi
Tambahkan penalty untuk model yang terlalu kompleks.
- L1 Regularization (Lasso)
- L2 Regularization (Ridge)
- Elastic Net
Simplifikasi Model
Kurangi kompleksitas untuk menghindari overfitting.
- Kurangi jumlah features
- Feature selection
- Dimensionality reduction
Early Stopping
Hentikan training sebelum model mulai overfit.
- Monitor validation loss
- Stop saat val loss naik
- Gunakan patience parameter
Dropout
Matikan neuron secara random saat training (untuk neural networks).
- Mencegah co-adaptation
- Membuat ensemble implicit
- Rate 0.2 - 0.5
Ensemble Methods
Kombinasi beberapa model untuk hasil yang lebih stabil.
- Bagging (Random Forest)
- Boosting (XGBoost)
- Stacking