Overfitting

Selamat Datang! 📈

Overfitting adalah salah satu masalah paling umum dalam machine learning. Ini terjadi ketika model terlalu "menghafal" data training dan tidak bisa generalisasi dengan baik ke data baru.

Mengapa ini penting?

Model yang overfit tidak berguna di dunia nyata
Memahami overfitting membantu membuat model yang lebih robust
Balance antara underfitting dan overfitting adalah kunci sukses ML

Overfitting Model yang terlalu kompleks

Definisi Model menghafal training data tapi gagal generalisasi

Penyebab Model terlalu kompleks, data terlalu sedikit, noise

Deteksi Train score tinggi, validation score rendah

Solusi Regularisasi, lebih banyak data, simplifikasi model

Apa itu Overfitting?

Bayangkan Anda menghafal semua soal ujian beserta jawabannya. Saat ujian dengan soal yang sama persis, Anda akan sempurna. Tapi ketika ada soal baru yang sedikit berbeda, Anda kesulitan menjawab. Itulah overfitting!

Tiga Kondisi Model

Underfitting

Model terlalu sederhana, tidak bisa menangkap pola dalam data

Good Fit

Model seimbang, bisa generalisasi dengan baik ke data baru

Overfitting

Model terlalu kompleks, menghafal training data termasuk noise

Key Insight: Model yang sempurna di training data belum tentu bagus di dunia nyata. Yang penting adalah kemampuan generalisasi!

Simulasi Interaktif

Gunakan slider di bawah untuk mengubah kompleksitas model dan lihat efeknya terhadap overfitting. Perhatikan perbedaan antara training score dan validation score!

Pengaturan Data

Random Seed:

Hasil akan berbeda setiap kali

💡 Tips: Gunakan seed yang sama untuk mendapatkan hasil yang konsisten dan reproducible.

Kontrol Kompleksitas Model

Derajat Polynomial: 1

Training Score

-

Validation Score

-

Overfitting Index

-

Interpretasi

Atur kompleksitas model menggunakan slider di atas untuk melihat efek overfitting.

Formula yang Digunakan

Training Score (R²) & Validation Score (R²)

R² = 1 - (SS_res / SS_tot)
dengan SS_res = Σ(y_i - ŷ_i)² dan SS_tot = Σ(y_i - ȳ)²

Overfitting Index

Overfitting Index = Training Score - Validation Score

Cara Mengatasi Overfitting

Ada beberapa teknik yang bisa digunakan untuk mencegah atau mengurangi overfitting. Berikut adalah yang paling umum digunakan:

Tambah Data Training

Semakin banyak data, semakin sulit model untuk menghafal semuanya.

Kumpulkan lebih banyak data
Data augmentation
Synthetic data generation

Regularisasi

Tambahkan penalty untuk model yang terlalu kompleks.

L1 Regularization (Lasso)
L2 Regularization (Ridge)
Elastic Net

Simplifikasi Model

Kurangi kompleksitas untuk menghindari overfitting.

Kurangi jumlah features
Feature selection
Dimensionality reduction

Early Stopping

Hentikan training sebelum model mulai overfit.

Monitor validation loss
Stop saat val loss naik
Gunakan patience parameter

Dropout

Matikan neuron secara random saat training (untuk neural networks).

Mencegah co-adaptation
Membuat ensemble implicit
Rate 0.2 - 0.5

Ensemble Methods

Kombinasi beberapa model untuk hasil yang lebih stabil.

Bagging (Random Forest)
Boosting (XGBoost)
Stacking