Simulasi Arsitektur
Mulai dari simulasi interaktif untuk melihat perbedaan arsitektur encoder, decoder, dan encoder-decoder. Visualisasi membantu memahami kapan suatu arsitektur digunakan.
Inti dari Encoder
Encoder bertugas memahami urutan input dan merangkumnya ke dalam vektor representasi. Vektor ini merepresentasikan makna kalimat sehingga layer berikutnya tahu apa konteks pengguna.
Singkatnya, encoder adalah pembaca—ia memetakan sequence input menjadi pemahaman internal yang padat.
Inti dari Decoder
Decoder bertugas menghasilkan urutan baru. Ia mengambil representasi dari encoder (atau state internal terakhir) lalu menuliskannya kembali menjadi sequence output.
Decoder adalah penulis—ia menerjemahkan vektor pemahaman menjadi kata-kata.
Encoder-Decoder
Arsitektur encoder-decoder menghubungkan pembaca dan penulis. Encoder menghasilkan context vector, decoder menggunakan context tersebut untuk memprediksi output langkah demi langkah.
Perhatian Encoder
Attention di sisi encoder menjawab pertanyaan: "Jika fokus pada satu token, token lain mana yang relevan?" Dengan skor attention, model dapat menimbang token penting untuk memahami konteks.
Sifat Regresi Decoder
Decoder bersifat autoregresif: ia memprediksi satu token pada satu waktu dari kiri ke kanan. Token yang baru dihasilkan dijadikan input untuk prediksi token berikutnya, mirip dengan proses pada RNN.
Perhatian Decoder
Attention di decoder mengikuti arah kiri ke kanan. Berdasarkan output yang sudah dihasilkan, decoder menilai token mana yang harus menjadi referensi untuk memprediksi kata selanjutnya.
Bahan Tambahan
Pelajari lebih lanjut lewat sumber-sumber berikut:
Video
Paper
- Attention Is All You Need
- BERT: Pre-training of Deep Bidirectional Transformers
- GPT-3: Language Models are Few-Shot Learners