Memahami Arsitektur LLM

Simulasi Arsitektur

Mulai dari simulasi interaktif untuk melihat perbedaan arsitektur encoder, decoder, dan encoder-decoder. Visualisasi membantu memahami kapan suatu arsitektur digunakan.

Buka simulasi: https://ruang-guru.github.io/ai-bootcamp-interactive/docs/nlp/06-transformer-architectures.html

Inti dari Encoder

Encoder bertugas memahami urutan input dan merangkumnya ke dalam vektor representasi. Vektor ini merepresentasikan makna kalimat sehingga layer berikutnya tahu apa konteks pengguna.

Singkatnya, encoder adalah pembaca—ia memetakan sequence input menjadi pemahaman internal yang padat.

Inti dari Decoder

Decoder bertugas menghasilkan urutan baru. Ia mengambil representasi dari encoder (atau state internal terakhir) lalu menuliskannya kembali menjadi sequence output.

Decoder adalah penulis—ia menerjemahkan vektor pemahaman menjadi kata-kata.

Encoder-Decoder

Arsitektur encoder-decoder menghubungkan pembaca dan penulis. Encoder menghasilkan context vector, decoder menggunakan context tersebut untuk memprediksi output langkah demi langkah.

Perhatian Encoder

Attention di sisi encoder menjawab pertanyaan: "Jika fokus pada satu token, token lain mana yang relevan?" Dengan skor attention, model dapat menimbang token penting untuk memahami konteks.

Sifat Regresi Decoder

Decoder bersifat autoregresif: ia memprediksi satu token pada satu waktu dari kiri ke kanan. Token yang baru dihasilkan dijadikan input untuk prediksi token berikutnya, mirip dengan proses pada RNN.

Perhatian Decoder

Attention di decoder mengikuti arah kiri ke kanan. Berdasarkan output yang sudah dihasilkan, decoder menilai token mana yang harus menjadi referensi untuk memprediksi kata selanjutnya.

Bahan Tambahan

Pelajari lebih lanjut lewat sumber-sumber berikut:

Video

Paper

Ekskalidraw

Catatan visual arsitektur transformer

Buka Notebook di Colab