Intuisi NLP - Natural Language Processing

Selamat Datang di Pembelajaran NLP!

Apa itu Natural Language Processing (NLP)? NLP adalah bidang kecerdasan buatan yang memungkinkan komputer memahami, menginterpretasi, dan menghasilkan bahasa manusia dengan cara yang bermakna.

Dalam pembelajaran ini, kita akan memahami:

Bagaimana mesin memahami bahasa manusia
Konsep preprocessing dan pentingnya
Intuisi tentang berbagai arsitektur NLP
Word embedding dan konteks kata
Cara model seperti ChatGPT menghasilkan teks

NLP Fundamentals Dari teks ke pemahaman mesin

The Black Box Bagaimana AI memproses bahasa manusia

Preprocessing Membersihkan dan menyiapkan data teks

Word Embedding Representasi kata dalam bentuk angka

Encoder-Decoder Arsitektur untuk memahami dan menghasilkan teks

Generation Cara model menghasilkan teks satu kata pada satu waktu

The Black Box

Pernahkah Anda bertanya-tanya bagaimana ChatGPT atau model AI lainnya bisa menjawab pertanyaan Anda dengan sangat natural? Mari kita buka "black box" ini!

Tapi bagaimana sebenarnya mesin bisa memahami bahasa kita? Mari kita pelajari langkah demi langkah!

Mesin Hanya Memahami Angka

Fakta fundamental: Komputer hanya bisa memproses angka. Setiap perhitungan machine learning pada dasarnya adalah operasi matematika seperti perkalian matriks dan fungsi aktivasi.

Insight Penting: Ketika kita meminta komputer belajar tentang bahasa, kita harus mengubah bahasa tersebut menjadi angka terlebih dahulu!

Untuk mengubah bahasa menjadi angka, kita memerlukan beberapa tahap:

Preprocessing: Membersihkan teks dari noise
Tokenization: Memecah teks menjadi unit-unit kecil
Word Embedding: Mengubah kata menjadi vektor angka

Proses Menjawab Pertanyaan

Sekarang mari kita bedah lebih dalam proses "ajaib" yang terjadi di dalam model NLP. Secara umum, proses ini dapat dibagi menjadi dua komponen utama:

Encoder

Encoder bertugas untuk "memahami konteks dari input manusia". Encoder mengubah bahasa manusia menjadi representasi vektor yang dapat diproses oleh model.

Bayangkan encoder seperti penerjemah yang mengubah kalimat Anda menjadi "kode rahasia" yang hanya dipahami oleh komputer.

Contoh: Kalimat "Apa kabar hari ini?" diubah menjadi vektor seperti [0.2, 0.5, 0.8, ..., 0.3] yang merangkum seluruh makna kalimat.

Decoder

Decoder bertugas untuk "menghasilkan jawaban" dari representasi yang dibuat encoder. Decoder mengubah vektor angka kembali menjadi kata-kata yang dapat dipahami manusia.

Decoder bekerja satu kata pada satu waktu, memilih kata terbaik berdasarkan konteks yang telah dipahami oleh encoder.

Demo: Melihat Encoded Text

Mari kita lihat bagaimana sebuah teks diubah menjadi angka oleh model transformer modern menggunakan model BART untuk encoding.

💻 Praktikkan di Google Colab

Yuk, jalankan code dan lihat bagaimana text di-encode menjadi angka!

Buka di Google Colab

Word Embedding: Setiap Kata Punya Konteks

Word Embedding adalah representasi vektor dari sebuah kata. Setiap kata memiliki "sidik jari digital" berupa array angka yang menangkap berbagai aspek maknanya.

Visualisasi Word Embedding

"raja" = [0.2, 0.8, 0.1, 0.9, ...]
"ratu" = [0.3, 0.7, 0.2, 0.8, ...]
"mobil" = [0.1, 0.1, 0.9, 0.2, ...]

Kata yang mirip makna memiliki vektor yang mirip juga! (akan dibahas lebih dalam di sesi berikutnya)

Setiap dimensi dalam word embedding menangkap konteks tertentu:

Dimensi untuk gender (raja vs ratu)
Dimensi untuk hidup vs benda mati
Dimensi untuk tempat vs kendaraan
Dan masih banyak dimensi lainnya

Konteks Multidimensi

Mari kita pahami dengan contoh sederhana. Bayangkan kita ingin melengkapi kalimat:

"Andi masuk ke dalam ___"

Model akan mencari kata yang memiliki nilai tinggi untuk dimensi:

Tempat - rumah, toko, kantor (cocok)
Kendaraan - mobil, bus, kereta (cocok)

Dan menghindari kata yang tidak masuk akal:

Benda kecil - buku, gelas, pulpen (tidak cocok)
Bagian tubuh - telinga, mata, kaki (tidak cocok)

Catatan: Model menggunakan score-card multidimensi untuk menemukan kata yang paling cocok dalam konteks kalimat!

Demo: Melihat Word Embedding

Mari kita lihat word embedding untuk kata tertentu menggunakan GloVe embeddings yang populer.

💻 Praktikkan di Google Colab

Yuk, jalankan code dan lihat word embedding secara langsung!

Buka di Google Colab

One Word at a Time: Cara Model Menghasilkan Teks

Perhatikan bagaimana ChatGPT atau model AI lainnya menjawab pertanyaan: mereka menghasilkan teks satu kata pada satu waktu, dari kiri ke kanan!

Proses Generasi Teks

Input: "Apa kabar?"
Step 1: Generate → "Baik"
Step 2: Generate → "Baik, terima"
Step 3: Generate → "Baik, terima kasih"
Step 4: Generate → "Baik, terima kasih!" [STOP]

Pada setiap step:

Model melihat input asli + kata-kata yang sudah dihasilkan
Model memprediksi kata berikutnya yang paling cocok
Proses berlanjut sampai model memutuskan untuk berhenti

Catatan: Decoder bekerja secara autoregressive: output dari step sebelumnya menjadi input untuk step berikutnya!

Rangkuman: Perjalanan NLP

Selamat! Anda telah memahami intuisi dasar tentang bagaimana Natural Language Processing bekerja. Mari kita rangkum:

Poin-Poin Penting

Mesin hanya memahami angka, jadi teks harus diubah dulu
Preprocessing membersihkan teks dari noise
Word embedding merepresentasikan kata sebagai vektor multidimensi
Encoder memahami input, Decoder menghasilkan output
Model menghasilkan teks satu kata pada satu waktu