PENGUKURAN KEMIRIPAN KALIMAT BAHASA INDONESIA MENGGUNAKAN REPRESENTASI WORD EMBEDDING FASTTEXT
Keywords:
FastText, Word Embedding, Semantic Similarity, NLPAbstract
Pengukuran kemiripan kalimat merupakan komponen penting dalam berbagai aplikasi pemrosesan bahasa alami (NLP), seperti pencarian semantik, sistem tanya jawab, dan deteksi plagiarisme. Penelitian ini bertujuan untuk mengevaluasi kemampuan model word embedding FastText dalam mengukur kemiripan semantik antar kalimat berbahasa Indonesia. Dataset yang digunakan adalah Semantic Textual Similarity Benchmark (STS-B) versi Bahasa Indonesia, yang memuat pasangan kalimat beserta skor kemiripan berdasarkan penilaian manusia. Setiap kalimat direpresentasikan sebagai rata-rata vektor dari kata-kata penyusunnya menggunakan model FastText pralatih untuk Bahasa Indonesia. Kemiripan antar kalimat dihitung menggunakan cosine similarity, dan hasilnya dibandingkan dengan skor referensi manusia menggunakan korelasi Pearson dan Spearman. Hasil evaluasi menunjukkan bahwa FastText mampu menangkap sebagian besar makna semantik antar kalimat, dengan nilai korelasi Pearson sebesar 0.3658 dan Spearman sebesar 0.4260. Meskipun demikian, hasil tersebut mengindikasikan bahwa pendekatan berbasis word-level embedding seperti FastText memiliki keterbatasan dalam memahami konteks yang lebih kompleks. Penelitian ini memberikan gambaran awal mengenai efektivitas FastText dalam tugas pengukuran similarity semantik untuk Bahasa Indonesia dan membuka peluang pengembangan metode representasi yang lebih kontekstual di masa depan.