Active learning untuk mengurangi jumlah data yang perlu dilabeli pada klasifikasi teks multi label berbahasa Indonesia

Proses pelabelan data secara manual membutuhkan biaya dan waktu yang signifikan, terlebih untuk teks berbahasa Indonesia yang memiliki kompleksitas morfologi dan keterbatasan dataset multi-label. Tantangan ini diperberat oleh masalah inheren pada klasifikasi multi-label seperti ketidakseimbangan distribusi label serta korelasi antar label yang perlu ditangani. Penelitian ini menggunakan metode active learning untuk mengurangi jumlah data yang perlu dilabeli. Penelitian ini menggunakan berbagai query strategy, yaitu Least Confidence, Monte Carlo Dropout, K-Means, Coreset, BESRA, CoMAL, dan Random Sampling sebagai baseline. Model IndoBERT diterapkan pada 5 dataset teks multi-label berbahasa Indonesia: CASA, HoASA, Netifier, Multi-label Hate Speech and Abusive Language Detection, dan Doctor's Answer Text. Efisiensi dan performa dievaluasi menggunakan metrik F1-mikro, dengan membandingkan hasil active learning dan passive learning. Hasil penelitian menunjukkan bahwa active learning mampu mencapai F1-mikro yang setara dengan passive learning (toleransi 0,5%) menggunakan 40-48% data, menunjukkan efisiensi sebesar 32-40%. Monte Carlo Dropout secara konsisten menjadi query strategy terbaik, mengungguli random sampling di semua dataset dan menjadi yang tercepat dalam mencapai performa setara passive learning pada 3 dari 5 dataset.

NICO SAMUELSON TJANDRA Ir. Djoni Haryadi Setiabudi, M.Eng. (Advisor 1); Alvin Nathaniel Tjondrowiguno, S.Kom., M.T. (Advisor 2); Kartika Gunadi (Examination Committee 1); Henry Novianus Palit, S.Kom., M.Kom., Ph.D. (Examination Committee 2) Universitas Kristen Petra Indonesian Digital Theses Undergraduate Thesis Skripsi/Undergraduate Thesis Skripsi No. 01022717/INF/2025; Nico Samuelson Tjandra (C14210017) ACTIVE LEARNING; TEXT PROCESSING (COMPUTER SCIENCE); DEEP LEARNING (MACHINE LEARNING)

Files