Pemilihan Korpus Statis Bersesuaian dengan Cosine Similarity dan Penggunaan IDF Global Pada Penambahan Dokumen Baru
Abstract
Abstrak – Permasalahan yang muncul pada saat pembobotan menggunakan nilai “term frequency–inverse
document frequency” (tf-idf) adalah adanya kebutuhan untuk selalu melakukan perhitungan ulang nilai inverse
document frequency (idf) setiap kali dokumen baru ditambahkan ke dalam database. Hal ini menyebabkan
peningkatan kompleksitas komputasi menjadi O(N2). Untuk menangani masalah tersebut, dalam paper ini diusulkan
sebuah metode yang menggunakan cosine similarity dan sejumlah korpus statis yang telah didefinisikan sebelumnya.
Cosine similarity digunakan untuk menghitung kemiripan nilai term frequency (tf) dokumen baru dengan rerata
nilai tf dari setiap korpus statis yang ada dalam database. Nilai idf dari korpus statis yang memiliki nilai similarity
paling tinggi dengan dokumen baru kemudian dipilih sebagai nilai idf dari dokumen yang baru. Hasil uji coba
menunjukkan bahwa tidak terdapat perbedaan yang signifikan antara nilai tf-idf yang dihitung dengan metode telah
ada sebelumnya dengan metode yang diusulkan dalam paper ini. Dengan kata lain, metode ini dapat
dipertimbangkan sebagai alternatif penentuan nilai idf, terutama karena kompleksitasnya yang hanya O(N).
Downloads
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.