Pemilihan Korpus Statis Bersesuaian dengan Cosine Similarity dan Penggunaan IDF Global Pada Penambahan Dokumen Baru

  • Utomo Pujianto Universitas Muhammadiyah Gresik
  • Arya Yudhi Wijaya Universitas Muhammadiyah Gresik

Abstract

Abstrak – Permasalahan yang muncul pada saat pembobotan menggunakan nilai “term frequency–inverse
document frequency” (tf-idf) adalah adanya kebutuhan untuk selalu melakukan perhitungan ulang nilai inverse
document frequency (idf) setiap kali dokumen baru ditambahkan ke dalam database. Hal ini menyebabkan
peningkatan kompleksitas komputasi menjadi O(N2). Untuk menangani masalah tersebut, dalam paper ini diusulkan
sebuah metode yang menggunakan cosine similarity dan sejumlah korpus statis yang telah didefinisikan sebelumnya.
Cosine similarity digunakan untuk menghitung kemiripan nilai term frequency (tf) dokumen baru dengan rerata
nilai tf dari setiap korpus statis yang ada dalam database. Nilai idf dari korpus statis yang memiliki nilai similarity
paling tinggi dengan dokumen baru kemudian dipilih sebagai nilai idf dari dokumen yang baru. Hasil uji coba
menunjukkan bahwa tidak terdapat perbedaan yang signifikan antara nilai tf-idf yang dihitung dengan metode telah
ada sebelumnya dengan metode yang diusulkan dalam paper ini. Dengan kata lain, metode ini dapat
dipertimbangkan sebagai alternatif penentuan nilai idf, terutama karena kompleksitasnya yang hanya O(N).

Downloads

Download data is not yet available.
Published
Feb 12, 2020
How to Cite
PUJIANTO, Utomo; WIJAYA, Arya Yudhi. Pemilihan Korpus Statis Bersesuaian dengan Cosine Similarity dan Penggunaan IDF Global Pada Penambahan Dokumen Baru. E-Link: Jurnal Teknik Elektro dan Informatika, [S.l.], v. 14, n. 2, p. 96-71, feb. 2020. ISSN 2656-5676. Available at: <https://journal.umg.ac.id/index.php/e-link/article/view/1215>. Date accessed: 21 nov. 2024. doi: http://dx.doi.org/10.30587/e-link.v14i2.1215.
Section
Articles