UJI KEMIRIPAN KALIMAT MENGGUNAKAN FUNGSI TERBILANG PADA PRE-PROCESSING DAN COSINE SIMILARITY DALAM BAHASA INDONESIA

Ardi Sanjaya, Sempu Dwi Sasongko

Abstract


Proses stopword/filtering pada pre-processing di beberapa penelitian terdahulu cenderung membuang kata yang dianggap tidak perlu, termasuk angka dan beberapa tanda baca. Berdasarkan pengamatan peneliti, kalimat yang diuji atau dibandingkan terkadang terdari atas susunan kompleks berupa kata, angka dan tanda baca. Penelitian ini bertujuan untuk meningkatkan atau optimasi kinerja uji kemiripan kalimat berbahasa Indonesia dengan menambahkan fungsi terbilang pada pre-processing. Pada tahap pre-processing, setiap kata akan dideteksi apabila terdapat unsur angka baik itu bulat atau pecahan desimal maka akan dikonversi menjadi bentuk teks atau kata. Beberapa tanda baca seperti tanda persen juga diubah ke bentuk teks. Uji kemiripan kalimat menggunakan cosine similarity. Pengujian menggunakan data yang telah dipastikan susunannya kompleks namun memiliki kemiripan yang mendekati oleh pakar terkait. Pada pengujian juga dilakukan perbandingkan antara pre-processing yang menggunakan fungsi terbilang dan yang tidak. Berdasarkan hasil pengujian, didapati 12 pengujian dari 13 pengujian (92,30%) memiliki peningkatan nilai kemiripan dibandingkan pada pre-processing yang tidak menggunakan fungsi terbilang. Nilai kemiripan tergantung pada susunan masing-masing kalimat yang diuji.

Full Text:

PDF (Indonesian)

References


I. Mawanta, T. S. Gunawan, and W. Wanayumini, “Uji Kemiripan Kalimat Judul Tugas Akhir dengan Metode Cosine Similarity dan Pembobotan TF-IDF,” J. Media Inform. Budidarma, vol. 5, no. 2, p. 726, 2021, doi: 10.30865/mib.v5i2.2935.

D. A. R. Ariantini, A. S. M. Lumenta, and A. Jacobus, “Pengukuran Kemiripan Dokumen Teks Bahasa Indonesia Menggunakan Metode Cosine Similarity,” J. Tek. Inform., vol. 9, no. 1, pp. 1–8, 2016, doi: 10.35793/jti.9.1.2016.13752.

K. S. Nugroho, “Dasar Text Preprocessing dengan Python,” 2019. https://ksnugroho.medium.com/dasar-text-preprocessing-dengan-python-a4fa52608ffe (accessed Feb. 07, 2022).

O. R. Hartono, “Indonesian Stoplist,” 2016. https://www.kaggle.com/oswinrh/indonesian-stoplist/version/1 (accessed Feb. 07, 2022).

N. Alamsyah, “Deteksi Plagiarisme Tingkat Kemiripan Judul Skripsi Dengan Algoritma Winnowing,” Technol. J. Ilm., vol. 8, no. 4, p. 205, 2017, doi: 10.31602/tji.v8i4.1119.

H. Prasetyo, “Perbedaan Cosine Similarity dan Cosine Distance.” https://hendroprasetyo.com/perbedaan-cosine-similarity-dan-cosine-distance/#.YgDb4bpBzIW (accessed Feb. 07, 2022).

D. Suhartono, “Natural Language Processing.” https://socs.binus.ac.id/2013/06/22/natural-language-processing/ (accessed Feb. 07, 2022).

E. L. Steven Bird, Ewan Klien, Natural Language Processing with Python, First Edit. Sebastopol, CA 95472.: O’reilly Media Inc, 2009.

E. SATRIYANTO, “Pengolahan Bahasa Alami.” http://kangedi.lecturer.pens.ac.id/materi kuliah/Kecerdasan Buatan/Bab 5 Natural Language Processing.pdf (accessed Feb. 08, 2022).

M. A. Salim and Y. Anistyasari, “Pengembangan Aplikasi Penilaian Ujian Essay Berbasis Online Menggunakan Algoritma Nazief Dan Adriani Dengan Metode Cosine Mohammad Agus Salim Yeni Anistyasari Abstrak,” IT-Edu J. Inf. Technol. Educ., vol. 02, no. 1, pp. 126–135, 2017.

M. M. umilasari Syabani reni, “Penerapan Metode Cosine Similarity dan Pembobotan TF/IDF pada Sistem Klasifikasi Sinopsis Buku di Perpustakaan Kejaksaan Negeri Jember,” JUSTINDO (Jurnal Sist. dan Teknol. Inf. Indones., no. Vol 3, No 1 (2018): JUSTINDO, pp. 31–42, 2018, [Online]. Available: http://jurnal.unmuhjember.ac.id/index.php/JUSTINDO/article/view/2345.

A. Librian, “High quality stemmer library for Indonesian Language (Bahasa),” 2017. https://github.com/sastrawi/ (accessed Feb. 08, 2022).

R. P. Pratama, M. Faisal, and A. Hanani, “Deteksi Plagiarisme pada Dokumen Jurnal Menggunakan Metode Cosine Similarity,” SMARTICS J., vol. 5, no. 1, pp. 22–26, 2019, doi: 10.21067/smartics.v5i1.2848.

R. Samuel, R. Natan, and U. Syafiqoh, “Penerapan Cosine Similarity dan K-Nearest Neighbor ( K-NN ) pada Klasifikasi dan Pencarian Buku,” J. Big Data Anal. Artif. Intell., vol. 1, no. 1, pp. 9–14, 2018.

E. L. Amalia, A. J. Jumadi, I. A. Mashudi, and D. W. Wibowo, “Analisis Metode Cosine Similarity Pada Aplikasi Ujian Online Otomatis (Studi Kasus JTI POLINEMA),” J. Teknol. Inf. dan Ilmu Komput., vol. 8, no. 2, p. 343, 2021, doi: 10.25126/jtiik.2021824356.

Z. Efendi and M. Mustakim, “Text Mining Classification sebagai Rekomendasi Dosen Pembimbing Tugas Akhir Program Studi Sistem Informasi,” Semin. Nas. Teknol. Inf. Komun. dan Ind., vol. 0, no. 0, pp. 235–242, 2017, [Online]. Available: http://ejournal.uin-suska.ac.id/index.php/SNTIKI/article/view/3273.

Maskur and F. R. Andriansyah, “Implementasi Web Semantik Untuk Aplikasi Pencarian,” J. Ilm. NERO, vol. 2, no. 1, pp. 11–18, 2015.

Sukajati, “Pembelajaran Operasi Penjumlahan Pecahan di SD Menggunakan Berbagai Media,” Yogyakarta, p. 52, 2008, [Online]. Available: http://repositori.kemdikbud.go.id/685/1/4-pecahan-sukayati.pdf.




DOI: http://dx.doi.org/10.21107/nero.v7i2.321

Refbacks

  • There are currently no refbacks.


Copyright (c) 2022 Ardi Sanjaya, Sempu Dwi Sasongko

Creative Commons License
NERO (Networking Engineering Research Operation) is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.