142x Filetype PDF File size 1.07 MB Source: core.ac.uk
View metadata, citation and similar papers at core.ac.uk brought to you by CORE provided by ejournal.nusamandiri.ac.id (STMIK Nusa Mandiri) Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018 41 INFORMATION RETRIEVAL SYSTEM PADA FILE PENCARIAN DOKUMEN TESIS BERBASIS TEXT MENGGUNAKAN METODE VECTOR SPACE MODEL 1 2 Ahmad Fauzi ; Ginabila 1, 2 Ilmu Komputer STMIK Nusa Mandiri 1 www.nusamandiri.ac.id 2 fauzi.aau@nusamandiri.ac.id, 14002151@nusamandiri.ac.id Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi-NonKomersial 4.0 Internasional. Abstract—Speed and density in the process of finding documents and information has become Kata Kunci: informasi retrival, model sistem mandatory, contained in information systems, to pengambilan ruang vector. facilitate the search process or find documents and information needed, it is called information retrieval PENDAHULUAN or information retrieval system, implementation of the theory applied in this study using the model Peningkatan arus informasi yang sangat cepat method vector space, the purpose of this study is to dalam mendukung kegiatan browsing dan provide general exposure to the process of finding searching bagi user untuk mempermudah aktivitas digital documents. With the token and indexing (Irmawati, 2017) Informasi tumbuh dengan sangat process so that the results of the masses are found in pesat dalam berbagai basis content seperti teks, the database using keywords, so the system will image, video, visual, audio dan sebagainya. alat search according to the keywords input into the temu kembali online public access catalog (OPAC) system, and will be compared with the data sendiri sudah ada sejak tahun 1970. Sejak pertama contained in the database, so that it can produce the kali diciptakan, pembuatan sistem temu kembali correct information. informasi telah mengalami proses perubahan sesuai perkembangannya (Lestari, 2016) Keywords: retrival information, vector space Informasi tersebut tidak ada artinya bila informasi retrieval system model. yang relevan tidak dapat ditemukan kembali guna memenuhi kebutuhan informasi pemustaka. Oleh Intisari— Kecepatan dan kepadatan dalam proses karena itu, perpustakaan perguruan tinggi pencarian dokumen dan informasi telah menjadi membutuhkan sistem temu kembali informasi wajib, terkandung dalam sistem informasi, untuk (information retrieval). memudahkan proses pencarian atau menemukan perpustakaan perlu melakukan perubahan dokumen dan informasi yang diperlukan, itu dalam pemeliharaan dan katalogisasi informasi, disebut informasi retrival atau sistem pengambilan dari sistem tercetak menjadi online dalam bentuk informasi, implementasi Dari teori yang digital agar dapat diakses dari mana saja (Amin, diterapkan dalam penelitian ini menggunakan 2012). Perubahan sistem tersebut, terlihat pada metode model ruang vektor, tujuan penelitian ini pengembangan perpustakaan digital. Layanan adalah memberikan paparan umum tentang proses perpustakaan digital menyediakan akses instan pencarian dokumen digital. Dengan proses token terhadap koleksi/dokumen, baik melalui metode dan indexsing sehingga ditemukan hasil dari pencarian keyword, penulis, maupun judul.(Sjaeful maskimal terdapat dalam database menggunakan Afandi; Firman Ardiansya; Blasius Soedarsono, kata kunci, sehingga sistem akan melakukan 2015) masalah utama dalam proses pencarian pencarian sesuai deanagn kata kunci yang di dokumen digital dibutuhkan waktu yang relatif inputkan pada sistem, dan akan dibandingkan lama karena pencariannya harus menyertakan isi dengan data yang terdapat pada database, judul dokumen secara lengkap dan benar pada sehingga dapat menghasilkan informasi yang aplikasi ELS-NURI, hal ini menjadi tidak relevan benar. dalam sistem temu kembali informasi. Maka dari itu dibutuhkan sebuah search engine yang dapat P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem … Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018 42 Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018 mencari dokumen-dokumen tersebut secara lebih repository.nusamandiri.ac.id yang menjadi bahan cepat dan mudah serta menghasilkan informasi penelitian dalam penggunaan retrival information yang relevan tanpa perlu menyertakan judul dokumen secara lebih terperinci (Zain & Suswati, BAHAN DAN METODE 2016) penulis mecoba menerapakan metode informasi retrival pada pembaharuan aplikasi ELS- Penulis Pengumpulan data dilakukan NURI, guna memberikan informasi yang lebih baik dengan cara mempelajari buku dan jurnal yang dan akurat dalam proses pencarian dokumen tesis mendukung pada penelitian ini, termasuk di pada aplikasi ELS-NURI,sehingga mahasiswa dapat dalamnya literatur tentang penulisan dan melakukan pencarian tanpa perlu mengetikan mengenai hal-hal yang mendukung implementasi keyword secara lengkap dan terperinci, mahasiswa system temu kembali pada aplikasi. hanya perlu mengetikan kata kunci pada pencarian Metadata koleksi dokumen tesis yang digunakan dokumen,makan semua isi yang berhubungan antara tahun 2010 – 2016 yang berjumlah 169 dengan katakunci yang sedang dicari akan record. Data tersebut tidak berurutkan, Dari hasil ditampilkan secara lengkap. penelusuran informasi, dihasilkan 6 dokumen tesis Penelitian ini menggunakan vektor space yang sering dilihat, pada tahap selanjutnya model yang merupakan salah satu metode penelitian ini mengambil dari enam dokumen tesis informasi retrival yang bertujuan untuk sebagai semple pada penelitian kali ini. mempermudah dalam proses temu kembali informasi pada dokumen berbasis text digital, Information Retrieval System penelitian ini pernah dilakukan oleh (Zain & Pengambilan informasi menunjukkan Suswati, 2016) pada perpustakaan fakultas Teknik proses pencarian informasi yang diperlukan (Zhou, universitas madurra menggunakan 3 data dan Liu, & Liu, 2012) Information retrieval (IR) menghasilkan tiga rengking yang berbeda dari umumnya berkaitan dengan pencarian dan query yang di input pada sebuah system, Penelitian pengambilan informasi berbasis pengetahuan sebelumnya dilakukan oleh (Elektro et al., 2017) (Sharma & Patel, 2013) sistem information perhitungan kemiripan dokumen menggunakan retrieval (IR). Salah satu penerapan prinsip vector space model. Sistem secara otomatis akan relevansi yang sejak dahulu digunakan dalam melakukan indexing secara offline dan temu pengembanngan sistem (Lestari, 2016) kembali (retrieval) secara real time. Proses Information Retrieval System menemukan retrieval dimulai dengan mengambil query dari informasi yang biasanya dalam bentuk dokumen pengguna, kemudian sistem menghitung dari sebuah data yang tidak terstruktur dalam kemiripan antara keyword dengan daftar bentuk teks untuk memenuhi kebutuhan informasi dokumen yang diwakili oleh term-term di dalam dari koleksi data yang sangat besar umumnya index. Dokumen akan ditampilkan diurutkan tersimpan dalam database computer (Amin & berdasarkan dokumen yang paling mirip. Purwatiningtyas, 2015) Penelitian sebelumnya mengenai sitem temu kembali yang di lakukan oleh (Putung et al., 2016) Vector Space Model yang menjelaskan pencarian informasi dokumen Model ruang vektor memberikan skripsi. Terdapat dua proses utama dalam sistem sebuah kerangka pencocokan parsial Hal ini temu kembali informasi yaitu indexing dan dicapai dengan menetapkan bobot non-biner retrieval. Proses indexing adalah proses untuk untuk istilah indeks dalam query dan dokumen memberikan bobot pada kata dalam dokumen, (Amin & Purwatiningtyas, 2015) Tidak hanya metode pembobotan pada penelitian ini untuk pencarian teks, pencarian informasi juga menggunakan metode pembobotan TF-IDF. dapat query elemen multimedia seperti Prosesretrieval adalah proses untuk menghitung gambar,suara,(Yulianto, Budiharto, & kemiripan query terhadap dokumen. Kartowisastro, 2017) metode ini melihat tingkat Tujuan penelitian ini Untuk kedekatan atau kesamaan (smilarity) term dengan mengimplementasikan retrieval system model cara pembobotan term. Dokumen dipandang pada aplikasi Pengambilan informasi menjadi sebagi sebuah vektor yang memiliki magnitude bidang penelitian yang penting dibidang ilmu (jarak) dan direction (arah). Pada Vector Space komputer. Dalam makalah ini, peneliti mewakili Model, sebuah istilah direpresentasikan dengan berbagai model dan teknik untuk pengambilan sebuah dimensi dari ruang vektor. Relevansi informasi. menjelaskan metode pengindeksan sebuah dokumen ke sebuah query didasarkan pada yang berbeda untuk mengurangi ruang pencarian similaritas diantara vektor dokumen dan vektor dan teknik pencarian yang berbeda untuk query.(Zain & Suswati, 2016) dokumen dan query mengambil informasi. Dari aplikasi direpresentasikan sebagai vektor dan sudut antara keduanya.(V. K. Singh, Singh, Vishwavidyalaya, P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem … Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018 Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018 43 Programmer, & Vishwavidyalaya, 2015) vektor dihitung menggunakan fungsi cosinus kesamaan. Penelitian ini dilaksanakan dalam beberapa Efektivitas VSM sebagian besar tergantung pada tahapan yang diilustrasikan pada Gambar 1. Data istilah pembobotan yang diterapkan (Harcourt & yang diproses dalam sistem ini adalah koleksi Japheth, 2016) memungkinkan hasil penghitungan dokumen digital dan query yang telah disiapkan menjadi peringkat sesuai dengan ukuran sebelumnya. kesamaan(J. N. Singh, 2012) Dokumen yang relevan adalah yang paling dekat dengan query yang diberikan. Dengan cara yang sama, dua dokumen akan dianggap relevan jika mereka berada diwilayah tetangganya satu sama lain(R.K.Makhijani1, I.N.Bharambe2) e. Membuat Ranking. Setelah menghitung nilai cosinus lalu di buat perangkingan dari dokumen- dokumen tersebut Dokumen tesis yang sering dilihat menjadi sample pada penelitian ini. Sumber: (Afandi & Ardiansy, 2015) Contoh : Query (Q) = Kajian metode Naive Bayes Gambar1. Ilustrasi Model Sistem Temu Kembali 1 (D1) = Kajian Penerapan Algoritma C45, Naive Informasi Bayes Dan Neural Network Untuk Memenuhi Penilaian Data Karyawan Service Level Agreement Langkah metode vector space model Di Bank 2 (D2) = Alternatif Pemilihan Sepeda Motor a. Menghitung bobot dokumen dengan tf-idf Idf Dengan Metode Analytic Hierarchy Process(Ahp): =log(D/df) Studi Kasus Pada Masyarakat Purwokerto b. Menghitung jarak tiap dokumen dan query 3 (D3) = Evaluasi Customer Knowledge Sqrt (Q) = Sqrt ( ∑) Management Pada Situs E-Commerce Sqrt (D) = Sqrt ( âˆ‘í µí±› =1 í µí±„2 ) 4 (D4) = Kajian Perbandingan Efektivitas í µí±— í µí°½ pencarian lajur terpendek menggunakan c. Menghitung Dot Product Sum í µí±› 2 algoritmatabu search ant colony optimization (Q * Di) = ( âˆ‘í µí±— = Dí µí°½, ) í µí°½ 5 (D5) = Knowledge Management System Pada d. Menghitung Similaritas Cosine ÆŸ Event Organizer Menggunakan Pendekatan í µí±„ ∗ í µí°· Metode Specific Actions Berbasis Web-Mobile: | | í µí±„ ∗ |í µí°·| Studi Kasus Kampus Amik Bsi Pontianak 6 (D6) = Penerapan Metode Adaptive-Network- Based Fuzzy Inference System (Anfis) Model Sugeno Untuk Memprediksi Index Saham : Studi Kasus Saham Lq45 Idx. HASIL DAN PEMBAHASAN Tabel 1. Perhitungan tf (Term Frequency) Token Q Dokumen DF Token Q Dokumen DF 1 2 3 4 5 6 1 2 3 4 5 6 Actiones 0 0 0 0 0 1 0 1 manage 0 0 0 1 0 1 0 2 Adaptive 0 0 0 0 0 0 1 1 masyarakat 0 0 1 0 0 0 0 1 Algoritma 0 1 0 0 1 0 0 2 prediksi 0 0 0 0 0 0 1 1 Alternatif 0 0 1 0 0 0 0 1 metode 1 0 1 0 0 1 1 3 Analytic 0 0 1 0 0 0 0 1 mobile 0 0 0 0 0 1 0 1 Banding 0 0 0 0 1 0 0 1 model 0 0 0 0 0 0 1 1 Based 0 0 0 0 0 0 1 1 motor 0 0 1 0 0 0 0 1 Bayes 1 1 0 0 0 0 0 1 naive 1 1 0 0 0 0 0 1 Cari 0 0 0 0 1 0 0 1 network 0 1 0 0 0 0 1 2 Colony 0 0 0 0 1 0 0 1 neural 0 1 0 0 0 0 0 1 Costomer 0 0 0 1 0 0 0 1 nilai 0 1 0 0 0 0 0 1 Data 0 1 0 0 0 0 0 1 optimization 0 0 0 0 1 0 0 1 Dekat 0 0 0 0 0 1 0 1 organizer 0 0 0 0 0 1 0 1 E-commers 0 0 0 1 0 0 0 1 pendek 0 0 0 0 1 0 0 1 Sumber: (Fauzi & Ginabila, 2019) P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem … Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018 44 Jurnal PILAR Nusa Mandiri Vol. 14, No. 2 September 2018 Sebelum melakukan perhitungan tf , perlu hasil Perhitungan tf , data sample dari jumlah melakukan indexsing dan filtering terlebih dahulu dokumen yang ada dihasilkan 60 token dari 6 dari semua dokumen yang ada, agar data yang di dokumen dan satu query, untuk mendapatkan hasilkan dari setiap dokumen memiliki arti yang jarak dokumen dan query, di perlukan memiliki makna. D1, D2, D3, D4,D5,D6 = Dokumen perhitungan idf yang di hasilkan dari tokenasi tf = banyak kata yang dicari pada sebuah hasil perhitungan pada table 2 berikut: dokumen. D = total dokumen, df = Banyak dokumen yang mengandung kata yang dicar,Dari Table 2. Perhitungan Term Frequency - Inverse Document Frequency Idf tf*idf Log Q D1 D2 D3 D4 D5 D6 (D/df) 0.778 0 0 0 0 0 0.778 0 0.778 0 0 0 0 0 0 0.778 0.477 0 0.778 0 0 0.778 0 0 0.778 0 0 0.778 0 0 0 0 0.778 0 0 0.778 0 0 0 0 0.778 0 0 0 0 0.778 0 0 0.778 0 0 0 0 0 0 0.778 0.778 0.778 0.778 0 0 0 0 0 0.778 0 0 0 0 0.778 0 0 0.778 0 0 0 0 1 0 0 0.778 0 0 0 0.778 0 0 0 0.778 0 0.778 0 0 0 0 0 0.778 0 0 0 0 0 0.778 0 0.778 0 0 0 0.778 0 0 0 Sumber: (Fauzi & Ginabila, 2019) TF-IDF (Term Frequency - Inverse Document digunakan untuk pembobotan dalam Information Frequency) merupakan perhitungan statistik yang Retrieval dan text mining. Nilai TF-IDF (Term bertujuan untuk memberikan gambarkan Frequency - Inverse Document Frequency) akan seberapa penting sebuah kata terhadap sebuah meningkat seiring dengan banyaknya jumlah kata koleksi dokumen yang tersedia. TF-IDF (Term yang sering muncul di dalam koleksi dokumen. Frequency - Inverse Document Frequency) Table 3. Perhitungan Jarak Q-D Jara Q-D Q D1 D2 D3 D4 D5 D6 0 0 0 0 0 0.605 0 0 0 0 0 0 0 0.605 0 0.605 0 0 0.605 0 0 0 0 0.605 0 0 0 0 0 0 0.605 0 0 0 0 0 0 0 0 0.605 0 0 0 0 0 0 0 0 0.605 0.605 0.605 0 0 0 0 0 0 0 0 0 0.605 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0.605 0 0 0 0 0 0 0 0.605 0 0 0 0 0.605 0.605 0 2.422 6.660 7.871 3.027 7.660 9.082 8.099 SQRT (Q) SQRT (D) 1.556 2.580 2.805 1.739 2.767 3.013 2.845 Sumber: (Fauzi & Ginabila, 2019) Dokumen dipandang sebagi sebuah vektor yang vektor dokumen dan query,panjang dokumen memiliki magnitude (jarak) dan direction (arah). cendrung memiliki frekuensi kemunculan kata Pada Vector Space Model, sebuah istilah yang besar.Setelah diketahui perhitungan jarak direpresentasikan dengan sebuah dimensi dari antara Q-D dengan menggunakan rumus Sqrt (D) ruang vektor. Relevansi sebuah dokumen ke = Sqrt ( âˆ‘í µí±› =1 í µí±„2 ). sebuah query didasarkan pada similaritas diantara í µí±— í µí°½ P-ISSN: 1978-1946 | E-ISSN: 2527-6514 | Information Retrival Sistem … Jurnal Terakreditasi Peringkat 4 berdasarkan Surat Keputusan Dirjen Risbang SK Nomor 21/E/KPT/2018
no reviews yet
Please Login to review.