Perancangan Aplikasi Web Scraping Untuk Koleksi Konten Berbasis XML

Perancangan Aplikasi Web Scraping Untuk Koleksi Konten Berbasis XML. --  Di internet banyak sekali data tentang informasi dan pengetahuan yang dapat dengan mudah didapat, tetapi data semacam ini begitu heterogen bentuk dan formatnya sehingga sangat sulit untuk dianalisa secara langsung.

Data dari internet biasanya berupa halaman situs menggunakan format HTML, dengan sebagian isi halaman tersebut merupakan informasi untuk pengguna manusia seperti tombol navigasi, pencarian gambar dan layout untuk memperindah dan mempermudah situs untuk dibaca. Bagian ini biasanya tidak dibutuhkan dalam proses analisa temu kembali informasi bahkan bisa dianggap sebagai noise karena bisa menurunkan kualitas hasil.

Baca Juga : MOOCs (Massive Open Online Courses) as New Educational Technology
Konten utama halaman situs biasanya terletak di tengah halaman, dimana bagian ini sudah umum diasumsikan sebagai intisari dari halaman tersebut oleh pengguna. Deteksi konten utama merupakan hal terpenting dalam proses ekstraksi konten utama untuk dipisahkan dari bagian lain seperti header, footer dan sidebar. Konten bukan data teks dieliminasi dalam proses ekstraksi konten utama, sehingga didapatkan data yang akurat sesuai dengan maksud dari halama situs tersebut.

Data semacam ini dapat digunakan sebagai korpus pada uji coba sistem temu kembali. Proses untuk memisahkan konten utama halaman situs dengan bagian yang tidak berhubungan dengan isi disebut dengan scraping. Dengan teknik ini konten utama suatu halaman situs dapat diekstrak, dikoleksi dan selanjutnya dapat diproses oleh proses pengindekan.


Teknik scraping dapat dilakukan dengan diantaranya menggunakan analisa HTML DOM (document object model) dan dengan menggunakan teknik pemrograman regular ekspresi. Kedua teknik ini mempunyai keunggulan tersendiri dan memberikan hasil yang tidak jauh berbeda. Pada teknik DOM dibutuhkan XQuery untuk mengekstrak konten utama dari halaman situs sedangkan pada teknik regular ekspresi menggunakan metoda penentuan pola yang menjadi awal dan akhir suatu konten utama pada halaman situs.

Hasil dari proses scraping dapat disimpan dalam berbagai macam format, dimana dalam penelitian ini hasil proses scraping akan disimpan dengan format XML. Diharapkan dengan data berformat XML ini, data akan lebih mudah untuk digunakan sebagai korpus pada temu kembali informasi (Utomo, 2013).

Studi Pustaka Tentang Web Data Extraction

Bing (2011) menyatakan bahwa web mining (pertambangan web) seringkali disebut web extraction ataupun web scraping bertujuan untuk menemukan informasi yang berguna atau 2 pengetahuan dari struktur hyperlink web, konten halaman, dan penggunaan data. Berdasarkan jenis utama dari data yang digunakan dalam proses pertambangan web, maka pertambangan web dapat dikategorikan menjadi tiga jenis: pertambangan struktur web, pertambangan konten web dan pertambangan penggunaan web.

Web data Extraction (ekstraksi data web) adalah proses penggalian informasi terstruktur dari sumber data web terstruktur atau semi terstruktur. Ekstraksi web juga disebut sebagai web data mining atau web scraping. Chaudhari dan Paikrao (2012) merancang perangkat lunak dengan fungsi mengekstrak halaman web pra target yang berisi data yang diinginkan dengan bantuan robot dan crawler web yang memberikan petunjuk tentang apa yang harus dicari dan untuk apa.

Ketika mencari halaman dari sebuah situs web, perangkat lunak juga akan mengikuti link apapun yang dapat menghubungkan dengan konten lain yang relevan. Proses untuk menemukan informasi yang berguna dapat dilakukan dengan metoda data scraping yang mencakup sejumlah metode yang berbeda untuk mendapatkan data dari situs web atau basisdata yang biasanya dilakukan dengan menggunakan perangkat lunak.

Baca Juga : Dampak Positif Dan Negatif Perkembangan Teknologi Informasi Dan Komunikasi
Jennings dan Yates, (2008) menyatakan salah satu metoda yang digunakan adalah screen scraping, yaitu program scraper hanya melakukan ekstraksi data kunci yang muncul pada tampilan layar. Program screen scraping akan mengabaikan bagian coding dan hanya mencari dan melakukan ekstraksi plain text dari sebuah halaman web. Disebut juga “web harvesting”, yang melibatkan penggunaan program scraper untuk mengekstraksi semua data yang berhubungan dengan struktur yang mendasari skrip HTML.

Dalam banyak penerapan, web scraping berguna untuk mendapatkan data dalam bentuk teks dari situs web lain dalam jumlah yang relatif besar. Dalam kaitannya dengan format data teks, maka format data XML dapat digunakan sebagai konten data yang diolah dan ditampilkan kembali dalam situs web yang menggunakan data hasil scrape dari situs web lain.

w3c.org menyatakan bahwa XML adalah bahasa markup untuk dokumen yang berisi informasi yang terstruktur. Informasi yang terstruktur berisi kata-kata, gambar dan beberapa indikasi peran apa yang dimainkan konten, misalnya isi di bagian judul memiliki arti yang berbeda dari konten dalam sebuah catatan kaki, yang berarti sesuatu yang berbeda dari konten angka atau konten sebuah tabel basis data. Sebuah bahasa markup adalah mekanisme untuk mengidentifikasi struktur dalam sebuah dokumen. XML mendefinisikan cara standar untuk menambahkan markup ke dokumen.

Source : http://garuda.ristekbrin.go.id/documents/detail/387106
Dengan perubahan seperlunya

Subscribe to receive free email updates:

2 Responses to "Perancangan Aplikasi Web Scraping Untuk Koleksi Konten Berbasis XML"

  1. This is such a great resource that you are providing and you give it away for free. I love seeing blog that understand the value of providing a quality resource for free. free email extractor with registration key

    ReplyDelete
  2. What is an outstanding post! “I’ll be back” (to read more of your content). Thanks for the nudge! how to send an email to all contacts in gmail

    ReplyDelete