Web Crawlers

 

sumber gambar: medium.com

A. Selection policy

    Sebuah studi tahun 2009 menunjukkan bahkan indeks mesin pencari skala besar tidak lebih dari 40-70% dari web yang dapat diindeks. Penelitian sebelumnya oleh Steve Lawrence dan Lee Giles menunjukkan bahwa tidak ada mesin pencari yang mengindeks lebih dari 16% dari Web pada tahun 1999.Merancang kebijakan pemilihan yang baik memiliki kesulitan tambahan: ia harus bekerja dengan informasi parsial, karena set lengkap halaman Web tidak dikenal selama perayapan. Selection Policy Meliputi

  1. Restricting followed links (Membatasi tautan yang diikuti)
  2.  URL normalization (Normalisasi URL)
  3.  Path-ascending crawling (Perayapan jalur-naik)
  4.  Focused crawling (Perayapan terfokus)

B. Revisit policy

    Memiliki sifat yang sangat dinamis, dan merayapi sebagian kecil dari Web dapat memakan waktu berminggu-minggu atau berbulan-bulan. Pada saat perayap Web telah menyelesaikan perayapannya, banyak peristiwa dapat terjadi, termasuk pembuatan, pembaruan, dan penghapusan. Dari sudut pandang mesin pencari, ada biaya yang terkait dengan tidak mendeteksi suatu peristiwa, dan dengan demikian memiliki salinan sumber daya yang sudah usang. Fungsi biaya yang paling sering digunakan adalah Freshness dan Age.

C. Politeness policy

sumber gambar: indoworx.com

    Politeness policy dapat mengambil data jauh lebih cepat dan lebih dalam dari pada pencari manusia, sehingga mereka dapat memiliki dampak yang melumpuhkan pada kinerja suatu situs.Seperti dicatat oleh Koster, penggunaan crawler Web berguna untuk sejumlah tugas, tetapi disertai dengan harga untuk masyarakat umum.

D. Parallelization policy

    Crawler Parallel  adalah Crawler yang menjalankan banyak proses secara paralel. Tujuannya adalah untuk memaksimalkan kecepatan unduhan sambil meminimalkan overhead dari paralelisasi dan untuk menghindari unduhan berulang pada halaman yang sama

Apakah Crawler Diperbolehkan di Indonesia?

- Permasalahan hukum Indonesia yang berkaitan dengan crawler ini adalah hukum Hak Kekayaan Intelektual (HKI), khususnya hak cipta dan merek. Hal ini dikarenakan, web page (halaman situs) merupakan suatu karya cipta yang dilindungi oleh hukum

 - Dalam UU No. 15 Tahun 2001 tentang Merek yang telah merevisi UU No 14 Tahun 1997 maupun dalam UU No.12 Tahun 1997 tentang Hak Cipta, tidak ada ketentuan yang secara spesifik menyebutkan masalah crawler ini.

Comments

Popular posts from this blog

Arsitektur Web dan Aplikasi Utama

Penulisan Games

Demokrasi Era Digital