Web Crawlers
A. Selection policy
Sebuah studi tahun 2009 menunjukkan bahkan
indeks mesin pencari skala besar tidak lebih dari 40-70% dari web yang dapat
diindeks. Penelitian sebelumnya oleh Steve Lawrence dan Lee Giles menunjukkan
bahwa tidak ada mesin pencari yang mengindeks lebih dari 16% dari Web pada
tahun 1999.Merancang kebijakan pemilihan yang baik memiliki kesulitan tambahan:
ia harus bekerja dengan informasi parsial, karena set lengkap halaman Web tidak
dikenal selama perayapan. Selection Policy Meliputi
- Restricting followed links (Membatasi tautan yang diikuti)
- URL normalization (Normalisasi URL)
- Path-ascending crawling (Perayapan jalur-naik)
- Focused crawling (Perayapan terfokus)
B. Revisit policy
Memiliki sifat yang sangat dinamis, dan
merayapi sebagian kecil dari Web dapat memakan waktu berminggu-minggu atau
berbulan-bulan. Pada saat perayap Web telah menyelesaikan perayapannya, banyak
peristiwa dapat terjadi, termasuk pembuatan, pembaruan, dan penghapusan. Dari
sudut pandang mesin pencari, ada biaya yang terkait dengan tidak mendeteksi
suatu peristiwa, dan dengan demikian memiliki salinan sumber daya yang sudah
usang. Fungsi biaya yang paling sering digunakan adalah Freshness dan Age.
C. Politeness policy
Politeness policy dapat mengambil data jauh
lebih cepat dan lebih dalam dari pada pencari manusia, sehingga mereka dapat
memiliki dampak yang melumpuhkan pada kinerja suatu situs.Seperti dicatat oleh
Koster, penggunaan crawler Web berguna untuk sejumlah tugas, tetapi disertai
dengan harga untuk masyarakat umum.
D. Parallelization policy
Crawler Parallel adalah Crawler yang menjalankan banyak proses
secara paralel. Tujuannya adalah untuk memaksimalkan kecepatan unduhan sambil
meminimalkan overhead dari paralelisasi dan untuk menghindari unduhan berulang
pada halaman yang sama
Apakah Crawler Diperbolehkan di Indonesia?
- Permasalahan hukum Indonesia yang berkaitan
dengan crawler ini adalah hukum Hak Kekayaan Intelektual (HKI), khususnya hak
cipta dan merek. Hal ini dikarenakan, web page (halaman situs) merupakan suatu
karya cipta yang dilindungi oleh hukum
- Dalam UU No. 15 Tahun 2001 tentang Merek yang telah merevisi UU No 14 Tahun 1997 maupun dalam UU No.12 Tahun 1997 tentang Hak Cipta, tidak ada ketentuan yang secara spesifik menyebutkan masalah crawler ini.


Comments
Post a Comment