Web Crawlers
sumber gambar: medium.com A. Selection policy Sebuah studi tahun 2009 menunjukkan bahkan indeks mesin pencari skala besar tidak lebih dari 40-70% dari web yang dapat diindeks. Penelitian sebelumnya oleh Steve Lawrence dan Lee Giles menunjukkan bahwa tidak ada mesin pencari yang mengindeks lebih dari 16% dari Web pada tahun 1999.Merancang kebijakan pemilihan yang baik memiliki kesulitan tambahan: ia harus bekerja dengan informasi parsial, karena set lengkap halaman Web tidak dikenal selama perayapan. Selection Policy Meliputi Restricting followed links (Membatasi tautan yang diikuti) URL normalization (Normalisasi URL) Path-ascending crawling (Perayapan jalur-naik) Focused crawling (Perayapan terfokus) B. Revisit policy Memiliki sifat yang sangat dinamis, dan merayapi sebagian kecil dari Web dapat memakan waktu berminggu-minggu atau berbulan-bulan. Pada saat perayap Web telah menyelesaikan perayapannya, banyak pe...