Web Crawler(Perilaku Web)
Web crawler adalah
suatu program dari komputer yang melakukan penjelajahan pada world wide
web berdasarkan metode tertentu, secara otomatis dan melakukan pembaharuan
data apabila ada perubahan. Web crawler merupakan salah satu jenis
webrobots atau software agent. Berawal dari
URL yang telah terdaftar
yang disebut denganseeds. Crawler akan melakukan identifikasi
semua hyperlink dan memasukkan ke dalam daftar URL yang telah
dikunjungi atau yang disebut dengan crawl frontier. Crawl
frontier tersebut akan dilakukan pengindeksan dan akan dikunjungi secara
rekursif berdasarkan kesepakatan bersama antara penyedia
web crawler dan pemilik web.
WebCrawler merupakan mesin
metasearch yang memadukan hasil pencarian teratas dari Google , Yahoo! , Bing
Search (sebelumnya MSN Search dan Live Search ), Ask.com , About.com , MIVA , Looksmart dan
mesin pencari populer. WebCrawler juga memberikan pengguna pilihan
untuk mencari gambar, audio, video, berita, halaman kuning dan halaman putih. WebCrawler
adalah merek dagang terdaftar dari InfoSpace , Inc
WebCrawler adalah Search Egine
yang pertama menyediakan pencarian teks lengkap . WebCrawler
diciptakan pada tanggal 20 April 1994 oleh Brian Pinkerton di Universitas
Washington. WebCrawler dibeli oleh America Online pada tanggal 1 Juni
1995 dan dijual kepada Excite pada tanggal 1 April
1997. WebCrawler diakuisisi oleh InfoSpace pada tahun 2001
setelah Excite , (yang kemudian disebut Excite @ Home ), bangkrut.InfoSpace
juga memiliki dan mengoperasikan mesin metasearch Dogpile dan MetaCrawler .
Sejarah Web Crawler
Awal
kehadiran Web, untuk mengakses suatu web, user melakukan dua cara yakni cara
yang pertama user mengetahui alamat dari suatu web kemudian memasukkan alamat
web tersebut pada web browser. Cara yang kedua yakni dengan
mengikuti link dari web yang saat itu sedang diakses. Dengan semakin
meningkatnya jumlah web, dalam thesisnya Károly Csalogány mengatakan bahwa
hal ini memunculkan dua metode untuk mengakodimirnya yakni web
directories dan web crawler.
Web directories merupakan
web yang berisi kumpulan link yang dianggap berguna
bagi user dimana untuk mengkoleksinya membutuhkan campur tangan
manusia. Dikarenakan butuh sumber daya manusia yang tidak sedikit dan perlu memperbaharui
data terhadap web yang diperbaharui maka crawler dianggap lebih
efisien dan efektif
Kelebihan WEBCRAWLER
-
Fungsi web crawler untuk search engine
jauh lebih kompleks bahkan detail
-
Algoritma search engine raksasa seperti
google tidak mudah terungkap
Kekurangan WEBCRAWLER
-
Secara umum web crawler mengakses sebuah
url website melalui internet, proses crawling dapat dilakukan dengan teknik
multi-thread agar optimal.
-
Konten seperti teks dan metadata akan
disimpan pada media penyimpanan, sedangkan link/ url yang ditemukan akan disimpan
kedalam daftar antrian, dan dijadwalkan untuk proses berikutnya.
Sumber
:
Tidak ada komentar:
Posting Komentar