Web Archiving(Perilaku Web)
Web
Archiving adalah proses mengumpulkan bagian dari WWW dan memastikan koleksi
tersebut diawetkan dalam suatu arsip, misalnya situs arsip, untuk diakses
peneliti, sejarawan, dan masyarakat umum pada masa datang. Besarnya ukuran Web
membuat arsiparis web umumnya
menggunakan web crawlers untuk pengumpulan secara
otomatis. Organisasi pengarsip web terbesar yang menggunakan ancangan perangkak
web ini adalah Internet Archive yang berupaya memelihara arsip dari seluruh
Web. Perpustakaan nasional, arsip nasional, dan berbagai konsorsium organisasi
lain juga terlibat dalam upaya pengarsipan konten Web yang memiliki nilai
penting bagi mereka. Perangkat lunak dan layanan komersial juga tersedia bagi
organisasi yang ingin mengarsipkan konten web mereka sendiri untuk berbagai
keperluan.
Cara
kerja web archiving
A.
Remote Harvesting
Merupakan cara yang plaing umum dalam web archiving dengan
menggunkana teknik web crawlers yang secara otomatis melakukan proses
pengumpulan halaman web. Metode yang digunakan web crawler untuk mengakses
halaman web sama semeprti user mengakses halaman web menggunakan wob
browser. Contoh web crawler yang digunakan dalam web archiving seperti :
-
Heritrix
-
HTTrack
-
Wget
B.
On-Demand
Ada
banyak layanan yang dapat digunakan sebagai sumber archive web
"on-demand", menggunakan teknik web crawling. Contohnya seperti:
-
Aleph Archives
-
archive.is
-
Archive-It
-
Archivethe.net
-
Compliance WatchDog by SiteQuest
Technologies
-
freezePAGE snapshots
-
Hanzo Archives
-
Iterasi
-
Nextpoint
-
Patrina
-
PageFreezer
-
Reed Archives
-
Smarsh Web Archiving
-
The Web Archiving Service
-
webEchoFS
-
WebCite
-
Website-Archive.com
C.
Database archiving
Databasa Archiving mengacu pada metode untuk menarsipkan konten
database-driven websites. Hal ini biasanya memerlukan ekstraksi konten
database ke standard schema, sering menggunakan XML. Setelah disimpan dalam
format standar, konten yang diarsipkan dari beberapa databse dapat tersedia
untuk diakses dengan menggunakan single access system. Motode ini digunkanan
seprti pada DeepArc dan Xinq masiing masing dikembangkan oleh
Bibliothèque nationale de France dan National Library of Australia.
D.
Transactional archiving
Transactional archiving merupakan event-driven yang mengumpulkan
transaksi yang berlangsung antara web server dan web browser.
Hal ini terutama digunakan untuk menjamin keaslian dari isi suatu
website, pada tanggal tertentu. Hal ini sangatlah penting untuk organisasi atau
perusahaan yang perlu mematuhi persyaratan hukum atau peraturan untuk
mengungkapkan dan mempertahankan informasi.
Sistem yang digunakan pada transactional archiving biasanya beroperasi
dengan memeriksa setiap permintaan HTTP dan respon dari web server,
menyaring setiap aktifitas untuk menghilangkan konten yang duklikat dan secara
permanen disimpan sebagai bitstreams. Sebuah sistem transactional archiving
membutuhkan instalasi perangkat lunak pada web server, dan karena hal itu maka
metode ini tidka dapat mengumpulkan konten dari remote website.
Tidak ada komentar:
Posting Komentar