Archivace internetu
Archivace internetu je proces sbírání části obsahu internetu a zajištění, že sbírané objekty jsou dlouhodobě uchovávány a zpřístupňovány pro budoucí badatele, historiky a veřejnost. Archivování internetu se obvykle provádí automaticky pomocí robotu (web crawlers). Největší institucí, která se archivací internetu zabývá je Internet Archive, v česku WebArchiv.
Sběr webu
Archivují se obvykle všechny součásti obsahu internetu, včetně HTML, stylů CSS, JavaScriptu, digitálních obrázků a multimediálních souborů. Také se skladují metadata související s těmito objekty, jako jsou informace o tom, kdy byl objekt získán, jakého je typu, jakou technologií byl sklizen, jak je velký atp. Metadata jsou důležitá pro určení autenticity a původnosti dat.
Nejčastěji se internet sbírá pomocí robotů, které vidí stránky podobně jako uživatel. Používané roboty jsou například:
- BRJBot
- Heritrix
- HTTrack
- Offline Explorer
Související články
Externí odkazy
- International Internet Preservation Consortium (IIPC) –
- International Web Archiving Workshop (IWAW)
- Library of Congress, Web Capture
- Web archiving bibliography
- WebArchivist
- Projekty:
- CyberCemetery
- Digital Archive of Chinese Studies
- Internet Memory Foundation (dříve European Archive Foundation)
- Hanzo Archives
- Internet Archive
- Portuguese Web Archive
- On-demand Web Archiver
- The Library of Congress, National Digital Information Infrastructure and Preservation Program
- UK Web Archiving Consortium
- Archivujem.cz - Archiv skončené inzerce