V prostředí internetu průběžně narůstá obrovské množství publikovaných dokumentů, které se postupně mění nebo zcela mizí. Pokud nebudou průběžně archivovány, tato významná součást národního kulturního dědictví bude nenávratně ztracena. Odpovědnost za archivaci webových zdrojů a jejich registraci v národní bibliografii nesou národní knihovny, příp. další depozitní knihovny.
Úlohou Webarchivu je řešení problematiky archivace národního webu, tj. bohemikálních dokumentů zveřejněných v prostředí sítě internet – shromažďování webových zdrojů, jejich archivace a ochrana a zajištění dlouhodobého přístupu k těmto archivovaným dokumentům. Provádí se jednak kompletní archivace, tj. automatický sběr „celého“ českého webu. Souběžně probíhá výběrová archivace (na základě URL nejzajímavějších webových zdrojů vybraných podle selekčních kritérií) a tematické archivace (zaměřené na určité aktuální téma, např. volby, povodně apod.). Webarchiv je od roku 2007 členem mezinárodního konzorcia pro archivaci webu IIPC.
Národní knihovna ČR provádí tři typy archivace:
Celoplošná sklizeň pokrývá veškeré webové zdroje s národní doménou *.cz. Jejich kompletní seznam má Webarchiv k dispozici díky podpoře sdružení CZ.NIC. Cílem celoplošných sklizní je zachycení obrazu českého internetu v daném čase. Tato celoplošná sklizeň je prováděna zpravidla jednou ročně.
Vzhledem k omezené kapacitě úložného prostoru není možné sklízet veškerý český web dostatečně. Z tohoto důvodu je budována kolekce zdrojů s kulturní, historickou, výzkumnou, případně další hodnotou napříč všemi tématy. Cílem této kolekce je vytvořit kurátorsky zpracovaný vzorek českého kulturního dědictví, které vzniká elektronicky.
Tematické kolekce jsou sbírky archivovaných zdrojů vztahující se k určitému tématu nebo události. Mohou být vytvářeny za účelem zachycení událostí, které mají širší ohlas v prostředí internetu, za účelem archivace konkrétního tématu, oboru nebo významné historické události.
Získávání dokumentů z webu je po technické stránce převážně automatický proces, kdy se na základě zadaných parametrů ve speciálním SW nástroji stahují data, indexují a ukládají do digitálního archivu. V současné době se používají a přizpůsobují volně dostupné SW nástroje s otevřeným zdrojovým kódem (Heritrix).
Nezbytnou součástí akvizice je stanovení kritérií výběru zdrojů a výběrová archivace jako intelektuální činnost s cílem registrace nejvýznamnější části publikací na I internetu v České národní bibliografii (ČNB). Praktické řešení získávání dokumentů je podmíněno řešením legislativy, zejména zákonné úpravy povinného výtisku.
Zdroje pro celoplošné sklizně jsou sklízeny na základě seznamu URL adres s doménou *.cz poskytovaného správcem domény, sdružením CZ.NIC.
Nejvýznamnějším kritériem pro výběr zdrojů do výběrových sklizní Webarchivu je bohemikální charakter zdroje.
Zdroje jsou do výběrových sklizní zařazovány zejména na základě jejich obsahu. Preferovány jsou zdroje s kulturní, vědeckou či historickou hodnotou, které mají originální a unikátní obsah a dlouhodobou badatelskou hodnotu. Více o kriteriích ...
Na základě autorského zákona jsou kompletní data z Webarchivu zpřístupňována pouze na terminálech v budově Národní knihovny ČR. Některé zdroje v rámci výběrových sklizní, na které byla uzavřena smlouva, jsou dostupné prostřednictvím webových stránek Webarchivu pomocí nástroje Wayback Machine.
Archivaci webu v České republice, zejména zpřístupnění archivovaných elektronických zdrojů, vymezuje Autorský zákon (č. 121/2000 Sb.). Tento zákon umožňuje knihovně prostřednictvím tzv. knihovní licence vytvářet rozmnoženiny díla pro své archivní a konzervační účely. Vzhledem ke znění zákona však není možné tyto rozmnoženiny díla volně zpřístupnit veřejnosti. Pro umožnění přístupu k výběrové části archivu je třeba získat souhlas vydavatele stránek.
Více o vývoji Webarchivu se dozvíte zde
Podrobněji o tom, jak Webarchiv archivuje webové zdroje, se dočtete v dokumentu Strategie budování sbírky Webarchivu.