Libor Coufal: Každý rok nastává sklizeň českého internetu

David Šmehlík, 18.02.2009, 16:23, 23,970 přečtení

Libor Coufal

Projekty: WebArchiv
Profil: Facebook, LinkedIn

Libor Coufal je šéfem týmu internetového archivu Národní knihovny ČR.

Jak dlouho již WebArchiv funguje a kdy vznikla myšlenka na jeho založení?

Archivovat jsme začali v roce 2001, ale samozřejmě tomu předcházela určitá příprava, takže prvopočátek sahá někde do roku 1999. Trvalo nějakou dobu, než se projekt „rozjel“, řekl bych, že „na plné obrátky“ fungujeme od roku 2005.

Inspiraci jsme získali od jiných podobných projektů. O něčem takovém začala s postupem času uvažovat každá národní knihovna ve vyspělých státech, protože s rozvojem webu se na něj přesunula velká část publikovaných tex­tů.

Jako Národní knihovna ČR máme zákonnou povinnost archivovat vše, co se objevuje v tištěné podobě. Publikace na internetu je rozšíření naší mise.

Jaké je vaše technologické zázemí?

Máme několik serverů pro různé věci, „na sklízení“ používáme jeden z nich.

Program, který používáme, se jmenuje Heritrix. Je to Open Source na podobné bázi, jako jsou crawlery, které používá např. Google, s tím rozdílem, že je specializován pro archivaci webu. Využívá jej většina institucí zabývajících se archivací webů.

Kolik lidí v tuto chvíli na WebArchivu spolupracuje?

V první řadě jde o tři spolupracující instituce.

Hlavním organizátorem je Národní knihovna, která zajišťuje „netechnickou část“. Dále je zde Ústav výpočetní techniky na Masarykově univerzitě v Brně, kde máme své techniky zajišťující běh serverů a zpřístupňování dat. A konečně – v Moravské zemské knihovně v Brně máme člověka, který tuto činnost koordinuje.

U nás v Národní knihovně jsme 3, v Ústavu výpočetní techniky na projektu střídavě spolupracuje 7 lidí podle toho, jak je zrovna potřeba, v Moravské zemské knihovně je, jak už jsem řekl, jeden člověk.

Kolik zdrojů v tuto chvíli WebArchiv prochází a pravidelně archivuje?

Zde je potřeba odlišit dvě rozdílné metody.

Jednak zdroje vybíráme ručně, k tomu se ještě vrátím, a jednak 1× ročně provádíme automatizovanou „sklizeň“ celého českého webu, tj. všech stránek, které mají tld .cz. To probíhá čistě pomocí robota. Jako „vstupní semínka“ používáme všechny registrované české domény, těch je dnes něco přes 500.000.

Ručně vybíraných zdrojů je přes 800, v tuto chvíli (únor 2009, pozn. red.) je to kolem 830. Ty procházíme a archivujeme každé 2 měsíce. Jejich počet samozřejmě neustále roste, přírůstek za loňský rok byl zhruba 270 zdrojů.

A co weby mimo .cz domény?

Už teď archivujeme ručně v rámci našich výběrových sklizní věci, které mají bohemikální charakter a leží na jiných tld než .cz.

Kromě toho jsme vytvořili rozšíření crawleru, které je schopné analyzovat obsah stránek a určit, zda stránky mají bohemikální charakter. Od letoška tedy plánujeme sklízet i věci ležící mimo domény .cz také v rámci automatizovaných sklizní.

Je ještě jiný způsob,jak se stránka může dostat do WebArchivu?

Kdokoliv nám pomocí formuláře na našich stránkách může poslat návrh na archivaci zajímavého webu. Tyto příspěvky určitě vítáme.

„1× ročně provádíme automatizovanou „sklizeň“ celého českého webu, tj. všech stránek, které mají tld .cz.“

Navíc využíváme ještě jednu možnost: Žadatelé o ISSN při registraci periodika v přihlašovacím formuláři mohou vyplnit i webovou adresu. Tyto údaje se pak ze Státní technické knihovny posílají i k nám do WebArchivu.

Co je kritériem pro ruční zařazení stránek do WebArchivu?

Máme sadu kritérií, která jsou poměrně komplikovaná, ale kdybych to měl zjednodušit, je důležité, aby měly stránky to, čemu říkáme bohemikální charakter. To znamená, že autor nebo vydavatel musí být Čech a web musí být v českém jazyce, případně musí pojednávat o České republice a nebo se k ní nějakým způsobem vztahovat.

Důležitý je samozřejmě také samotný obsah. Archivujeme věci, které mají dlouhodobější hodnotu z hlediska badatelského – tedy to, co by lidi, kteří budou za pár let dělat nějaký výzkum, mohlo zajímat. Zaměřujeme se hlavně na vědecké publikace, ale internet dnes vypovídá mnohé i o stavu společnosti, takže se zajímáme i o populárnější věci. Určitě ale nepůjdeme do takového extrému, abychom archivovali sociální sítě jako Facebook.

Máte představu o tom, jak je v tuto chvíli webové úložiště WebArchivu veliké?

V současné době je to kolem 12 TB. Většinu dat tam tvoří ta z automatizovaných celoplošných sklizní, dnes jednu sklizeň tvoří asi 3 TB. Ručně vybírané zdroje tolik místa rozhodně nezabírají, jde asi o 150 GB na jednu sklizeň.

Archivujete všechny položky jednotlivých zdrojů, nebo jen vybraná data?

Zaměřujeme se hlavně na texty. Web už dnes samozřejmě není to, čím byl na úplném začátku, tj. text propojený odkazy a pár obrázků k tomu. Máme videa, máme spoustu grafiky. Pokud to odpovídá kontextu, v malé míře tyto prvky také archivujeme, ale důležitý je pro nás stále textový obsah. Pro ty ostatní prvky máme limit 100 MB na jeden.

Mluvil jste o tom, že sociálním sítím se WebArchiv vyhýbá. Co Vy sám a sociální sítě?

Sociální sítě využívám. Mám účet na Facebooku, ale nejsem na něm zrovna dvakrát aktivní. Více využívám LinkedIn, ten používám poměrně hodně. Myslím si, že sociální sítě jsou skvělá věc a že každý si může najít network, který jej zaujme.

Jakým způsobem reagujete na hrozbu evropského komisaře ohledně sociálních sítí?

Každý, kdo si takový účet zakládá, se rozhoduje sám za sebe, zda uvede „citlivá“ a osobní data a co kam vloží. Lidé si mnohdy neuvědomují, co vše o sobě publikují. Určitě nejsem zastáncem názoru, že by měl existovat nějaký „hlídač“, který by takový obsah reguloval. Každý je zodpovědný sám za sebe a za své činy. Takže určitě nevidím žádné velké ohrožení.

Kvůli práci trávíte na internetu spoustu času. Jaká služba Vás v poslední době na českém internetu zaujala?

Denně projdu tolik webů, že se mi to všechno míchá dohromady (směje se).

„Archivujeme věci, které mají dlouhodobější hodnotu z hlediska badatelského – tedy to, co by lidi, kteří budou za pár let dělat nějaký výzkum, mohlo zajímat.“

Weby služeb nepročesáváme, takže se s nimi téměř nedostanu do styku a osobně využívám spíše zahraniční služby. Příklady bych dovedl dát spíše z obsahových webů.

To by mě docela zajímalo… Co je pro Vás zajímavé čtení?

(Směje se.) Nenazval bych to přímo čtením, ona je to vážně práce, při které toho člověk moc přečíst nestihne. Snažíme se hledat kapky v moři mnoha a mnoha webů, které existují. Není moc času se na ně pravidelně vracet a sledovat je.

V poslední době jsme tady měli různé projekty od Člověka v tísni – na každý projekt mají vlastní webové stránky. Zajímavé jsou pro nás také výzkumné instituce, třeba Akademie věd, archivujeme také zprávy a výzkumné projekty vysokých škol.

Hovoří kolega: Zajímavé jsou také časopisy, které vedou jednotlivé fakulty. Líbil se mi také projekt o multikulturní výchově psaný formou příběhů z rodinného života. Jak říkal kolega, archivujeme hlavně weby obecně prospěšných společností. V jejich projektech se člověk dozví docela zajímavé věci a souvislosti.

Hovoří druhý kolega: Také byl dobrý Čertoděj. Ten fungoval poměrně krátkou dobu, archivovali jsme jej a pak se to „seklo“. A nezmínili jsme ještě Online žurnalistiku.

Otázka na závěr: Jak si představujete nejlépe strávených 30 minut?

(Směje se.) Na to se snad ani nedá odpovědět.
Přidej článek do své sociální sítě:
  • Facebook
  • TwitThis

Zaujal vás rozhovor? Přidejte si RSS 30minut.cz do své čtečky.

Komentářů: 5

Petr Kazda

18.02.2009

Cool clanek.

Sice neni tolik ‚podnikatelsky‘, ale otevrel mi oci.

Skoda jen, ze WebArcivh je dostupny jenom z knihovny.

Schazi mi odpoved na otazku, kolik denne unikatnich lidi web archiv pouziva.

Napr ve srovnani s webarchive.org z CR.

Inu?

iva panarese

19.02.2009

velice pusobive a poucne, well done bratre

Libor Coufal

19.02.2009

To Petr Kazda:

Tech cca 800 webu je pristupnych online odkukoliv na http://www.webarchiv.cz/vyhledej/. Je treba hledat podle URL, na vyhledavani pres klicova slova ve full-textech se pracuje (indexace a vlastni hledani neni az tak problem, problemem je rozhrani, pres ktere bude schopno weby prohlizet – pouzivali jsem WERA, ale kvuli stalym problemum s kvalitou zobrazeni jsme jej museli stahnout). Zbytek archivu (prevazna cast) je presne jak pisete zatim pristupny pouze v ramci Narodni knihovny. Je to skoda, ale bohuzel to tak musi byt kvuli autorskemu zakonu. Snad se to nekdy v blizkem budoucnu podari zmenit. Verte, ze bychom si neprali nic vic, nez umoznit pristup k celemu archivu. Podle nas nedava smysl, aby veci verejne pristupne komukoliv na webu, byli z archivu nepristupne, ale zakon je takovy. :(

Co se tyka statistik pristupu, tak radove je to pres 100 unikatnich navstev denne, cislo ale zahrnuje i pocitace v ramci knihovny, ktere maji stejnou IP adresu… Srovnani (s archive.org?) necham na Vas.

To Iva Panarese: dik, lil sis ;)

Coufalovi

19.05.2009

Tak jsme se něco přiučili, je to docela zajímavé a poučné.

Karel

10.01.2011

Pekny clanek o skvele sluzbe!
PS: Statistiky archive.org jsou na http://www.archive.org/stats/ denne navstevuje stranky > 1M lidi.

Vložte svůj komentář