Planeta nám kyne daty. A bude kynout dál. S dramatickými nárůsty dat jsme konfrontováni dnes a denně. Označení mega, giga či tera jsou u jednotek měřících objemy dat, vytlačovány prefixy peta, exa, zetta a nezřídka i yotta.
Už teď víme, kolik dat zde budeme mít v r. 2015. Výhledově známe snad i jejich hodinové přírůstky. V roce 2015 nás tedy zaplaví kolem 7 910 exabajtů (EB), což představuje ekvivalent 18 milionů knihoven(!) amerického kongresu ve Washingtonu. Ta dnes spravuje 147 milionů textových a obrazových titulů, včetně hlasových nahrávek, v regálech o celkové délce 1350 km. To vše představuje 462 TB dat.
Přitom ještě v r. 1986 bylo kolem nás rozseto pouhých 2,5 exabajtů dat, což je méně než jeden disk CD-ROM (730 MB) na obyvatele. Přesně to bylo 539 MB na hlavu.
Kolem 85 procent celkového objemu dat dnes tvoří tzv. nestrukturovaná data. Jaká data to jsou? Jde zejména o texty a hlasové a obrazové záznamy. Jazyk, který je vytváří, je ale sám o sobě strukturovaný či semistrukturovaný útvar. Pod nestrukturovanými daty však musíme rozumět data, která nelze vtěsnat do tabulek databází.
Z předchozího plyne, že asi jenom 15 procent všech dat je dnes uloženo v databázových systémech.
V minulosti jsme se setkávali pouze s transakčními daty pocházejícími z firemních aplikací, rezervačních systémů, odpovědních automatů a ještě tak pokladen nákupních center. Všechna tato data měla svou pevně definovanou strukturu. To byla – a stále jsou – data strukturovaná.
„Staré dobré časy – ani jsme si neuvědomovali jak dobré“, říká Bill Inmon, otec datových skladů v jednom ze svých posledních článků a dodává: „když jste tehdy navrhli datový model, mohli jste si být jistí, že data vám do něj hladce zapadnou. A když jste navrhli typ záznamu pro databázový systém, tak vám tento systém umožnil spolehlivě vkládat a uchovávat obrovské kvanta záznamů se stejnou strukturou. Jediné v čem se tyto záznamy lišily, byl jejich obsah. Struktura však zůstávala stejná.“
Vše se ale rapidně mění s příchodem internetu. Ten nás začal zásobovat množstvím nestrukturovaných záznamů, které si se striktně organizovanými databázemi nechtějí vůbec rozumět. Zkoušet dostat textovou informaci do databázové tabulky, je stejně efektivní, jako nabírat vodu cedníkem.
Tím, čím je pro správu strukturovaných dat databázový systém je pro nestrukturovaná data vyhledávací engine se svým indexem. Ten umí informace v textové podobě, připravit pro další zpracování.
Nárůsty dat skutečně nabývají galaktických rozměrů a to kromě internetu zejména díky chytrým telefonům, tabletům, čtečkám elektronického obsahu, nahrávkám z kontaktních center, televizím a Blu Ray přehrávačům, záznamům z CCTV kamer a mnoha dalším technologickým zařízením, např. obřím radioteleskopickým sítím soustavně monitorujícím vesmír kolem nás.
Co s tím? Je tady několik skutečností, při vědomí kterých bychom neměli začít ihned panikařit, nýbrž zachovat si chladnou hlavu. Jedna věc je celková suma dat a druhá – co se za ní ve skutečnosti skrývá.
Zatímco predikce o nárůstech dat se objevují takřka s týdenní pravidelností, jejich detailní rozbory zůstávají většinou na úrovni konstatování, že video obsah bude už brzy tvořit 50% všech dat nebo, že největší datové přírůstky přicházejí ze Severní Ameriky a z Evropy.
Vlastní analýze dat hrnoucích se na nás ze všech stran, je zatím věnován poměrně malý prostor. Tyto zprávy jsou spíše zaměřeny na bombastický obsah sdělení než na detailní rozbory stávající situace.
Jakou hodnotu vlastně mají, všechna ta valící se na nás data? Bude možné z nich vydolovat nějaká moudra? – správně bychom měli říci informace a znalosti. Anebo jde spíše o digitální smog, který pouze zamořuje svět kolem nás?
Jakou jejich část tvoří spam? Jak moc jsou tato data duplikována, resp. v kolika podobných verzích se nacházejí? Jakou část z nich tvoří metadata? Které informace budou použitelné pro podnikové znalostní systémy – a které jsou pouze hlušinou bez další trvalé hodnoty?
Data pro individuální uživatele a data pro firmy a organizace
Když hovoříme o záplavě dat, měli bychom je nejdříve rozdělit alespoň do dvou základních proudů: podniková data a data generovaná či používaná individuálními konzumenty dat.
Nepřeberné množství digitálních dat je zaměřeno na koncové spotřebitele a pro účely firemní informatiky jsou prostě k ničemu. Jedná se zde o celý segment zábavního průmyslu: počítačové hry, sdílení privátních obrazových záznamů, videoklipy, filmy a další podobný kontent. Pornografii nevyjímaje. Sem patří i většina obsahu sociálních sítí, které v současnosti zahrnují miliardy aktivních uživatelů.
Druhou velkou skupinou jsou firemní data, která zase svým obsahem nezasahují běžné konzumní uživatele internetu.
Stínová data a metadata
Málo se hovoří o podpůrných datech, které označujeme jako data stínová. Jedná se především o data, která souvisí s administrací uživatelských přístupů a profilů, různých záznamů o chování uživatelů, např. individuální historie vyhledávání apod.
Samostatnou kapitolu tvoří metadata, data o datech, která obsahují doplňkové informace o datech, řekněme „pod čarou“ – o jejich původu, autorství, času vzniku a mnoho dalších údajů. Metadata jsou častokrát důležitější než data samotná. Hrají zcela zásadní roli při analýze dat a rovněž jejich integraci.
Spam a de-duplikace dat
Kolik digitálního smetí tvoří spam šířený sítěmi k tomu určených (tzv. botnets) a na dálku programovaných k masovému přeposílání mailových zpráv pomocí zombie serverů?
Kolik dat je spravováno úplně zbytečně pouze díky mnoha verzím jednoho dokumentu, uchovávaného v různých úložištích v rámci jedné organizace? Výstupy informačních auditů až příliš často hovoří např. o více než 160 (!) verzích dokumentu. Podobným případem jsou řadu let a na různých místech uchovávané firemní dokumenty, které už celé roky nebyly otevřeny žádným uživatelem.
Podobně kritických pohledů na narůstající objemy dat lze jistě vymyslet celou řadu. Tady šlo pouze o několik příkladů. Data jsou jenom surovinou pro znalostní ekonomiku, atomizované informace a znalosti. Abychom z nich získali opravdu zlaté nuggety, musíme je podrobit hloubkovým analýzám. Ještě předtím však musí být vyčištěny a zbaveny nadbytečného balastu. Třeba pak už Big Data nebudou tak Big.
Jednou stejně bude muset přijít doba, kdy Big Data budou vystřídána érou Big Info či Big Knowledge. Až pak to teprve začne být zajímavé.
(Napsáno pro ICT Revue, březen 2012)
Zdroj: Captaview’s Blog
Související: The Economist: Drowning in numbers