Nestrukturovaná data: Kolik jich je? – Datová & kontextová žurnalistika

Už jste to slyšeli? Osmdesát až pětaosmdesát procent všech dat kolem nás je nestrukturovaných. Tedy jenom patnáct až dvacet procent dat sedí v pevně definovaných strukturách tabulek databází. Jednou se jako zdroj této informace uvádí Gartner, jindy IDC, Merrill Lynch nebo IBM.

Odkud se všechna ta čísla berou? A jak je prokázat?

„Množství informací se zdvojnásobuje po každých 1100 dnech, tedy zhruba po třech letech. Nicméně čas, který máme k zpracování těchto narůstajících informací je stále stejný: 1440 minut denně.“

Tento známý výrok Billa Jensena z knihy Simplicity platí už jen z jeho druhé poloviny. Množství dat se v organizacích zdvojnásobuje přinejmenším za polovinu Jensenem uváděného času.

Materiál IBM The Toxic Terabytes z roku 2006 dokonce uvádí, že do čtyř let můžeme počítat s tím, že celosvětová data se budou zdvojnásobovat každých jedenáct (!) hodin. Je tomu dnes v r. 2010 skutečně tak?

Každopádně nárůst dat je v dnešní době závratný. Zatímco před asi dvaceti lety pracovaly profesionální počítače s kilobajty a megabajty dat, dnešní školáci jich se svými laptopy spravují gigabajty a mezi profesionály se běžně hovoří o tera (10¹²) a petabytech (10¹⁵ ). Následují exa (10¹⁸ ), zetta (10²¹ ) a yotta (10²⁴ ) bajty.

Jedna ze studií IDC hovoří o tom, že v roce 2006 bylo celkem vygenerováno 161 exabajtů dat, což představuje tři milionkrát více dat než se nacházelo v dosud vydaných knihách. Podle jiné studie společnosti Cisco v roce 2013 dosáhne objem IP komunikace dvou třetin zettabajtu, tj. 667 exabajtů. Video obsah na internetu bude v r. 2013 představovat 18exabajtů měsíčně a mobilní datová komunikace přenese v tom samém roce měsíčně dva exabajty dat.

Pro tak často uváděných 80 procent nestrukturovaných dat nelze dohledat žádné seriozní průzkumy, o které by bylo možné se opřít. Na druhé straně, expert přes data Philip Russom zThe Datawarehouse Institute (TDWI) prezentoval v r. 2007 ve své práci zcela jiné údaje. Nejprve rozdělil široké datové spektrum na:

Strukturovaná data. Jeden z extrémů datového kontinua. Tato data se vyskytují zejména v databázích různých typů.

(Finanční transakce, data z různých snímačů a RFID čteček, aplikací Business Intelligence a datových skladů)

Nestrukturovaná data. Opačný extrém k předchozímu zahrnující dokumenty jakými jsou soubory z textových editorů, webové stránky, e-maily, audio a video.

(Těmito daty se zabývá Content Management, který disponuje mnohem širším záběrem, než jeho předchůdce Document Mangement)

Semistrukturovaná data. Vyplňují prostor definovaný oběma výšeuvedenými extrémy.

(Data z tabulkových procesorů, RSS feeds a XML dokumentů)

Grafické znázornění datového spektra/kontinua:

Podle tohoto průzkumu bylo 47 procent dat strukturovaných, 31 procent nestrukturovaných a zbylých 22 procent semistrukturovaných. I když dvě poslední kategorie označíme jako nestrukturovaná data – dostáváme se na 53 procent.

To ale stále není oněch 80-85 procent, které jsou běžně uváděny.

Zdroj: Captaview’s Blog