Data a datový mindset

Všechno se měří, sleduje a ukládá. Tvorba dat a jejich uchovávání definuje naši moderní společnost. Sledujeme tisíce statistických ukazatelů a vyhodnocujeme tisíce metrik. Žijeme ve světě dat. Kromě fotografií z dovolené, příspěvků na sociálních sítích a tabulek pro nadřízené generujeme také velké množství záznamů o našich činnostech: každé kliknutí, přihlášení na našem zařízení, každá transakce v našich knihovních systémech je někde zaznamenána a uložena.

V tomto kurzu se nebudeme zamýšlet, zda je to tak dobře nebo nikoliv či jaká rizika sebou doba datová nese. Vyjdeme z faktu, že každý den jako lidstvo vygenerujeme ohromná množství dat a zaměříme se na to, jaký pro nás doba datová může mít užitek. Fakt že data někde leží, totiž ještě nic neznamená - důležité je umět je efektivně využít při řešení problémů, rozhodování nebo v argumentaci.

1. Datový mindset

Data představují cenný zdroj. Data o našem chování na internetu a našich zákaznických a nákupních preferencích jsou zcela jistě cenným zdrojem (nejen) pro marketingové firmy. Data ale mohou představovat cenný zdroj pro nás samotné v běžném každodenním životě, ale i pro nás jako knihovníky a naše knihovny.

Jako informační profesionálové jsme školeni v efektivním vyhledávání informací. Najít odpovědi na otázky a vyřešit svou informační potřebu v tradičních zdrojích pro je pro nás každodenní chléb. V tomto modulu si do naší knihovnické výbavy přidáme dovednost, kterou nazveme datový mindset. Je to schopnost si při řešení problému nebo hledání odpovědi zastavit a zamyslet se, zda nejde o problém, jehož řešení by nám mohly alespoň z části poskytnout právě data.

Bez popisku

Datový mindset myšlenkově navazuje na trend evidence-based knihovnictví (knihovnictví založené na důkazech). To vychází z podobného trendu v medicíně (evidence-based medicine) a zaměřuje naši pozornost mimo jiné i na data. Představme si například, že se v malé městské knihovně rozhodujeme o pozvání spisovatelek a spisovatelů na několik autorských čtení. Jaké vybrat? O koho bude zájem?

Zamyslete se: Na čem můžeme založit rozhodnutí o tom, koho pozvat? Až budete mít na tuto otázku rozmyšlenou vlastní odpověď, rozklikněte si box níže a porovnejte ji s dalšími argumenty, které tam najdete.

Tak na čem tedy můžeme náš výběr autorů a autorek založit?

První, co mě asi napadne je, že se mohu řídit podle pocitů a intuice: co tak zhruba tuším, že se čte nebo jací autoři jsou podle mě aktuálně oblíbení a lidé by na ně do knihovny přišli?

Role intuice není zanedbatelná, evidence-based knihovnictví neříká, že na intuici nemáme brát ohled, ale pouze že bychom ji měli využít v kontextu dalších důkazů a dat: mezi takové může patřit například dotazník mezi čtenáři (s jakými českými autory se chcete setkat?) nebo jiné výzkumné metody (např. tabule vedle vstupu do knihovny s cedulkami "Chci aby tady četl/četla..." k doplnění).

Pomoci se správně rozhodnout nám ale hlavně mohou data: jací autoři a autorky jsou v současnosti nejprodávanější? Kdo v posledních třech měsících vydal novou knihu a bude tak mít nejspíš zájem ji propagovat? Má někdo taková data? Na zdroje dat se podíváme v dalším modulu.

Datový mindset najde své využití i v běžném životě a argumentaci. Situaci, kdy se nad nějakým tématem dohadujeme s rodinnými příslušníky, známe asi všichni. Tak například teď s tetičkou Anežkou debatujeme o tom, zda kriminalita v našem městě roste nebo klesá. Tetička argumentuje tím, že v médiích roste počet zpráv o násilných činech a že je zcela zjevné, že za každým rohem dnes číhá zločinec. My argumentujeme tím, že vyšší výskyt zpráv v médiích, navíc subjektivně vnímaný, nutně neznamená, že kriminalita skutečně roste - možná se o ní jen víc píše? Ani jeden z nás však nemá argument čím podpořit. Datový mindset nás zastaví a dovede k otázce: není toto situace, kdy nám mohou odpověď alespoň částečně poskytnout data? Existují nějaká data o vývoji kriminality? Pravděpodobně ano - ale o tom až v příštím modulu.

Víte že... v zahraničí se objevují specializovaná povolání datových knihovníků?

Jsou to školení profesionálové, kteří umí data hledat, pracovat s nimi, ukládat je a distribuovat dále. Co všechno může taková pozice vyžadovat z hlediska dovedností a znalostí vám přiblíží obsahová analýza pracovních poptávek datových knihovníků v USA.

What is a Data Librarian?: A Content Analysis of Job Advertisements for Data Librarians in the United States Academic Libraries

2. V jakých podobách k nám data přicházejí?

Data k nám mohou přicházet z různých podobách, respektive v různých úrovních zpracování. Specifickým typem zdrojů jsou expertní systémy, které se snaží simulovat rozhodovací proces odborníka: budou nám klást otázky a na základě dat uložených v systému nás dovedou ke správným informacím nebo rozhodnutí. V tomto kurzu nás však významněji budou zajímat jiné podoby zdrojů dat: faktografické či statistické databáze, které nám data často servírují v nějaké již zpracované podobě, a datové repozitáře, kde si ve většině případů můžeme surová data stáhnout v různých formátech a sami s nimi pracovat v dalších nástrojích (jako je například Excel) - ty nás pro praktickou práci v tomto kurzu budou zajímat ze všeho nejvíce. Všechny zmíněné podoby si ale i tak krátce a na příkladech představíme.

Bez popisku

Expertní systémy

Když přijdete za svým lékařem, zeptá se vás prvně na základní údaje (věk, aktuální váha atp.), a pak se vás bude ptát, jaké potíže vás trápí. Expertní systém funguje podobně, jen místo živého odborníka obsahuje bázi dat a znalostí zapsaných tak, aby zrcadlili znalosti a rozhodovací proces skutečného profesionála. Využívají se většinou pro podporu rozhodování: typickým expertním systémem je třeba digitální lékař. Zkuste si volně dostupný systém Symptom Checker on-line a tvařte se třeba, že vás trápí bolest hlavy a teplota. Expertní systémy jsou velmi specifickou formou zpřístupnění dat a v tomto kurzu se jimi nebudeme podrobněji zaobírat.

Faktografické a statistické databáze

Tyto zdroje nám často umožní data zobrazovat a provádět nad nimi základní analýzy nebo je vizualizovat pomocí základních grafů a map, aniž bychom je museli stahovat k sobě na počítač - a většinou ani není možné data v nich uložená stáhnout ve strukturované podobě k další práci s nimi. Vyzkoušejte si třeba práci s veřejnou databází Českého statistického úřadu. Patří sem i různé specializované faktografické databáze, které jako knihovníci dobře známe a zařadili bychom sem i známý faktografický systém Wolfram Alpha.

Datové repozitáře a surová data

Datové repozitáře jsou primárně místy, kde najdeme data ke stažení v různých formátech, o kterých si ještě budeme povídat. Může se jednat o repozitáře provozované třeba univerzitami nebo výzkumnými ústavy, či veřejnými a státními orgány a institucemi. Nejvýznamnějším repozitářem v oblasti veřejných dat je Národní katalog otevřených dat, ve kterém najdeme data od mnoha různých veřejných poskytovatelů. Ti zveřejňují data v rámci trendu tzv. otevřených dat. Než se posuneme dál k formátům, chvíli se u otevřených dat zdržíme.

3. Trend otevřených dat

Otevřená data jsou informace a čísla bezplatně a volně dostupná na internetu ve strukturované a strojově čitelné podobě a jsou zpřístupněna způsobem, který jejich využití neklade zbytečné technické či jiné překážky. Tolik jedna z definic trendu otevřených dat. Otevřená data mohou pocházet od mnoha subjektů včetně soukromých firem - nejčastěji se o nich ale hovoří v souvislosti s daty z veřejných institucí, nevládních organizací či státní správy.

Bez popisku

Tyto subjekty sbírají velká množství dat. Jejich zpřístupnění veřejnosti, která je pak může sama analyzovat či dále využívat, přináší mnohé výhody. Příkladem otevřených dat mohou být třeba data o příjmech a výdajích státu, seznamy poskytovatelů sociálních služeb, soupisy a data o chráněných krajinných oblastech nebo údaje z měření čistoty ovzduší v našem městě. Tato a mnohá další data stát a veřejné instituce mají a není důvod, aby byla nějak utajována nebo chráněna: jejich zveřejnění může přinést užitek. Jaký?

Zamyslete se: Proč by měly organizace zveřejňovat otevřená data? Jaké výhody to může přinášet? Až budete mít na tuto otázku rozmyšlenou vlastní odpověď, rozklikněte si box níže a porovnejte ji s dalšími argumenty, které tam najdete.

Tak jaké mohou být přínosy otevřených dat?

Tak v první řadě je to transparentnost: například v datech o rozpočtu našeho města se mohu podívat, jak se nakládá s veřejnými prostředky. To vede k větší možnosti kontroly: data mi umožňují dohlížet na konání veřejných orgánů či politiků, díky vlastní analýze dat se pak mohu lépe rozhodovat například u voleb.

Data jsou přístupná novinářům, ty nad nimi pak mohou také dělat analýzy a data ve srozumitelné podobě předávat čtenářům. Této praxi se říká datová žurnalistika: speciální datový tým má třeba redakce serveru iRozhlas.cz.

No a pak samozřejmě podpora ekonomiky a vznik dalších služeb: odborníci, neziskové organizace, firmy i jednotlivci mohou nad otevřenými daty budovat další aplikace a služby, které mohou nabízet dál. Tak třeba tahle mapa znečišťovatelů vznikla nad otevřenými daty péčí neziskové organizace. Kdo ve vašem okolí nejvíce znečišťuje vaše životní prostředí?

Pojďme si to celé shrnout ještě jednou na videu od CZ.NIC.

Bez popisku

Stupně otevřenosti

Otevřená data musí být ale skutečně otevřená. Jak bylo zmíněno i ve videu, otevřenými daty nejsou tabulky v PDF nebo naskenované statistiky ve formátu obrázku. Data by měla být strojově čitelná a dále zpracovatelná. Často se mluví o takzvaných stupních otevřenosti. Ukážeme si to na příkladu: dejme tomu, že jsme malý městský úřad a chceme zveřejňovat svá data, například seznam odpadkových košů ve městě spolu s daty o jejich svozu.

Tabulky svozů máme v počítači, uložíme je tedy jako PDF a vystavíme na web. Už víme, že to není ideální řešení - ale je to alespoň něco, první krok na cestě k otvírání. Tabulku zveřejníme jako excelovský soubor .XLSX - to je mnohem lepší, data se teď dají dále analyzovat a zpracovávat, ale jde o proprietární formát, tzn. že kdo nemá Excel, soubor pravděpodobně neotevře. Proto se nakonec rozhoduji zveřejnit data ve formátu CSV - ten otevře každý a není závislý na programovém vybavení, tj. nepotřebuji licenci komerčního softwaru, abych se dostal k veřejným datům. Více o stupních otevřenosti se dočtete přímo na webu tohoto modelu otevřených dat.

Ilustrace modelu stupňů otevřenosti.

Můžeme data zveřejňovat i my jako knihovna?

Jako veřejné instituce samozřejmě ano. Mnoho knihoven data na svých webech zpřístupňují, ale většinou jen na prvním stupni otevřenosti: ve formě ročních výkazů v PDF. Pokud bychom data chtěli zveřejňovat, může nám pomoci oficiální manuál Základy otevřených dat pro zájemce o jejich zveřejňování.

4. Formáty datových souborů

Stále tu operujeme s pojmem data, ale ještě jsme neřekli, co to data vlastně jsou. Důvod to má jednoduchý: chceme se vyhnout všem teoretickým definicím dat - informací - znalostí a zaměřit se co nejvíce na praktické dovednosti. Data pro nás proto v tomto kurzu (a především v jeho praktických modulech) budou označovat datasety: strukturované soubory údajů, které budeme získávat z různých zdrojů dat, především z datových repozitářů a databází. Tam je budeme získávat v mnoha různých formátech, jako jsou například již zmíněné .XLSX nebo .CSV.

Bez popisku

.XLSX

Formát dat aplikace Excel. Ten známe a často s ním pracujeme. V tomto kurzu se mu vyhýbat nebudeme a najdeme ho běžně i ve zdrojích otevřených dat, přesto že z hlediska stupňů otevřenosti není optimální: potřebujeme Excel, abychom ho dokázali přečíst.

.CSV (.TAB)

Takzvané "cé-es-véčko" je nejzákladnějším formátem pro ukládání a distribuci tabulkových dat. Data v něm jsou oddělena oddělovačem (to může být například čárka nebo středník) a jsou uložena v prostém textu. K otevření dat nemusíme mít žádný speciální software, dokážeme je otevřít třeba i v Poznámkovém bloku.

.JSON

JSON je jeden z formátů pro výměnu dat, se kterým se můžete setkat. Velmi často se využívá, když si weby a on-line služby vyměňují data mezi sebou. V tomto kurzu s formátem JSON pracovat nebudeme, většinou budeme v datových repozitářích volit variantu .CSV.

 .KML, .GeoJSON

I s těmito souborovými formáty se můžeme setkat v mnoha zdrojích dat - jde o data, která mají v sobě nějakou prostorovou informaci a dají se zobrazit nad mapou. Se souborem typu .KML jste se už možná setkali, pokud pracujete s aplikací Google Earth.

Vyzkoušejte si na vlastní kůži rozdíl mezi .CSV a .XLSX

Stejná data mohou přicházet v různých formátech souborů. Tady třeba máme data o všech medailích, které byly udělen na zimních OH od jejich počátku až do 60. let. Jej tam celkem tisícovka medailí. Stejná data, dva různé typy souborů: dataset_olympiada-zima.csv a dataset_olympiada-zima.xlsx. Můžete si je stáhnout oba na svůj počítač.

Nyní se pojďme tvářit, že nemáme na svém počítači ani Excel, ani jinou aplikaci, která by soubor ve formátu .XLSX dokázala otevřít. Zkusme na soubor dataset_olympiada-zima.xlsx kliknout pravým tlačítkem, zvolme možnost Otevřít v aplikaci a vyberme Poznámkový blok.

Bez popisku

Dostaneme rozsypaný čaj. Bez aplikace jako je Excel se k datům nedostaneme, nedokážeme je přečíst. Teď zkusíme to samé se souborem dataset_olympiada-zima.csv a otevřeme ho v Poznámkovém bloku. Lepší, že? Vidíme řádky, první z nich obsahuje názvy sloupců, hodnot. Každý další řádek je pak jedna udělená medaile: kdy byla udělena, za jaký sport, komu... CSV je jednoduché a nezávislé na jakékoliv aplikaci, je to prostě soubor čísel a hodnot oddělených například čárkou nebo středníkem.

Bez popisku

To samozřejmě nejsou všechny formáty datových souborů, se kterými se v praxi můžeme setkat. Za zmínku stojí třeba ještě různé balíčky dat, na které budeme narážet především v oblasti vědeckých dat, jako jsou .SAV, .DTA nebo .RDATA. Většinou jsou navázány na některý z programů pro statistickou analýzu dat typu SPSS nebo statistického programovacího jazyka R. Na tyto specifické typy souborů se v tomto kurzu zaměřovat nebudeme. Je ale dobré vědět, že i na takové přípony můžeme ve světě dat narazit.

5. Malé cvičení: Datový mindset

Každý den v praxi řešíme mnoho problémů, každý den se musíme rozhodovat. Až se příště dostanete před nějaký praktický problém nebo budete stát před důležitým rozhodnutím - zapněte svůj datový mindset a zamyslete se: jak by vám v dané situaci dokázala pomoci data? Jaká? A kde bychom je mohli získat?

Bez popisku

Shrnuto a podtrženo...

Data jsou všude kolem nás a my jich můžeme využívat jak v osobním, tak v pracovním životě. Co k tomu potřebujeme je především datový mindset: schopnost se při řešení problémů nebo hledání argumentů zastavit a položit si otázku: není toto situace, ve které by nám mohla pomoci data? Data k nám přicházejí z různých zdrojů: od expertních systémů, přes statistické a faktografické databáze až po datové portály a repozitáře, kde si můžeme datasety stáhnout v mnoha různých souborových formátech. Nejčastěji se v tomto kurzu budeme setkávat s daty ve formátu .CSV a .XLSX. Na jednotlivé zdroje dat, tj. odkud prakticky je můžeme získávat, se podívám v dalším modulu. Vzhůru na něj!

⯇ Osnova kurzu Další modul ⯈

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info