Zdroje dat
Už víme, co to znamená používat datový mindset. Abychom ho ale v praxi dokázali aplikovat, musíme také vědět, kde data získat. Mnohdy budeme v praxi vycházet z vlastních dat - tedy takových, která jsou nám k dispozici interně, například v knihovním systému. Často ale budeme vyrážet za hranice naší instituce a hledat odpovědi na otázky v širším kontextu. Ve druhém modulu se společně podíváme, kde data získávat v českém i v globálním měřítku. Zastavíme se také u specifického tématu dat ve vědě, které bude určitě zajímat (nejen) akademické knihovníky.
Tento modul zcela jistě není vyčerpávajícím přehledem datových zdrojů. Slouží jako základní rozcestník pro první krok na vaší samostatné cestě za daty. I proto je zakončen rozsáhlejším samostatným úkolem: pomůžete Petrovi, Kristýně a Honzovi najít data, která vyřeší jejich trable?
1. Odkud máš ta data?
Cestou k nalezení relevantních dat, která nám pomohou se správně rozhodnout nebo zodpovědět naši otázku, je promýšlení a identifikace možných zdrojů: jaká vlastní data k této problematice máme? Neexistuje nějaká instituce, která se řešeným tématem zabývá a mohla by nějaká související data zpracovávat a publikovat? Data jsou všude kolem nás: získávat je můžeme jak z interního, tak z externího prostředí.
Interní zdroje dat
Často máme data k dispozici blíž, než se může zdát. Téměř všechny systémy a zařízení kolem nás generují velké množství dat, jejichž analýza by nám mohla pomoci s řešením našich otázek či během každodenního rozhodování. V knihovně je velkým zdrojem dat automatizovaný knihovní systém: každá výpůjčka, každé přihlášení čtenáře i knihovníka či každá transakce se někde eviduje a ukládá. Když tak například rozmýšlím, který žánr literatury pro naše čtenáře více nakupovat v rámci akvizice, nemusím se spoléhat jen na intuici, pocity či na uživatelské výzkumy (jako jsou např. dotazníky). Své rozhodnutí mohu založit také na analýze preferencí současných čtenářů, v tomto případě tedy na analýze dat o výpůjčkách: které žánry se v posledních měsících půjčují nejlépe a které v půjčovanosti stoupají nejrychleji?
V prostředí knihoven budeme většinou limitování systémem, který používáme: ne všechny nás nechají k datům přistoupit volně tak, abychom je dokázali analyzovat s ohledem na aktuálně řešenou otázku. To je velkou výhodou otevřených systémů, jako je například systém Koha. U systémů komerčních budeme omezeni možnostmi jejich analytického či statistického modulu.
Externí zdroje dat
Mnohé z našich otázek budou vyžadovat širší kontext. Modelová situace: chceme do naší městské knihovny nalákat nové čtenáře a rozhodujeme se, jaké žánry beletrie posílit při nákupu do fondu další rok. Můžeme brát v potaz data o výpůjčkách z našeho knihovního systému: na základě analýzy interních dat zjišťujeme, že poslední roky rostou výpůjčky severských krimi. Tato data odpovídají i zjištěním z dotazníkového šetření mezi čtenáři a potvrzují to i zkušenosti knihovníků z výpůjční praxe: severská krimi skutečně táhne...
Zamyslete se: Jsou tato data dostatečná pro naše rozhodování s ohledem na cíl, který sledujeme? Až budete mít na tuto otázku rozmyšlenou vlastní odpověď, rozklikněte si box níže a porovnejte ji s dalšími argumenty, které tam najdete.
Je posílení severské krimi na základě získaných dat vhodné?
Možná ano, ale jistí si být nemůžeme: všechna data, se kterými jsme v tomto příkladu operovali, pochází z našeho interního prostředí. Naši knihovníci se většinou setkávají jen s našimi čtenáři, náš dotazník se ptal jen na to, co rádi čtou naši již existující čtenáři. A data o výpůjčkách také zachycují jen aktivitu našich registrovaných čtenářů. K dostatečnému rozhodnutí mi chybí kontext: co se vydává na trhu? Co se prodává v poslední době?
Na základě dat z externích zdrojů bychom tak mohli zjistit, že významným trendem je kategorie komixů pro dospělé čtenáře - a ty v naší modelové knihovně ve fondu vůbec nemáme. Možná tu existuje nezanedbatelná skupina potenciálních čtenářů, která k nám nechodí, protože pro ní máme maximálně Čtyřlístek a Tintina. Naše interní data jsou velmi cenná a jejich analýza je určitě velmi přínosná, ale pokud by nám například šlo o nalákání nových čtenářů do knihovny, budeme se muset dívat i za hranice naší instituce. Analýzou výhradně interních dat bychom tuto příležitost neodhalili.
Externí zdroje dat mohou mít různou podobu. Mohou to být oficiální datové portály, kde si naklikáme analýzu a rovnou nalezneme odpověď. Mohou to být ale také repozitáře, kde si najdeme dataset ve formátu, o kterých jsme již mluvili (.XLSX, .CSV atp.), a analýzu provedeme sami, např. v programu Microsoft Excel - taková data nás budou v tomto kurzu zajímat nejvíce. Původci těchto dat a zdrojů mohou být také různí: například mezinárodní organizace, státní orgány nebo neziskovky. Množství dat navíc leží tak nějak různě na webu, ve více či méně otevřené podobě. Pojďme se podívat na výběr několika zajímavých zdrojů a příkladů z Česka i odjinud.
2. České zdroje dat
Centrálním domovem otevřených dat v Česku je Portál otevřených dat a jeho Národní katalog otevřených dat. Většina otevřených dat z veřejných institucí a státních orgánů by tam dříve či později měla skončit. Nelze na to však spoléhat a je proto vhodné hledat i samostatné datové portály a repozitáře institucí a organizací, které by mohly mít něco společného s otázkou, kterou právě řešíme. Pojďme se podívat na několik příkladů.
Kolik je vlastně v našem městě školek? Tak to by mohl vědět městský datový repozitář (třeba ten z Prahy, Brna nebo Plzně). Má nějaký i vaše město nebo obec? Kolik je v našem kraji středních škol? Možná má i náš kraj nějaké místo, kde zveřejňují data (jako například ten Královéhradecký). A je u nás v Královéhradeckém kraji více učilišť než v Pardubickém kraji? Tak to by mohlo vědět MŠMT a jejich repozitář otevřených dat.
Data ze specifických oblastí je pak dobré hledat u specifických poskytovatelů: zajímavá data o životním prostředí třeba leží v repozitáři Ministerstva životního prostředí nebo na geoportálu CENIA. A pro příklad ještě z jiného, nám bližšího soudku: data o knižním trhu najdeme třeba na webu oborového svazu SČKN.
Velmi často leží zajímavá data jen tak někde na webu instituce a ani nejsou součástí žádného repozitáře nebo datového portálu. Pro příklad: sami dobře víme, že na webu Ministerstva kultury leží velká tabulka nazvaná Evidence knihoven. Ve stejném stylu, tedy jen tak mimochodem, najdeme na webu MPO třeba data o počtech podnikatelů v ČR podle jejich občanství, nebo na webu Policie ČR tabulky se statistikami kriminality.
Strategií k nalezení relevantních dat je tak často kombinace webového vyhledávače, správných klíčových slov a identifikace relevantních organizací a institucí spojená s prolézáním jejich webových sídel. Vyzkoušejte tyto cesty:
1. Identifikujte klíčová slova k vašemu tématu a vyzkoušejte je ve webovém vyhledávači kombinovat se slovy jako data, dateset, statistiky atp..
2. Zkuste prohledat Národní katalog otevřených dat, zda už k touto tématu nejsou data publikována přímo v něm.
3. Identifikujte organizace, které by k řešenému tématu mohly být relevantní (ministerstva, úřady, oborové organizace a svazy, neziskovky atp.) a hledejte u nich datové zdroje.
4. Využijte univerzální datové portály nebo datové metavyhledávače, jako je např. ten od Google, o kterém si ještě povíme...
Proklikejte si...
Portál otevřených dat ČR
Národní katalog otevřených dat je většinou prvním místem, kde začít své hledání, pokud jde o data ze státních složek a institucí.
ČSÚ
Určitě se vyplatí vědět, co vše sleduje Český statistický úřad. Na jeho portálu zamiřte v menu do sekce Databáze, registry a Veřejná databáze.
Opendata Praha
Příklad městského datového webu s otevřenými daty, který funguje jako repozitář. Zkusíte zjistit, kolik je v Praze komunitních zahrad?
data.brno
Městský datový portál ještě jednou, tentokrát s více funkcemi pro přímou analýzu dat. Všechna data si ale můžeme i stáhnout v různých formátech.
3. Globální data
Stejně jako v Česku jsou i v ostatních státech zveřejňována otevřená data. Obvykle stačí využít Google a jednoduchým hledáním se můžeme dostat na portály otevřených dat jiných zemí. I zde samozřejmě existují katalogy: jak jsou na tom s otevřenými daty ostatní země v Evropě zjistíte (spolu s odkazy na jejich otevřené datové repozitáře) třeba na webu OpenDataMonitor.
Velké množství dat zveřejňují mezinárodní organizace. Pokud řešíme otázky z oblasti kultury nebo školství v globálním kontextu, vyplatí se zamířit na web UNESCO nebo UNICEF. Globální zdraví pak můžeme řešit třeba na webu WHO. Opomenout nesmíme ani centrální datový portál Evropské unie. Seznamte se s nimi níže v sekci Proklikejte si.
Kéž by existoval jeden vyhledávač, který najde vše důležité - podobně jako Google pro webové stránky, že? Však on se o to Google snaží, proto spustil svou službu metavyhledávače Google Dataset Search. Rozhodně o něm zatím neplatí, že najde vše. Jako jeden z nástrojů, které při hledání dat můžeme využít, však funguje dostatečně: kolik stojí mít štěně? Google taková data najde na výraz puppy cost. Jak se sdílí kola v Londýně? Zkusme vyhledat klíčová slova bikesharing london.
Velkým fenoménem v oblasti sdílení dat je portál Kaggle, který umožňuje zveřejňovat a stahovat různé datasety a mimo to slouží i jako komunitní platforma, kde lze o datech a nad daty debatovat. Vládnete-li angličtinou, nemusí být od věci se prostě zeptat, třeba v komunitě na portálu Reddit: lidé tam sdílí zajímavé datasety a pomáhají si vzájemně relevantní data nacházet. Nadšenci do dat také sepisují seznamy zajímavých a volně dostupných datasetů, takže pokud si chcete udělat představu o tom, jaká všechna témata se dají na webu dohledat, zamiřte třeba na seznam s příhodným názvem Awesome Public Datasets.
Proklikejte si...
Evropský datový portál
Jednotný portál EU umožňuje přístup k různorodým datům, které zveřejňují evropské instituce a agentury. Vyplatí se proklikat pro představu, jaká dat máme k dispozci na evropské úrovni.
Global Health Observatory
Datový portál Světové zdravotnické organizace zpřístupňuje globální i lokální data o zdraví a zásadní roli hraje i v přístupu k datům o COVID-19. Podaří se vám zjistit deset nejčastějších důvodů úmrtí v globálním měřítku?
UNICEF DATA
Dětský fond OSN na svém datovém portálu zveřejňuje data o vzdělávání, výživě nebo migraci pohledem těch nejzranitelnějších. Zkusíte na portálu najít data o tom, jak se kojí v jednotlivých zemích světa?
Google Dataset Search
Pokus společnosti Google o metavyhledávač datových souborů určitě stojí za vyzkoušení. Zkuste si vyhledat i nějaké české výrazy a posuďte, zda je tento nástroj vhodný i pro české datové zdroje.
4. Data ve vědě
Během vědeckého výzkumu vzniká velké množství dat, které se k nám většinou dostávají až ve formě odborných článků, studií a knih. Poslední roky sílí trend zveřejňování původních dat: nemusíme tak důvěřovat závěrům z článků a můžeme si výstupy sami ověřit nad vstupními daty. Ověření a reprodukce výzkumů ale není jediný důvod, proč se zde data sdílí: můžeme původní výzkum rozšířit, budovat na něm nebo část dat využít pro vlastní analýzu z trochu jiného hlediska, než bylo záměrem původních autorů.
Sdílení vědeckých dat vytvořilo celou novou infrastrukturu. Můžeme je hledat jak v institucionálních úložištích (např. univerzitních, jako je Harvard Dataverse), tak ve všeobecných či oborových repozitářích výzkumných dat (za projití stojí např. Zenodo nebo Dryad). Abychom se ve stovkách repozitářů neztráceli, existují i jejich katalogy, jako je třeba rozsáhlý adresář institucionálních úložišť re3data.
Dobrovolný úkol: využití katalogu re3data
Využijte adresář datových repozitářů re3data a pokuste se identifikovat český datový repozitář pro oblast sociálních věd.
Výzkumná data mohou být také publikována spolu s článkem (některá odborná periodika to umožňují) nebo v samostatných specializovaných datových časopisech (data journals). Tam je najdeme ve formě datových článků: kromě dat je většinou přiložen i popis jejich vzniku, podrobná metadata - a i zde často probíhá recenzní řízení, stejně jako u klasických odborných článků. Podívejte se třeba na datový časopis Nature Scientific Data a jeho kolekce.
Mnoho vědců předbíhá dobu a data z výzkumů tak můžeme někdy najít i na jejich osobních webech nebo profilech na vědeckých sociálních sítích, jako je např. ResearchGate. Osobní weby jsou často jediná cesta, jak se k datům dostat, protože autoři např. článek publikovali v periodiku, které přiložení dat ještě neumožňuje.
Dobrovolný úkol: najdete data z výzkumu o terorismu?
Josef nedávno narazil na velmi aktuální výzkum: zkoumal obavy lidí z terorismu a jejich souvislost s přijímáním uprchlíků. Rád by si nad daty z výzkumu provedl svoje vlastní analýzy – myslíte, že by se data z toho výzkumu dala najít? Petr vám posílá odkaz na web, kde článek četl: https://doi.org/10.31235/osf.io/d4ewg
5. Procvičování: Hledáme data
Když už nyní známe množství zdrojů a databází, které můžeme v procesu hledání dat využít, je na čase si to vyzkoušet i prakticky.
1. Vyberte si jednu ze situací popsaných níže.
2. Pokuste se skrze využití různých zdrojů (včetně těch, o kterých jsme už mluvili výše) identifikovat data, která by nám dokázala co nejlépe pomoci odpovědět na danou otázku. Zatím není cílem úkolu na otázku skutečně odpovědět (co s daty dál a jak je analyzovat budeme řešit dále v kurzu) - nyní nám jde skutečně primárně o to data identifikovat - najít.
3. Pokud si nevíte rady, využijte nápovědy ve vedlejším sloupci. Nejprve malé, teprve pak větší... A nakonec můžete porovnat své řešení s naším řešením.
Situace 1: Došel Endiaron
Došel Endiaron, v lékárně ho nemají! Milá lékárnice Petrovi oznámila, že jde o výpadek ve výrobě způsobený mimo jiné tím, že léčivo bude nyní vyrábět zahraniční výrobce. Petr cestou z lékárny přemýšlí nad tím, kolik léků se vlastně vyrábí u nás a kolik se jich na český trh v současnosti dodává ze zahraničí. Mohla by k této otázce existovat nějaká data, která by mu pomohla ji zodpovědět?
Malá nápověda
Léky a léčiva, hmm. To je velmi specifická oblast. Neexistuje třeba v ČR nějaký úřad, který by tuto agendu řešil?
Větší nápověda
Existuje Státní ústav pro kontrolu léčiv. Určitě mají nějaký svůj portál otevřených dat, ale možná svá data katalogizují i v Národním katalogu otevřených dat...
Ukaž mi řešení
Data jsou dostupná v Národním katalogu OD i na portálu OD SÚKL.
Situace 2: Srážka s holubem
Na kole cestou ráno do práce se Kristýna jen tak tak vyhnula nepříjemné nehodě: skoro se srazila s holubem, který se právě snášel na chodník. V práci pak historku barvitě vypráví kolegům. Během řeči se dostanou k zajímavé otázce: srážka automobilu se zvěří, to není nic neobvyklého, ale jak často se stávají cyklonehody, u kterých je účastníkem zvíře? Mohla by existovat data, která nám tuto otázku zodpoví?
Malá nápověda
Hmm, možná někdo, kdo řeší a sleduje nehody, by mohl mít data? Jenže tady jde o cyklonehody, to bude asi náročnější... Možná budeme rádi, když najdeme data jen pro nějakou menší oblast, třeba město.
Větší nápověda
Městských portálů je celá řada, můžeme zkusit hledat přes Národní katalog otevřených dat - nebo si vybrat jedno město. Zkusili jste třeba Brno?
Ukaž mi řešení
Data lze najít v NKOD i v datovém portálu města Brna.
Situace 3: Inkluzivní služby
Honza pracuje jako ředitel knihovny v Blansku. Blansko bylo kdysi známé mimo jiné továrnami na výrobu automobilových dílů, ve kterých bylo zaměstnáno mnoho pracovníků z Mongolska. Honza by rád některé služby knihovny zaměřil právě i na mongolskou komunitu ve městě. Velké výrobny autodílů však již před lety zavřely a on si není jistý, na jak velkou komunitu by v současnosti vlastně cílil.. Zkusíte najít data, která by mu to pomohla zodpovědět?
Malá nápověda
Můžeme začít na portále otevřených dat ČR, proč ne... ale asi se tak jako tak budeme nakonec muset zamyslet nad orgány a úřady, co by je tato data mohla zajímat a prošmejdit jejich weby.
Větší nápověda
Tohle je pěkně zapeklitý případ... Zkusili jste databáze Statistického úřadu? A co nějaké policejní databáze, nevedou něco? Nemáme nějakou cizineckou polici? A pod jaký veřejný orgán spadá?
Ukaž mi řešení
Pokud se vám nepodařilo najít přesná data, nezoufejte. Tohle byl nejnáročnější ze všech tří úkolů: data s počty cizinců leží na webu Ministerstva vnitra.
Shrnuto a podtrženo...
Data jsou všude kolem nás. Díky trendu otevřených dat se dnes relativně jednoduše dostáváme k datům ze státních a veřejných institucí, centrálním bodem je tu Národní katalog otevřených dat. Data ale mohou ležet všude možně. Strategií k nalezení relevantních dat je proto většinou kombinace webového vyhledávače, správných klíčových slov a identifikace relevantních organizací a institucí spojená s prolézáním jejich webových sídel.