Metadata a import dat

První dva moduly nás provedly světem dat obecně: mluvili jsme o datech jako takových a jejich smyslu a využití, zastavili jsme se také u různých zdrojů dat, jak interních, tak například těch otevřených. Je čas podívat se na data i prakticky. Položíme si jednoduchou otázku a pomocí skutečných existujících a volně dostupných dat se na ni pokusíme odpovědět. Až se nám podaří relevantní data identifikovat, budou nám k užitku i tzv. metadata - tedy data o datech, která nám pomohou pochopit, co který sloupec znamená či jak vlastně data, se kterými budeme pracovat, vznikla.

1. Před létem nebo před Vánoci?

Petr a Lenka, knihovníci z naší knihovny, mají malý spor - nic zásadního, jenom se nemohou shodnout, kdy se na knižním trhu vydává více knih. Petr tvrdí, že nejvíce novinek vychází před létem, protože nakladatelé a vydavatelé cílí na letní dovolené. Lenka tvrdí, že nejvíce nových knih se na trhu objevuje před vánočními svátky, protože tehdy se také nejvíce knih kupuje: pod stromeček. Naše role v tomto sporu je vám už asi jasná: pokusíme se jejich otázku vyřešit datově. A v prvním kroku využijeme naše znalosti z druhého modulu. Tak se zamyslete, zapněte webový vyhledávač a zkuste najít zdroje dat, které by nám tuto otázku pomohly vyřešit. Až budete mít nějaké zdroje dat identifikovány, klikněte níže a porovnejte svá řešení.

Ukaž mi možné zdroje dat!

Možných zdrojů dat je celá řada, určitě vás napadlo např. zamířit na e-shopy s knihami. Tam ale přímo data v nějaké využitelné podobě nezískáme, museli bychom je nějak šikovně stáhnout (takové aktivitě, tedy získávání strukturovaných dat např. v tabulce z webových dokumentů/stránek se říká scraping). Možná jste ale během hledání zdrojů dorazili i na web Svazu českých knihkupců a nakladatelů - ano, to byla trefa! vydávají přeci výroční zprávy o českém knižním trhu! Jenže to jsou již hotové statistiky v PDF a přímou odpověď na naši otázku neposkytují. Naštěstí provozují také databázi vydávaných knih - proklikejte si ji zde, z ní budeme ve zbytku kurzu vycházet.

Bez popisku

Stahujeme a otvíráme dataset

Dat je v identifikované databázi velké množství. Pro naši práci bude stačit jen menší vzorek: stáhneme si data o všech vydaných tištěných knihách v roce 2020, zapsaných v databázi SČKN. Jak na to vám ukáže video, kde vás náš lektor Jáchym proveden nejen stažením dat, ale také jejich otevřením v nástroji MS Excel.

Záchytné soubory: na vhodných místech v modulech najdete vložené soubory ke stažení, které vám mohou pomoci, pokud se v některé fázi kurzu zaseknete. U každého souboru bude napsáno, co obsahuje a proč tam je. Pokud se vše daří jak má, pravděpodobně budete moci tyto záchytné soubory ignorovat.

Záchytný soubor: data v CSV z databáze SČKN
sckn_tistene-knihy-2020.csv
CSV soubor stažený přímo z databáze SČKN. Využijte ho, pokud se Vám nepodaří získat vlastní export CSV přímo z databáze svazu nebo pokud chcete mít jistotu, že pracujete se stejnými daty jako lektoři ve videu.
.csv 2 MB

2. Data o datech: metadata

Metadata nám odhalují, co samotná data znamenají a obsahují. Často se nám stane, že si například stáhneme otevřená data v CSV z Národního katalogu otevřených dat, importujeme je do Excelu a... názvy jednotlivých sloupců nedávají smysl. Co například znamená "VYH-2020-3"? Přesně to je moment, kdy začneme hledat metadata. Metadata mohou mít různou podobu: někdy jsou umístěna na jiném listu v excelové tabulce, někdy jsou rozepsána přímo v datovém repozitáři/katalogu, velmi často jsou pak uložena jako samostatný soubor u žádaného datasetu - a to v různých formátech (např. TXT, CSV atp.).

Možná si ještě vzpomínáte na jeden z úkolů v předchozím modulu: hledali jsme informace o tom, odkud se na český trh dodávají léčivé přípravky. Našli jsme otevřená data Státního ústavu pro kontrolu léčiv. Pojďme se na ně znovu podívat do Národního katalogu otevřených dat: Dodávky léčivých přípravků. Kromě samotného datasetu (odkaz Stáhnout v sekci Distribuce datové sady) nacházíme kousek od něj i odkaz na tzv. Schéma. Zkuste si ho stáhnout a importovat do Excelu (je ve formátu CSV). Najdete v něm názvy jednotlivých sloupců z datasetu a k nim vysvětlivky, co který sloupec vlastně znamená. Tak třeba takto mohou vypadat dostatečně zpracovaná metadata.

Bez popisku

Seznamujeme se s daty

S lektorem Jáchymem budeme pokračovat v práci s našimi daty od Svazu českých knihkupců a nakladatelů - k nim bohužel žádná metadata neexistují, ale sloupce jsou naštěstí tak dobře popsány, že nám většinou bude jasné, co obsahují. Ne vždy si ale budeme jistí - co například znamená sloupec nadepsaný "TS"? K tomu by se nám metadata jistě hodila. Projdeme si s Jáchymem jeden sloupec po druhém a seznámíme se i s typem hodnot, které obsahují. Když data prvně lépe poznáme, bude se nám s nimi pak i lépe pracovat.

3. Řešení chyby při importu

Datová analýza není přímočarý proces. Mnohokrát se i profesionálové dostanou do slepé uličky, častokrát zjistí, že se zamotali do dat takovým způsobem, že se budou muset vrátit na úplný začátek. Cesta je cíl a na cestě leží mnohé překážky. Skutečná data ze skutečného světa jsou překážek plná - například nejsou tzv. čistá, tj. obsahují různé překlepy a chyby. O jejich řešení se budeme bavit v samostatném modulu, nyní ale musíme překonat první chybu, kterou jsme v datech společně s Jáchymem objevili hned při importu dat do Excelu. Napadá vás, proč se některé řádky posunuly? Zkuste se nad chybou zamyslet a pak si otevřte odpověď a porovnejte svá řešení.

Proč jsou některé řádky posunuté?

Odpověď pramení ze způsobu, jakým funguje formát CSV, o kterém jsme už mluvili dříve - jsou to hodnoty oddělené nějakým oddělovačem, většinou čárkou nebo středníkem. V našem případě dat ze SČKN to je středník. Pokud se stane, že se středník objeví například v názvu knihy, při importu ho Excel bezmyšlenkovitě vezme jako oddělovač - a chyba je na světě: kousek názvu knihy je ve vedlejším sloupečku a celý řádek se až do konce posune o jednu buňku.

V našem případě je chyba ještě trochu složitější: v prostředí webu se některé znaky zapisují speciálními kódy: my jako čtenáři webových stránek je vidíme v běžné podobě, ale náš prohlížeč je vidí jinak. Je to přesně proto, aby si je nemohl splést s jinými znaky. Takže zatímco my v textu na webové stránce vidíme např. ' - tedy apostrof, náš prohlížeč v HTML kódu vidí toto: '. No a přesně tato značka se místo apostrofu dostala i do názvu několika knih - no a co čert nechtěl: značka obsahuje středník. Takže Excel ho vzal jako oddělovač a řádek tam bezmyšlenkovitě rozdělil.

Práce s daty je překvapivě kreativní proces. Mnohdy se zasekneme a hledáme správné cesty ven, často musíme tzv. googlit a pídit se po radách, jak dál. Není to nic, za co bychom se museli stydět. I ti největší profíci v oboru datové analytiky tráví velkou část svého pracovního času přemýšlením, hledáním chyb a googlením správných postupů.

Bez popisku

Opravujeme chybu při importu

Už víme, kde v našich datech vznikla chyba. Abychom mohli s daty dále pracovat, musíme tyto chybné řádky opravit. Společně s lektorem Jáchymem si ukážeme, jak to udělat co nejrychleji a nejefektivněji.

Záchytný soubor: opravené CSV k importu
sckn_tistene-knihy-2020_opravene.csv
CSV soubor s opravenými chybami (apostrofy) a smazaným duplikátem, připravený pro import do Excelu.
.csv 2 MB

Shrnuto a podtrženo...

Data k sobě většinou mají i metadata, která nám umožňují pochopit, co které údaje vlastně znamenají. Pokud metadata nejsou k dispozici, budeme muset odhadovat a již začínáme pracovat s určitou mírou nejistoty, která je všem datům vlastní - data nejsou ani z daleka tak přesná, jak je většinou vnímáme a chápeme, ale k tomu se během dalších modulů ještě dopracujeme. Po importu dat je vždy dobré se s daty blíže seznámit. Kromě přehledu (co vlastně v datech je a co tam není) se nám mnohdy podaří odhalit i chyby, které při importu mohly vzniknout a které bude nutné opravit, abychom s daty vůbec mohli začít pracovat. Práce s daty je kreativní proces a není ostudou, když si pro pomoc jdeme například za strýčkem Googlem.

⯇ Osnova kurzu Další modul ⯈

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info