Čištění dat
Představme si, že máme u hlavního vchodu do knihovny počítadlo vstupů. Čidlo je čidlo, a tak každý průchod čtenáře zaznamená relativně přesně a my si pak můžeme ze systému stáhnout data v jednotném formátu. Mnohá data ale nevznikají pomocí čidel - tvoří je lidé "ručně", a taková data v sobě většinou ukrývají mnoho chyb, protože lidé prostě dělají chyby. Čím volněji a ručněji data vznikají, tím větší a častější jsou v nich chyby.
1. Fuj, ta jsou špinavá!
Co myslíme těmi "ručními" daty? Tak například knihovníci v naší knihovně zapisují do formuláře v systému místo narození čtenáře: jeden napíše Pardubice, jiný v rychlosti pardubice s malým písmenkem, někdo napíše Pardubice-Bílé Předměstí. Někdo si ušetří čas a zapíše jen PCE, další se překlikne a napíše Pradubice. No a pak přijdeme my, z databáze si stáhneme data o čtenářích a chceme nad nimi analyzovat právě třeba ta místa narození našich čtenářů... Takovým datům říkáme v datově-analytickém slangu špinavá data a než s nimi budeme pracovat, musíme je vždy řádně vyčistit. Nad špinavými daty žádnou smysluplnou analýzu neuděláme...
Čištění dat v Excelu?
S lektorem Jáchymem se podíváme, jak čistá jsou data z databáze SČKN, se kterými pracujeme. Zkusíme si třeba udělat kontingenční tabulku nad sloupcem Vydání: kolik prvních vydání a kolik druhých vydání v ČR vyšlo v roce 2020? Narazíme na špinavá data. Dokážeme s nimi něco udělat v Excelu, nebo bude lepší využít na čištění nějaký jiný nástroj?
2. Nástroje k čištění dat
Mnoho čištění se dá udělat i v Excelu, například jednoduše pomocí ručního přepsání překlepů nebo pomocí nástroje Najít a nahradit (Ctrl+H). Jenže když pracujeme s většími daty, bude to velmi časově náročné - naše data mají přes tři tisíce řádků a vyčistit tak třeba jen jeden sloupec zabere opravdu dlouhou dobu. Proto k čištění dat existují speciální nástroje: jedním z nich je Open Refine. Uživatelsky přívětivý nástroj umožňuje velmi rychle provádět změny nad mnoha řádky datasetu a jedním ze základních nástrojů ve výbavě datového analytika.
Instalujeme Open Refine
Na stránce Open Refine v sekci Download najdeme aktuální verzi nástroje a pod ní odkaz ve tvaru "Windows kit with embedded Java". Tento instalační soubor nám zaručí, že nástroj bude mít k dispozici vše, co je potřeba, abychom ho na svém PC dokázali spustit. Aktuální verze nástroje je 3.5.1 a instalovat ji můžeme přímo pod tímto odkazem.
Nástroj není třeba instalovat - po stažení máme k dispozici ZIP soubor, který stačí rozbalit např. na Plochu a spustit pomocí dvojkliku na openrefine.exe. Celý proces instalace je vidět i ve videu níže.
Práce s Open Refine
S lektorem Tomášem se podíváme na základy využívání nástroje Open Refine. Společně projedeme i instalací nástroje a jeho spuštěním. Vyzkoušíme si v něm vyčistit sloupec s daty o vydání tak, abychom ho pak mohli analyzovat například pomocí kontingenční tabulky.
Záchytný soubor: CSV s vyčištěným sloupcem Vydání
sckn-tistene-knihy-2020-cista-vydani.csv
CSV s vyčištěným sloupcem Vydání vyexportované z nástroje Open Refine. |
.csv 2 MB |
---|
A konečně analýza sloupce Vydání...
Sloupec vydání máme vyčištění, je proto čas znovu nad ním vytvořit kontingenční tabulku v Excelu. Teď už by se nám to mělo podařit bez problémů, které přinesla špinavá data.
Shrnuto a podtrženo...
Většina dat se před samotnou analýzou musí vyčistit - chyby v nich vznikají hlavně tam, kde se data tvoří ručním zápisem - a to se nám v knihovnách děje často. Základní čištění určitě zvládneme přímo v Excelu a ručně, když jsou ale data větší, je lepší využít specializované nástroje. Velmi silným nástrojem je Open Refine, který se vyplatí znát: může nám ušetřit dlouhé hodiny otravné práce.