Čištění dat

Představme si, že máme u hlavního vchodu do knihovny počítadlo vstupů. Čidlo je čidlo, a tak každý průchod čtenáře zaznamená relativně přesně a my si pak můžeme ze systému stáhnout data v jednotném formátu. Mnohá data ale nevznikají pomocí čidel - tvoří je lidé "ručně", a taková data v sobě většinou ukrývají mnoho chyb, protože lidé prostě dělají chyby. Čím volněji a ručněji data vznikají, tím větší a častější jsou v nich chyby.

Osnova

⟶ 1. Fuj, ta jsou špinavá!
⟶ 2. Nástroje k čištění dat
⟶ 2.1 Práce s Open Refine

1. Fuj, ta jsou špinavá!

Co myslíme těmi "ručními" daty? Tak například knihovníci v naší knihovně zapisují do formuláře v systému místo narození čtenáře: jeden napíše Pardubice, jiný v rychlosti pardubice s malým písmenkem, někdo napíše Pardubice-Bílé Předměstí. Někdo si ušetří čas a zapíše jen PCE, další se překlikne a napíše Pradubice. No a pak přijdeme my, z databáze si stáhneme data o čtenářích a chceme nad nimi analyzovat právě třeba ta místa narození našich čtenářů... Takovým datům říkáme v datově-analytickém slangu špinavá data a než s nimi budeme pracovat, musíme je vždy řádně vyčistit. Nad špinavými daty žádnou smysluplnou analýzu neuděláme...

Bez popisku

Čištění dat v Excelu?

S lektorem Jáchymem se podíváme, jak čistá jsou data z databáze SČKN, se kterými pracujeme. Zkusíme si třeba udělat kontingenční tabulku nad sloupcem Vydání: kolik prvních vydání a kolik druhých vydání v ČR vyšlo v roce 2020? Narazíme na špinavá data. Dokážeme s nimi něco udělat v Excelu, nebo bude lepší využít na čištění nějaký jiný nástroj?

2. Nástroje k čištění dat

Mnoho čištění se dá udělat i v Excelu, například jednoduše pomocí ručního přepsání překlepů nebo pomocí nástroje Najít a nahradit (Ctrl+H). Jenže když pracujeme s většími daty, bude to velmi časově náročné - naše data mají přes tři tisíce řádků a vyčistit tak třeba jen jeden sloupec zabere opravdu dlouhou dobu. Proto k čištění dat existují speciální nástroje: jedním z nich je Open Refine. Uživatelsky přívětivý nástroj umožňuje velmi rychle provádět změny nad mnoha řádky datasetu a jedním ze základních nástrojů ve výbavě datového analytika.

Instalujeme Open Refine

Na stránce Open Refine v sekci Download najdeme aktuální verzi nástroje a pod ní odkaz ve tvaru "Windows kit with embedded Java". Tento instalační soubor nám zaručí, že nástroj bude mít k dispozici vše, co je potřeba, abychom ho na svém PC dokázali spustit. Aktuální verze nástroje je 3.5.1 a instalovat ji můžeme přímo pod tímto odkazem.

Nástroj není třeba instalovat - po stažení máme k dispozici ZIP soubor, který stačí rozbalit např. na Plochu a spustit pomocí dvojkliku na openrefine.exe. Celý proces instalace je vidět i ve videu níže.

Bez popisku

Práce s Open Refine

S lektorem Tomášem se podíváme na základy využívání nástroje Open Refine. Společně projedeme i instalací nástroje a jeho spuštěním. Vyzkoušíme si v něm vyčistit sloupec s daty o vydání tak, abychom ho pak mohli analyzovat například pomocí kontingenční tabulky.

Záchytný soubor: CSV s vyčištěným sloupcem Vydání

sckn-tistene-knihy-2020-cista-vydani.csv CSV s vyčištěným sloupcem Vydání vyexportované z nástroje Open Refine.	.csv 2 MB

A konečně analýza sloupce Vydání...

Sloupec vydání máme vyčištění, je proto čas znovu nad ním vytvořit kontingenční tabulku v Excelu. Teď už by se nám to mělo podařit bez problémů, které přinesla špinavá data.

Shrnuto a podtrženo...

Většina dat se před samotnou analýzou musí vyčistit - chyby v nich vznikají hlavně tam, kde se data tvoří ručním zápisem - a to se nám v knihovnách děje často. Základní čištění určitě zvládneme přímo v Excelu a ručně, když jsou ale data větší, je lepší využít specializované nástroje. Velmi silným nástrojem je Open Refine, který se vyplatí znát: může nám ušetřit dlouhé hodiny otravné práce.

⯇ Osnova kurzu Další modul ⯈