Transformace dat

Kromě faktu, že data k nám málo kdy dorazí čistá, nám práci datových analytiků komplikuje ještě jedna skutečnost: data ne vždy přichází v takové podobě, jakou potřebujeme pro naši specifickou analýzu. Často se nám tak stane, že data budeme muset "nějak přeházet" - rozdělit jeden sloupeček do více sloupců, přehodit řádky a sloupce, propočítat specifické metriky atp. V tomto modulu si položíme dvě další otázky nad daty z databáze SČKN. Abychom na ně dokázali odpovědět, budeme si muset data více upravit.

Osnova

⟶ 1. Česky, anglicky nebo jinak?
⟶ 2. Analýza zastoupení jazyků
⟶ 2.1 Power Query a rozhození do řádků

1. Česky, anglicky nebo jinak?

Naše první otázka bude mířit k jazykovému zastoupení. Zajímají nás knihy vydané v roce 2020 podle rozložení jazyků: vyšlo opravdu nejvíce českých knih? Kolik vyšlo knih, kde byla jazykem angličtina? Takovou analýzu zvládneme udělat s dovednostmi z minulých modulů: zkuste si tedy vytvořit kontingenční tabulku (do řádku kontingenční tabulky dáváme Jazyk a do hodnot také Jazyk). Povedlo se - nebo jste narazili na nějaký zádrhel? Výsledek pak porovnejte s odpovědí schovanou níž.

Tak jak to dopadlo?

Pravděpodobně se vám kontingenční tabulku vyrobit povedlo - problém ale je, že v ní nejsou jednotlivé jazyky, ale soubory jazyků - každý řádek kontingenční tabulky je unikátní kombinace jazyků (např. "český, anglický, španělský"). To nám ale nic neříká např. o poměru anglických knih vůči všem ostatním jazykům.

Data zde totiž máme tzv. v jednom poli - co s ním? Vyjdeme z předpokladu, že jazyk uvedený na prvním místě každého pole je hlavním jazykem knihy - a všechny ostatní uvedené za ním jsou sekundárními jazyky. Pokud tak v řádku vidíme knihu, která má ve sloupci Jazyk uvedeno "český, anglický", předpokládáme, že hlavním jazykem této knihy je čeština (a angličtina je jen jazyk doplňkový, třeba jen ve formě nějaké anglicky psané anotace v závěru knihy).

Abychom dokázali hlavní jazyk knihy analyzovat kontingenční tabulkou, musíme data předně mírně upravit. V Excelu - a v datové analýze obecně - existuje většinou více cest, jak se dobrat stejného výsledku. Ukážeme si proto tři různé možnosti analýzy - a každou z nich nám ukáže jiný instruktor. Vy si pak můžete vybrat, kterou z tří možných cest se vydáte. Po úpravě dat si zkuste kontingenční tabulku vyrobit znovu.

Záchytný soubor: aktuální verze CSV k další práci

sckn-tistene-knihy-2020-cista-vydani.csv CSV s vyčištěným sloupcem Vydání vyexportované z nástroje Open Refine.	.csv 2 MB

Bez popisku

Tomášova cesta: text do sloupců

V naší tabulce je pole vlastně takové malé CSV - hodnoty oddělené oddělovačem. Každý jazyk je od dalšího oddělený čárkou, takže využijeme to, co už známe z importu CSV - rozdělíme text do sloupců.

Jáchymova cesta: najít a nahradit

Jáchym se vydal cestou očištění sloupce Jazyk o všechny další jazyky - v každá buňce mu tak zůstane jen jeden hlavní jazyk. O část dat přijde, ale pro účely naší aktuální otázky to ničemu nevadí. Funkce, kterou využívá, se jmenuje Najít a nahradit - a úprava dat je s její pomocí mnohem rychlejší, než Tomášova varianta.

Michalova cesta: Power Query

Michal využívá pokročilejší funkci Excelu nazvanou Power Query. Ta dokáže s daty dělat různá kouzla a vyplatí se ji alespoň rámcově znát. Mimo jiné zvládne i rozhození jednoho sloupce do více sloupců s pomocí oddělovače.

2. Analýza zastoupení jazyků

Dobře, to by byla analýza hlavního jazyka. Ale co kdybychom nechtěli analyzovat hlavní jazyk, nýbrž podívat se na to, kolikrát se jaký jazyk objevil (tj. např. kolik knih vydaných v roce 2020 má alespoň nějakou část v angličtině atp.)? Tak to už je těžší oříšek. Tady nám nejlépe pomůže právě nástroj Power Query.

Mimochodem: tato funkce se nám bude hodit například i pro zpracování dotazníkových šetření. Kdykoliv položíme v dotazníku otázku s výběrem více možných odpovědí, dostaneme v CSV na výstupu z formulářového nástroje přesně takové pole, jako jsou tady naše Jazyky (tj. u každého řádku, tedy jednoho respondenta, budeme mít všechny jeho zaškrtnuté odpovědi pro danou otázku oddělené čárkou).

Bez popisku

Power Query a rozhození do řádků

S lektorem Michalem se podíváme, jak využít nástroj Power Query pro analýzu zastoupení jazyků. Power Query je neskutečně silný nástroj, my si ukazujeme jen dvě z jeho základních funkcí. Pokud by vás tato část MS Excel zajímala více, doporučujeme začít třeba studiem Teoretického úvodu do Power Query od Pavla Lasáka.

Shrnuto a podtrženo...

Data často musíme v rámci hledání odpovědi na naši otázkou nějak upravit, transformovat. Mnohdy si vystačíme s jednoduchými funkcemi Excelu, jako je Najít a nahradit, často ale bude dávat smysl využít silnější nástroje, jako je například Power Query. Díky němu dokážeme velmi rychle transformovat data a například i řešit potíže s analýzou dotazníkového šetření - a především otázek, kde mohou respondenti vybírat více možných odpovědí.

⯇ Osnova kurzu Další modul ⯈