Další formy a nástroje

Vizuálních metafor je celá řada, vznikají dokonce stále nové a nové. V posledním modulu se proto zaměříme už jen na některé odbornější statistické grafy, které není tak těžké vytvořit a mohou být zajímavým doplněním naší vizualizační výbavy. Podíváme se na histogram, boxplot a korelační diagram a zkusíme si je společně vyrobit v nástrojích MS Excel nebo RAWGraphs. Tento modul je také náš poslední: rozloučíme se tak tipy a doporučeními na další zdroje šikovných nástrojů i užitečných datově-vizualizačních znalostí a dovedností.

1. Vědecké a statistické grafy

Nejčastěji se s nimi setkáme v odborných článcích a publikacích, ale jde o formy, které se mohou hodit například i do výročních zpráv. Zda je využít nebo ne je i zde otázka cíle: co chceme komunikovat a komu? Histogram nebo boxplot určitě nebude vhodná forma například pro příspěvek na Facebooku. Nemůžeme čekat, že široká veřejnost ví, jak s tímto typem grafu zacházet a jak ho číst. Pokud se ho ale přesto rozhodneme využít například pro náš Facebook, je nutné čtenáře i naučit, jak se graf používá. Je to podobné jako v pandemické době: najednou bylo nutné zobrazovat velké množství dat, a tak jsme se v médiích začali setkávat s korelačními grafy, logaritmickými osami nebo klouzavým průměrem. Většina čtenářů běžných deníků ale nemusí vůbec tušit, jak tyto vizualizační metody a formy fungují.

Dataset k tvorbě histogramu

vydane-knihy_histogram.xlsx
Dataset ve formátu XLSX pro ilustraci tvorby histogramu. Data pocházejí z databáze SČKN.
.xlsx 355 kB

Dataset k tvorbě boxplotu

vek-HDP_boxplot.csv
Dataset ve formátu CSV pro ilustraci tvorby boxplotu.
.csv 7 kB

Dataset k tvorbě korelačního diagramu

utraty-restaurace_korelace.xlsx
Dataset ve formátu XLSX pro ilustraci tvorby scatterplotu.
.xlsx 32 kB

Bez popisku

1.1 Histogram

Histogram sice vypadá jako sloupcový graf, funguje však trochu odlišně: vizualizuje distribuci dat. Na ose x je vždy nějaký interval, na ose y pak četnost. Dejme tomu, že máme data o počtech vypůjčených knih za každého jednotlivého čtenáře za celý rok 2021. Nad těmito daty můžeme propočítat například průměrný počet knih na jednoho čtenáře, častěji nás ale bude zajímat, jaké je rozložení dat (kolik čtenářů si za rok půjčilo jednu, kolik dvě, kolik 20 knih atd.): Na osu x tak tedy vyneseme počet knih (1, 2, 3, 4,...) a sloupec bude vždy vysoký podle toho, kolik čtenářů celkem si za rok 2021 půjčilo daný počet knih. Sloupců je ale mnoho, proto uděláme ještě jednu úpravu: "sloučíme" je a vytvoříme interval. Spočítáme, kolik čtenářů si vypůjčilo jednu až 10 knih, kolik 11 až 20, a tak dále - a pro každé toto rozpětí vynesme do grafu jen jeden sloupec. Sloupců je najednou méně a grafu můžeme začít říkat histogram.

1.2 Boxplot

Boxplot, také někdy jako krabicový graf nebo box-and-whisker plot, nám umožňuje rychle zkoumat a srovnávat více sad dat najednou. Představme si například, že máme deset poboček naší knihovny a potřebujeme se podívat, jak jsou na tom jejich čtenáři z hlediska věkového rozložení. Pro každou pobočku proto vyrobíme jednu "krabičku". Její hrany i tzv. vousky budou označovat kvartily (jednoduše v podstatě čtvrtiny): uprostřed bude linie mediánu. Rychle tak srovnáme pobočky a zjistíme např. která má největší věkové rozpětí čtenářů, kde je čtenářstvo nejstarší atp. Pojďme si to ukázat prakticky na příkladu a rovnou si zkusme boxplot vytvořit v nástroji RAWGraphs.

1.3 Korelační diagram

Korelační diagram, někdy také jako bodový graf nebo anglicky scatterplot, slouží k odhalení a zobrazení vztahu mezi dvěma proměnnými. Už jsme na něj narazili v úvodním modulu, když jsme si vyprávěli o Anscombovu kvartetu: tam nám posloužil právě k odhalení příběhu v datech, který by jinak zůstal skryt. Představme si například, že u každého čtenáře v našem systému máme data o jeho věku a pak například o průměrném počtu půjčených knih za měsíc - a naše hypotéza je založená právě na vztahu dvou proměnných: tedy věříme, že čím starší je čtenář, tím více knih si půjčuje. Není tak nic jednoduššího než na osu x vynést počet knih, na osu y věk čtenáře, a poté každého jednoho čtenáře do prostoru grafu umístit jako bod. Vytvořit bodový graf je možné i v MS Excel, ale RAWGraphs nám umožní navíc další úpravy, které by v Excelu nebyly možné.

2. Kam dál?

Svět vizualizace je širý a plný dalších zajímavých podob a vizuálních metafor. Prozkoumejte vizualizační katalogy The Data Visualization Catalogue nebo Data Viz Project, kde se většinou i dozvíte, v jakém nástroji vybraný typ grafu nejlépe vytvořit. Velkým tématem je také vizualizace vícerozměrných dat, kdy pracujeme s velkým množstvím proměnných a potřebujeme je zobrazovat najednou či porovnávat. V takovém případě se dá využít například radar chart, v češtině často jako paprskový graf.

Většina nástrojů, které používáme, nás omezí na již hotové vizualizační formy (sloupce, koláče atp.).Pokud potřebujete trochu více volnosti, můžete vyzkoušet nový typ vizualizačních nástrojů, které fungují na principu "ručního" mapování dat to vizuálních prvků. Třeba takový Charticulator nám proto umožní oprostit se od hranic daných nástroji typu Excel nebo RAWGraphs a vytvářet vizualizace, jaké svět třeba ještě ani neviděl.

Zdroj animace: charticulator.com

Bez popisku

Shrnuto a podtrženo...

Jsme v úplném závěru kurzu vizualizace dat. Děkujeme, že jste to s námi zvládli až do konce a doufáme, že byl pro vás tento kurz přínosný. Nejvíc ale doufáme, že z něj odcházíte s novými a užitečnými informacemi a že nové dovednosti uplatníte ve své každodenní praxi. Pokud máte jakékoliv dotazy nebo připomínky k obsahu kurzu, našli jste v něm chybu nebo jste se na nějakém místě beznadějně ztratili, pište na marek@kisk.cz. Díky!

⯇ Osnova kurzu

Používáte starou verzi internetového prohlížeče. Doporučujeme aktualizovat Váš prohlížeč na nejnovější verzi.

Další info