První analýza
Nebudeme dlouho otálet a přešlapovat na místě: zkusíme rovnou odpovědět na otázku z minulého modulu. Tak kdy se tedy vydává nejvíce nových knih? Před létem nebo před vánočními svátky? Data máme, chyby jsme opravili a všechny řádky jsou v Excelu úspěšně naimportovány. Pojďme se společně zamyslet, které sloupce budeme potřebovat pro tuto specifickou otázku a odhalit si nepříjemný fakt, totiž že data nikdy nejsou tak přesná, jak přesná je potřebujeme...
1. První odpověď (a její limity)
Před sebou máte otevřená a importovaná data z minulého modulu. Otázka je jasná: vychází více nových knih před létem nebo před Vánoci? Podívejte se nyní do dat a zkuste identifikovat sloupce, které budeme k odpovědi na tuto otázku potřebovat. Poté si rozklikněte otázku níže a porovnejte svou odpověď.
Tak které sloupce budeme potřebovat?
Asi nejvíce nás budou zajímat sloupce obsahující nějaká data. Ty v našem datasetu máme rovnou dva: Datum záznamu a Datum vydání - pokud se vám je nepodařilo dohledat, nejděte je teď a podívejte se, co obsahují. A můžeme pokračovat dál...
Data většinou nejsou tak přesná nebo tak relevantní, jak bychom je potřebovali - to platí hlavně u těch z externího prostředí, kde si nemůžeme vybírat, co a jak se měří. Když jsme si teď prošli jednotlivé sloupce v našem datasetu, které budeme potřebovat pro odpověď na úvodní otázku, napadá vás, co s nimi může být za problém? Jsou to opravdu přesně ta data, která potřebujeme k odpovědi? Vnímáte nějaké limity? Zamyslete se nad jednotlivými sloupci, a pak porovnejte své myšlenky s odpovědí skrytou níže.
Co je za potíže se sloupci?
Na první pohled vidíme, že ve sloupci Datum vydání je pouze rok. Ve všech případech je to rok 2020 - pracujeme totiž jen s knihami vydanými v roce 2020. Potíže je, že sloupec neobsahuje měsíc ani den vydání, takže pro získání odpovědi na naši otázku nám nebude stačit. Naproti tomu sloupec Datum záznamu obsahuje dokonce i přesný den - jenže den čeho?
Data mají limity. V našem případě je sloupec Datum zápisu jediným, který nám může pomoci odpovědět na naši výchozí otázku. Limity jsou zjevné: datum, kdy vydavatel zapsal knihu do databáze Svazu českých knihkupců a nakladatelů nebude pravděpodobně dnem, kdy kniha vyšla. Určitě se najdou nakladatelé, kteří své knihy zapisují do databáze SČKN jednou za čtyři měsíce zpětně všechny najednou. Určitě ale budou i tací, kteří je zapisují například pravidelně každý týden. Narážíme tedy na první limit našich dat - a my budeme předpokládat, že sloupec Datum záznamu nám na otázku může pomoci odpovědět alespoň rámcově. Od teď už musíme myslet na to, že odpověď bude pracovat s určitou dávkou nejistoty.
Odpověď by ale nebyla by stoprocentní ani v případě, že bychom měli úplné datum i ve sloupci Datum vydání - opět bychom se měli vždy sami sebe ptát: jaké limity tato data mohou mít? Opravdu je v databázi SČKN úplně každá kniha, která na našem trhu vyjde? Jsou všichni vydavatelé členy Svazu? A pokud jsou, mají povinnost do této databáze zapisovat všechno? Přemýšlení o limitech dat nás často může dovést k datovému nihilismu: přesvědčení, že žádná data nejsou dostatečně přesná na to, aby vůbec dávalo smysl je využít. Takový nihilismus nikam nevede: data určitě stojí za to využít, jen je třeba si jejich limit vždy uvědomovat a především je také komunikovat, pokud někomu výsledky naší analýzy ukazujeme nebo předáváme...
Záchytný soubor: celý dataset v Excelu
sckn_tistene-knihy-2020.xlsx
Celý dataset naimportovaný do Excelu. Využijte ho, pokud se vám nepodařilo CSV správně naimportovat do MS Excel. |
.xlsx 1 MB |
---|
Tak tedy: před létem nebo před Vánoci?
Společně s naším mentorem Michalem se podíváme, jak využít kontingenční tabulku k vyřešení naší otázky. Budeme pracovat se sloupcem Datum záznamu a první analýza nám něco napoví i o tom, jak pečliví jsou nakladatelé v zapisování svých knih do databáze.
2. Co dál s kontingenční tabulkou?
Kontingenční tabulka je nástroj, který nám umožňuje nad daty provádět základní výpočty a analýzy. Tak například: z našeho knihovního systému nám vypadnou data o výpůjčkách po řádcích (tj. co řádek, to jedna výpůjčka a ve sloupci je například ID čtenáře, ID jednotky, datum, věk čtenáře atp.) a my potřebujeme spočítat, kolik výpůjček proběhlo v jakém měsíci, kolik knih si celkově vypůjčili čtenáři s věkem nad 75 let a tak podobně. Takové věci samozřejmě nepočítáme ručně, dělá je z nás právě kontingenční tabulka. Naše data jsou vlastně taky taková "řádková" data - co řádek, to jedna vydaná kniha. Tak co dalšího kromě odpovědi na otázku léto/Vánoce z nich dokážeme zjistit?
Další výpočty s kontingenční tabulkou
Co dalšího dokážeme nad daty zjistit? Využitím kontingenční tabulky nad daty o vydaných knihách nás provede lektor Michal.
Shrnuto a podtrženo...
Data mají své limity a vždy budeme pracovat s určitou mírou nejistoty. To by nás nemělo vést k datovému nihilismu a úplnému zavržení dat: data jsou vždy jen jednou ze součástí efektivního rozhodování. Založit například manažerské rozhodnutí čistě na datech není vždy nejlepší cesta. Data jsou prostě jen různou měrou omezeným odrazem reality. To nám ale v tomto modulu nezabránilo využít nástroj nazvaný kontingenční tabulka a provést nad daty výpočty, které nám pomohly (alespoň rámcově) odpovědět na naši vstupní otázku.