Představení, Jupyter notebook, základy pandas
23. ledna 2020
Datové typy a základy vizualizace v pandas
30. ledna 2020
Explorativní datová analýza a statistika jedné proměnné
6. února 2020
Explorativní datová analýza a více zdrojů / proměnných
13. února 2020
Explorativní datová analýza a pokročilejší manipulace
20. února 2020
Opakovací hodina (bez materiálů)
27. února 2020
Databáze
5. března 2020
Virtuální hodina
19. března 2020
Webscraping (virtuální)
2. dubna 2020
API (virtuální)
9. dubna 2020
Strojové učení - úvod, regrese (virtuální)
23. dubna 2020
Strojové učení - knihovna scikit-learn, klasifikace (virtuální)
30. dubna 2020
Analýza hlavních komponent (PCA) (virtuální)
7. května 2020
Interaktivní vizualizace a aplikace (virtuální)
14. května 2020
Definování projektů v datové analytice (virtuální)
21. května 2020
Definování projektů v datové analytice
21. května 2020

Explorativní datová analýza a pokročilejší manipulace 20. února 2020

Materiály

Pandas - práce s indexy a analýza dat po skupinách

Pro zápis do kurzu se nejprve přihlašte a následně použijte tlačítko v přehledu kurzu.

Domácí projekty

Česká správa sociálního zabezpečení (ČSSZ) nabízí spoustu dat ohledně zaměstnanců, zaměstnavatelů, pojištění, důchodů atd. My se podíváme na data o OSVČ a jejich statistiky napříč Českem. Načti si do DataFramu CSV z této adresy. Budou nás zajímat sloupce datum, okres_kod, okres, vykonavana_cinnost_hlavni, zbytek můžeš zahodit. Možná se ti bude hodit, když datum budeš brát fakt jako datum.

Pro každý okres je v tabulce několik desítek pozorování v čase (poznáš podle sloupce datum). Pro každé datum zjisti, kolik řádků v DataFramu je - mělo by to odpovídat počtu okresů.

Pro každé datum zjisti, kolik byl celkový počet lidí s živností jako hlavní činností (vykonavana_cinnost_hlavni).

Z výsledku předchozího úkolu zkus spočítat, kolik byl každý rok průmerný počet OSVČ (hlavních). Tj. pokud ti v březnu 2019 vyšlo 500000, v září 600000 a v prosinci 650000, budeš chtít mít ve výsledku pro řádek s rokem 2019 hodnotu zhruba 583333.

Zkus spočítat průměrný počet vykonávaných hlavních činností za rok a okres. Výsledek pak otoč (pivotuj), abys měla v řádcích okresy, ve sloupcích jednotlivé roky (hodnota bude vždy onen průměr pro daný okres a rok). Jakmile bude dopivotováno, zkus dataframe opět převést na ten dlouhý (tj. rok bude pouze jeden sloupec, ne co rok, to sloupec).

Najdi datum nejnovějších pozorování (nejnovější datum) a vyfiltruj si náš dataframe do nového, který bude obsahovat jen pozorování z této doby. (Měl by mít 77 řádků, jeden pro každý okres.)

V tomto malém dataframu z předchozího úkolu si můžeš všimnout, že počet OSVČ se celkem dramaticky liší mezi okresy. Podívej se na rozložení počtu živností, stačí rovnoměrné na 5 intervalů (tj. všechny intervaly jsou stejné dlouhé, ale můžou mít dost rozdílný počet řádků). Některé intervaly mají nula řádků - co se stalo? Proč tomu tak je? Navrhla bys lepší rozdělení dat?