Explorativní datová analýza a pokročilejší manipulace  20. února 2020

Materiály

Nejste účastníkem kurzu
Pro zápis do kurzu se nejprve přihlašte a následně použijte tlačítko v přehledu kurzu.

Domácí projekty

Česká správa sociálního zabezpečení (ČSSZ) nabízí spoustu dat ohledně zaměstnanců, zaměstnavatelů, pojištění, důchodů atd. My se podíváme na data o OSVČ a jejich statistiky napříč Českem. Načti si do DataFramu CSV z této adresy. Budou nás zajímat sloupce datum, okres_kod, okres, vykonavana_cinnost_hlavni, zbytek můžeš zahodit. Možná se ti bude hodit, když datum budeš brát fakt jako datum.

0.

Pro každý okres je v tabulce několik desítek pozorování v čase (poznáš podle sloupce datum). Pro každé datum zjisti, kolik řádků v DataFramu je - mělo by to odpovídat počtu okresů.

1.

Pro každé datum zjisti, kolik byl celkový počet lidí s živností jako hlavní činností (vykonavana_cinnost_hlavni).

2.

Z výsledku předchozího úkolu zkus spočítat, kolik byl každý rok průmerný počet OSVČ (hlavních). Tj. pokud ti v březnu 2019 vyšlo 500000, v září 600000 a v prosinci 650000, budeš chtít mít ve výsledku pro řádek s rokem 2019 hodnotu zhruba 583333.

3.

Zkus spočítat průměrný počet vykonávaných hlavních činností za rok a okres. Výsledek pak otoč (pivotuj), abys měla v řádcích okresy, ve sloupcích jednotlivé roky (hodnota bude vždy onen průměr pro daný okres a rok). Jakmile bude dopivotováno, zkus dataframe opět převést na ten dlouhý (tj. rok bude pouze jeden sloupec, ne co rok, to sloupec).

4.

Najdi datum nejnovějších pozorování (nejnovější datum) a vyfiltruj si náš dataframe do nového, který bude obsahovat jen pozorování z této doby. (Měl by mít 77 řádků, jeden pro každý okres.)

5.

V tomto malém dataframu z předchozího úkolu si můžeš všimnout, že počet OSVČ se celkem dramaticky liší mezi okresy. Podívej se na rozložení počtu živností, stačí rovnoměrné na 5 intervalů (tj. všechny intervaly jsou stejné dlouhé, ale můžou mít dost rozdílný počet řádků). Některé intervaly mají nula řádků - co se stalo? Proč tomu tak je? Navrhla bys lepší rozdělení dat?