Explorativní datová analýza a více zdrojů / proměnných  13. února 2020

Materiály

Nejste účastníkem kurzu
Pro zápis do kurzu se nejprve přihlašte a následně použijte tlačítko v přehledu kurzu.

Domácí projekty

Pro první tři úkoly použij data z tabulky countries z 2. hodiny a:

0.

Spočti korelační koeficienty mezi jednotlivými sloupci. Slovně popiš, které hodnoty tě zaujaly a proč.

1.

Spočítej průměrnou dobu dožití (life_expectancy) pro jednotlivé příjmové skupiny (income_groups) a regiony (world_6region). (Nápověda: vzpomeň si, jak jsme v minulé hodině analyzovali vztah mezi dvěma kategorickými proměnnými).

2.

Pomocí jedné funkce graficky zobraz vztahy všech dvojic těchto proměnných: life_expectancy, life_expectancy_male a life_expectancy_female. Porovnej s korelačními koeficienty a popřemýšlej, proč vycházejí jinak, než by někdo mohl čekat.

Pro další úkoly použij data o filmech z minulé hodiny a:

3.

Graficky zobraz distribuci příjmů (lifetime_gross) těchto filmových studií: ['BV', 'WB', 'Par.', 'Uni.', 'Fox', 'Sony', 'DW', 'NL', 'FoxS', 'Col.']. Nápověda - pro filtraci studií použij metodu isin() viz dokumentace.

4.

Stáhni si tabulku OMdb_mojo_clean.csv z této adresy a udělej join s finální tabulkou z minulé hodiny. Potom spočítej cross-korelace všech hodnocení ve výsledném datasetu.

5.

Poslední úkol je spíše k zamyšlení (nemusíš psát kód): Zjisti, které z TOP 20 filmů z oficiálního žebříčku IMDB nejsou v naší finální tabulce z minulé hodiny. Dokážeš zdůvodnit proč?