Pro první tři úkoly použij data z tabulky countries
z 2. hodiny a:
Spočti korelační koeficienty mezi jednotlivými sloupci. Slovně popiš, které hodnoty tě zaujaly a proč.
Spočítej průměrnou dobu dožití (life_expectancy
) pro jednotlivé příjmové skupiny (income_groups
) a regiony (world_6region
). (Nápověda: vzpomeň si, jak jsme v minulé hodině analyzovali vztah mezi dvěma kategorickými proměnnými).
Pomocí jedné funkce graficky zobraz vztahy všech dvojic těchto proměnných: life_expectancy
, life_expectancy_male
a life_expectancy_female
. Porovnej s korelačními koeficienty a popřemýšlej, proč vycházejí jinak, než by někdo mohl čekat.
Pro další úkoly použij data o filmech z minulé hodiny a:
Graficky zobraz distribuci příjmů (lifetime_gross
) těchto filmových studií: ['BV', 'WB', 'Par.', 'Uni.', 'Fox', 'Sony', 'DW', 'NL', 'FoxS', 'Col.']. Nápověda - pro filtraci studií použij metodu isin()
viz dokumentace.
Stáhni si tabulku OMdb_mojo_clean.csv
z této adresy a udělej join s finální tabulkou z minulé hodiny. Potom spočítej cross-korelace všech hodnocení ve výsledném datasetu.
Poslední úkol je spíše k zamyšlení (nemusíš psát kód): Zjisti, které z TOP 20 filmů z oficiálního žebříčku IMDB nejsou v naší finální tabulce z minulé hodiny. Dokážeš zdůvodnit proč?