Explorativní datová analýza a více zdrojů / proměnných  3. října 2022

Materiály

Nejste účastníkem kurzu
Pro zápis do kurzu se nejprve přihlašte a následně použijte tlačítko v přehledu kurzu.

Domácí projekty

Template s úkoly na DeepNote si zduplikuj TADY.

0.

Odkaz na tvůj notebook na DeepNote (nezapomeň změnit práva na "Edit" a přejmenovat soubor):

1.

Použij data z tabulky countries a spočti korelační koeficienty mezi jednotlivými sloupci. Slovně popiš, které hodnoty tě zaujaly a proč.

2.

Dál pracuj s tabulkou countries a spočítej průměrnou dobu dožití (life_expectancy) pro jednotlivé příjmové skupiny (income_groups) a regiony (world_6region). (Nápověda: vzpomeň si, jak jsme v minulé hodině analyzovali vztah mezi dvěma kategorickými proměnnými).

3.

Pomocí jedné funkce graficky zobraz vztahy všech dvojic těchto proměnných: life_expectancy, life_expectancy_male a life_expectancy_female v tabulce countries. Porovnej s korelačními koeficienty a popřemýšlej, proč vycházejí jinak, než by někdo mohl čekat.

4.

Použij data o filmech z minulé hodiny (movies_complete) a graficky zobraz distribuci příjmů (lifetime_gross) těchto filmových studií: ['BV', 'WB', 'Par.', 'Uni.', 'Fox', 'Sony', 'DW', 'NL', 'FoxS', 'Col.']. Nápověda - pro filtraci studií použij metodu isin() viz dokumentace.

5.

Stáhni si tabulku OMdb_mojo_clean.csv z této adresy a udělej join s finální tabulkou z minulé hodiny. Potom spočítej cross-korelace všech hodnocení ve výsledném datasetu.

6.

Spočtěte korelační koeficient pro oběžnou poloosu a oběžnou dobu a pomocí korelace dokažte, že existuje vztah mezi těmito veličinam.

7.

Poslední úkol je spíše k zamyšlení (nemusíš psát kód): Zjisti, které z TOP 20 filmů z oficiálního žebříčku IMDB nejsou v naší finální tabulce z minulé hodiny. Dokážeš zdůvodnit proč?