Analýza hlavních komponent (PCA)  24. listopadu 2020

Materiály

Nejste účastníkem kurzu
Pro zápis do kurzu se nejprve přihlašte a následně použijte tlačítko v přehledu kurzu.

Domácí projekty

Použij databázi Gapminder se statistikami o jednotlivých státech světa a pokus se aplikovat, co ses v hodině o PCA naučila:

0.

Spočítej, kolik je v každém sloupci chybějících hodnot (countries.isnull().sum(axis = 0)). Na základě toho (a případně dalších úvah), vyber sloupce, který budeš pro PCA analýzu používat.

1.

Do tabulky s vybranými sloupci doplň chybějící hodnoty pomocí SimpleImputer z balíčku sklearn.

2.

Normalizuj data pomocí StandardScaler a spočítej první dvě komponenty PCA. Vykresli data do souřadnicového grafu (scatter plot). Jsou země EU blízko sebe? Tvoří shluk?

3.

Dokážeš najít interpretaci pro PCA1 a PCA2 (první dvě komponenty PCA)? Pomoci může, když si nakreslíš interaktivní graf zobrazující jméno země (balíček plotly). Zkus si též spočítat, nakolik jednotlivé sloupečky z původní tabulky přispívají ke koeficientům (loadings) PCA1 a PCA2.

4.

Pokus se navrhnout, jak by šly do PCA zahrnout kategoriální veličiny, za předpokladu, že počet jejich kategorií není příliš velký (např. indikátor is_eu, zda je země v EU, nebo kontinent world_6region).