Použij databázi Gapminder se statistikami o jednotlivých státech světa a pokus se aplikovat, co ses v hodině o PCA naučila:
Spočítej, kolik je v každém sloupci chybějících hodnot (countries.isnull().sum(axis = 0))
. Na základě toho (a případně dalších úvah), vyber sloupce, který budeš pro PCA analýzu používat.
Do tabulky s vybranými sloupci doplň chybějící hodnoty pomocí SimpleImputer
z balíčku sklearn.
Normalizuj data pomocí StandardScaler
a spočítej první dvě komponenty PCA
. Vykresli data do souřadnicového grafu (scatter plot). Jsou země EU blízko sebe? Tvoří shluk?
Dokážeš najít interpretaci pro PCA1 a PCA2 (první dvě komponenty PCA)? Pomoci může, když si nakreslíš interaktivní graf zobrazující jméno země (balíček plotly
). Zkus si též spočítat, nakolik jednotlivé sloupečky z původní tabulky přispívají ke koeficientům (loadings) PCA1 a PCA2.
Pokus se navrhnout, jak by šly do PCA zahrnout kategoriální veličiny, za předpokladu, že počet jejich kategorií není příliš velký (např. indikátor is_eu
, zda je země v EU, nebo kontinent world_6region
).