Použij databázi Gapminder se statistikami o jednotlivých státech světa a pokus se aplikovat, co ses v hodině o PCA naučila. Template s úkoly na DeepNote si zduplikuj TADY.
Odkaz na tvůj notebook na DeepNote (nezapomeň změnit práva na "Edit" a přejmenovat soubor):
Spočítej, kolik je v každém sloupci chybějících hodnot (countries.isnull().sum(axis = 0))
. Zvaž, které sloupce chceš pro PCA použít. Nepoužívej sloupce s vysokým podílem chybějících pozorování, ani sloupce, které pro porovnávání států nedávají dobrý smysl (např. protože odrážejí velikost státu, nikoli jeho charakteristiky).
Do tabulky s vybranými sloupci doplň chybějící hodnoty pomocí SimpleImputer
z balíčku sklearn.
Normalizuj data pomocí StandardScaler
a spočítej první dvě komponenty PCA
. Vykresli data do souřadnicového grafu (scatter plot). Jsou země EU blízko sebe? Tvoří shluk?
Dokážeš najít interpretaci pro PCA1 a PCA2 (první dvě komponenty PCA)? Pomoci může, když si nakreslíš interaktivní graf zobrazující jméno země (balíček plotly
). Zkus si též spočítat, nakolik jednotlivé sloupečky z původní tabulky přispívají ke koeficientům (loadings) PCA1 a PCA2.
Pokus se navrhnout, jak by šly do PCA zahrnout kategoriální veličiny, za předpokladu, že počet jejich kategorií není příliš velký (např. indikátor is_eu
, zda je země v EU, nebo kontinent world_6region
).