Analýza hlavních komponent (PCA)  2. prosince 2021

Materiály

Nejste účastníkem kurzu
Pro zápis do kurzu se nejprve přihlašte a následně použijte tlačítko v přehledu kurzu.

Domácí projekty

Použij databázi Gapminder se statistikami o jednotlivých státech světa a pokus se aplikovat, co ses v hodině o PCA naučila. Template s úkoly na DeepNote si zduplikuj TADY.

0.

Odkaz na tvůj notebook na DeepNote (nezapomeň změnit práva na "Edit" a přejmenovat soubor):

1.

Spočítej, kolik je v každém sloupci chybějících hodnot (countries.isnull().sum(axis = 0)). Zvaž, které sloupce chceš pro PCA použít. Nepoužívej sloupce s vysokým podílem chybějících pozorování, ani sloupce, které pro porovnávání států nedávají dobrý smysl (např. protože odrážejí velikost státu, nikoli jeho charakteristiky).

2.

Do tabulky s vybranými sloupci doplň chybějící hodnoty pomocí SimpleImputer z balíčku sklearn.

3.

Normalizuj data pomocí StandardScaler a spočítej první dvě komponenty PCA. Vykresli data do souřadnicového grafu (scatter plot). Jsou země EU blízko sebe? Tvoří shluk?

4.

Dokážeš najít interpretaci pro PCA1 a PCA2 (první dvě komponenty PCA)? Pomoci může, když si nakreslíš interaktivní graf zobrazující jméno země (balíček plotly). Zkus si též spočítat, nakolik jednotlivé sloupečky z původní tabulky přispívají ke koeficientům (loadings) PCA1 a PCA2.

5.

Pokus se navrhnout, jak by šly do PCA zahrnout kategoriální veličiny, za předpokladu, že počet jejich kategorií není příliš velký (např. indikátor is_eu, zda je země v EU, nebo kontinent world_6region).