Explorativní datová analýza a statistika jedné proměnné  29. září 2020

Materiály

Nejste účastníkem kurzu
Pro zápis do kurzu se nejprve přihlašte a následně použijte tlačítko v přehledu kurzu.

Domácí projekty

Načti data kromě Prahy-Ruzyně ještě z meteostanice Lysá Hora a:

0.

Pomocí grafu porovnej vývoj ročního úhrnu srážek v jednotlivých stanicích.

1.

Zjisti, ve které z těchto stanic byl nejteplejší den v roce 2010 a který to byl.

2.

Zjisti, kde bylo (v průměru) nejteplejších 90 % dní v roce 2018 a kde nejstudenějších 10 %.

3.

Porovnej průměrný denní svit v 90. letech (1990 - 1999) v Praze a na Lysé Hoře.

V následujícím úkolu si zopakujeme práci s chybějícími hodnotami:

4.

Načti data z https://data4pydata.s3-eu-west-1.amazonaws.com/pyladies/P1PRUZ01schibami.xls, kde jsou chybějící data označena jako #CHYBA MĚŘENÍ.

  • Pomocí volby na_values při načítání dat z Excel souboru správně označ chyby měření jako chybějící data.
  • Odstraň pouze řádky, kde je špatné datum (tip: použij dropna(subset=)). Pomocí fillna pak nahraď chybějící měření poslední předchozí hodnotou.

Poslední dva úkoly prověří pravdivost známých pranostik:

5.

Jak často přijíždí Svatý Martin na bílém koni? Jaké je procento svátků Sv. Martina (11. 11.), kdy byla celková výška sněhu větší než 0?

6.

Který z ledových mužů je nejmrazivější? Pankrác (12. 5.), Servác (13. 5.) nebo Bonifác (14. 5.)? Zjisti to porovnáním procent těchto dní s minimální teplotou < 0. Pokud budou procenta vyrovnaná, vyhraje den s nižší průměrnou teplotou.