Tutor Centrum

Statistika a kvantitativní analýza dat představují pro velkou část studentů sociologie jednu z náročnějích částí studia. Smyslem tohoto tutor centra je pomoci všem studentům sociologie a příbuzných oborů s pochopením a procvičením látky, se kterou se setkají v rámci přednášek statistiky a analýzy dat a při psaní kvantitativně orientovaných bakalářských nebo diplomových prací.

Tutor Centrum nabízí možnost individuáního doučování pro všechny, kteří si nejsou jistí, jestli správně pochopili vše co slyšeli na přednáškách a nebo hledají pomoc při přípravě ke státním zkouškám. Rádi vám pomůžeme s jednorozměnou, dvourozměrnou a úvodem do vícerozměrné statistiky. Poradíme vám i v případě, že si nevíte rady s domácími úlohami, mějte ale na paměti, že je nebudeme dělat za vás. V případě zájmu pište na Alesvomacka[at]seznam.cz.

Kromě doučování také shromažďujeme materiály užitečné při studiu. Najdete zde učebnice, články, ale i odkazy na videa a internetové stránky, které se nám samotným v minulosti osvědčili při studii. Pokud byste sami měli tipy na materiály, se kterými máte dobré zkušenosti, napište na Alesvomacka[at]seznam.cz.

Studijní materiály a podklady k předmětu Statistika 1

1. Statistika1 – zaklad

Tahák základních testů

Jak analyzovat kontignenční tabulky

Příklady – statistika 1

Studijní materiály a podklady k předmětu Statistika 2

1. Statistika2 – Pojmy

2. Statistika2 – t test

2.1.T testy – Procvičování

3. Statistika2 – ANOVA

4. Statistika2 – Korelace

5. Statistika2 – Analýza kat dat

6. Statistika2 – Lineární regrese

Příklady – statistika 2

Knihy a učebnice

Jak lhát se statistikou – Darrel Huff (1954, česky 2013): Kniha není ucelenou učebnicí, ale souhrnem nejčastějších přešlapů a chyb, kterých se dopouštějí nejen vědci, analytici a novináři při práci s daty. Všechny témata, od zavádějících grafů po problematické využití průměrů, jsou s vtipem popsána na konkrétních příkladech. Knihu ocení nejvíce začínající studenti a lidé s minimálním matematickým zázemím. Kniha je dostupná v knihovně Filozofické fakulty.

Statistics done wrong: the woefully complete guide – Alex Reinhart (2015): Podobně jako u Jak lhát se statistikou, nejde o učebnici, ale o přehled nejvýraznějších problémů vznikajících při analýze dat. Tato kniha se ale zaměřuje na složitější problémy, jako jsou např. chyby v interpretaci p hodnot, pseudoreplikace, p hacking a publication bias. Knihu asi nejvíce ocení studenti nacházející se zhruba v polovině svého studia a všichni s větším zájmem o fungování současné vědy. Vybrané části knihy jsou zdarma dostupné na https://www.statisticsdonewrong.com/. Kniha samotná je dostupná v Národní technické knihovně.

Discovering Statistics Using SPSS 5th Edition – Andy Field (2007): Jednoduše a zábavně psaná učebnice, velice populární mezi studenty sociálních věd. Obsahuje přehled základních statistických pojmů a technik, vyučovaných na bakalářském stupni. Každá kapitola je rozdělená do tří částí: intuitivní vysvětlení pojmu nebo techniky, návod na výpočet v SPSS a praktický příklad. Kromě verze pro SPSS existují i verze pro programy R a SAS. Starší verze knihy je dostupná v knihovnách Univerzity Karlovy.

Statistics 4th Edition – David Freeman (2007): Prakticky psaná učebnice základů statistiky a částečně i metodologie. Struktura knihy je postavená kolem základních statických pojmů (střední hodnota, výběrová chyba, statistická signifikance, atd.). Každá kapitola obsahuje velké množství příkladů ze sociálních i přírodních věd a cvičení k procvičení nabytých znalostí. Kniha je k dispozici v knihovně Filozofického ústavu AV.

Learning statistics with R: A tutorial for psychology students and other beginners – Danielle Navarro: Učebnice původně vzniklá z poznámek ke kurzu statistiky na Adelaide. Knihu ocení zejména studenti plánující pracovat v programu R, využít ji ale může každý hledající přímočaré vysvětlení základních statistických pojmů. Učebnice obsahuje i zběžný úvod do bayesovské statistiky, je průběžně aktualizovaná a zdarma dostupná zde: http://compcogscisydney.org/learning-statistics-with-r/

Data Analysis Using Regression and Multilevel/Hierarchical Models – Andrew Gelman, Jennifer Hill (2007) – Učebnice pro pokročilejší analýzu dat založenou na regresních modelech. Kniha pokrývá vše od jednoduchých lineárních modelů a vícenásobné regrese po využíváním interakcí, imputace chybějících hodnot a využívání zobecnělých lineárních modelů, užitečných pro méně typická data (např. binární proměnné, četnosti). Druhá část knihy je věnována víceúrovňovým modelům, vhodných pro analýzu dat obsahujících hierarchickou strukturu (např. porovnávání respondentů napříč zeměmi nebo zaměstnanců napříč firmami). Kniha je nejlepší pro studenty plánující komplexnější analýzu dat a je dostupná v knihovně Celetná 20.

Internetové stránky

Seeing theory (https://students.brown.edu/seeing-theory/): Projekt studentů Brownovy univerzity. Jde o vizualizace nejzákladnějších statistických pojmů (střední hodnota, rozptyl, intervaly spolehlivosti, centrální limitní věta, atd.) usnadňující jejich intuitivní pochopení. Hodí se všem studentům, kteří mají problém představit si, co představují nejrůznější vzorečky.

OnlineStatBook (http://onlinestatbook.com/2/index.html): Jedná v podstatě o interaktivní učebnici statistiky vytvořenou týmem vedeným Davidem Lanem z Rice University. K popisu jednotlivých pojmů a technik jsou kromě slovního popisu k dispozici i interaktivní simulace. Každá kapitola obsahuje krátký test, k jehož dokončení je možné využít zmíněných simulací. K dispozici jsou mimo jiné vizualizace výběrové chyby, centrální limitní věty, intervalů spolehlivosti, aj.

Distributome (http://www.distributome.org/) – stránka zaměřená výuku využití nejrůznějších pravděpodobnostních distribucí. Obsahuje popis vlastností distribucí, nástroje na jejich simulaci, kalkulačky pro výpočet pravděpodobností z distribucí vycházejících a zejména potom několik online her a cvičení, jejichž cílem je přiblížit využití pravděpodobnostních distribucí pro řešení praktických problému. Hodí se studentům, kteří by si rádi spojili teoretický výklad s konkrétními příklady.

Videa

Crash Course – Statistics – série videí představujících zábavnou formou základní pojmy statistiky a metodologie. Studenti, kteří preferují video před textem a kteří si rádi doplní technický výklad zábavnými příklady, budou nadšeni. První díl série dostupný na https://www.youtube.com/watch?v=zouPoc49xbk&list=PL8dPuuaLjXtNM_Y-bUAhblSAdWRnmBUcr&index=2&t=0s

3blue1brow – Essence of linear algebra: Série videí zaměřených na grafické vysvětlení základů lineární algebry. Užitečné zejména pro studenty snažící se o lepší pochopení vícerozměrné statistiky (např. faktorová analýza). Autor má také série na téma kalkulu a neuronových sítí. První díl série dostupný zde: https://www.youtube.com/watch?v=kjBOesZCoqc&list=PLZHQObOWTQDPD3MizzM2xVFitgF8hE_ab

Khan Academy – Statistics series: Série videí popisujících základy teorie statistiky. Užitečné pro studenty preferující přednášky před čtením učebnic. Obsah videí dává větší důraz na matematickou stránku věci. Hodí se studentům, kteří se na přednáškách ztratili ve vzorcích a chtějí je znovu odvodit. První díl série je dostupný zde: https://www.youtube.com/watch?v=uhxtUt_-GyM&list=PL1328115D3D8A2566

Články

Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s Statement on p-Values: Context, Process, and Purpose. The American Statistician, 70(2), 129–133. https://doi.org/10.1080/00031305.2016.1154108

Prohlášení Americké statistické asociace na téma definice a využití p hodnot, jehož vznik byl motivován dlouhodobými problémy spojenými s využíváním statistické signifikance ve vědeckém výzkumu. Text obsahuje vysvětlení toho, co p hodnota je, co není a jak by měla a neměla být využívána. Kromě prohlášení samotného byly vydána řada dodatků, popisující dílčí aspekty tématu.

Greenland, S., Senn, S. J., Rothman, K. J., Carlin, J. B., Poole, C., Goodman, S. N., & Altman, D. G. (2016). Statistical tests, P values, confidence intervals, and power: a guide to misinterpretations. European Journal of Epidemiology, 31(4), 337–350. https://doi.org/10.1007/s10654-016-0149-3

První z dodatků k prohlášení Americké statistické asociace k tématu p hodnot. Článek obsahuje kromě srozumitelné definice toho, co p hodnoty jsou, také popis 25 nejčastějších chyb, kterých se výzkumníci při jejich používání dopouštějí.

Lew, M. J. (2012). Bad statistical practice in pharmacology (and other basic biomedical disciplines): you probably don’t know P. British Journal of Pharmacology, 166(5), 1559–1567. https://doi.org/10.1111/j.1476-5381.2012.01931.x

Článek vysvětlující odlišnosti mezi p hodnotami a chybami 1. a 2. typu. Text popisuje historii obou přístupů, které původně vznikly jako navzájem si konkurující způsoby statistické inference, ale které byly postupně nezáměrně sloučeny do nesourodého celku. Vyplatí se přečíst těmi, kdo se zajímají o podstatu statického testování nebo současné problémy s reprodukcí výsledků vědeckých studií.

Costello, A., & Osborne, J. (2005). Best Practices in Exploratory Factor Analysis: Four Recommendations for Getting the Most From Your Analysis. Practical Assessment, Research & Evaluation, 10(7). Získáno z https://www.pareonline.net/pdf/v10n7.pdf:

Článek popisuje rozdíly mezi explorační faktorovou analýzou a analýzou hlavních komponent, různé metody extrakce faktorů, porovnání pravidel pro zjištění počtu extrahovaných faktorů a porovnání ortogonálních a šikmých rotací. Celkově jde o užitečný přehled dobrých praktik při aplikaci EFA.

Fabrigar, L. R., Wegener, D. T., MacCallum, R. C., & Strahan, E. J. (1999). Evaluating the use of exploratory factor analysis in psychological research. Psychological Methods, 4(3), 272–299. https://doi.org/10.1037/1082-989X.4.3.272:

Článek užitečný pro všechny plánující využít explorační faktorovou analýzy. Obsahuje rady a doporučení o tom, kdy využít EFA, jakou metodu extrakce zvolit, jak zvolit počet extrahovaných faktorů a jakou zvolit rotaci.

Kettenring, J. R. (2006). The Practice of Cluster Analysis. Journal of Classification, 23(1), 3–30. https://doi.org/10.1007/s00357-006-0002-6

Článek popisující trendy v používání hierarchické shlukové analýzy. Text popisuje velkou řadu konkrétních příkladů HCA, které mohou sloužit jako inspirace pro vlastní práci nebo ilustrace při přípravě na zkoušku. Kromě toho článek popisuje základní problémy analýzy, např. řezání dendrogramu, analýzu větších vzorků a intepretace a validace výsledků.

Jain, A. K. (2010). Data clustering: 50 years beyond K-means. Pattern Recognition Letters, 31(8), 651–666. https://doi.org/10.1016/j.patrec.2009.09.011

Relativně komplexnější článek věnující se nehierachickému shlukování. Obsahuje zejména popis fungování klasické k-means techniky, jejích předností a problémů. Následuje přehled novějších metod, řešících dílčí nedostatky k-means: např. shlukování extrémně velkého počtu pozorování a proměnných a využívání externích informací pro lepší nalezení substantivních shluků.

Dormann, C. F., Elith, J., Bacher, S., Buchmann, C., Carl, G., Carré, G., … Lautenbach, S. (b.r.). Collinearity: a review of methods to deal with it and a simulation study evaluating their performance. Ecography, 36(1), 27–46. https://doi.org/10.1111/j.1600-0587.2012.07348.x

Článek se věnuje někdy pozapomínanému tématu kolinearity v regresní analýze. Obsahuje vysvětlení pojmu kolinearita a problémů z ní plynoucích, popis postupů k jejímu odhalení a popis způsobů alespoň částečné nápravy.

Tutor Centrum

Jazyky