Średnia vs Mediana vs Tryb
Średnia, mediana i mod to podstawowe miary tendencji centralnej stosowane w statystyce opisowej. Zupełnie się od siebie różnią i przypadki, w których służą do podsumowania danych, też są różne.
Oznaczać
Średnia arytmetyczna to suma wartości danych podzielona przez liczbę wartości danych, tj
Jeśli dane pochodzą z przestrzeni próbki, nazywane są średnią próbki (
), która jest opisową statystyką próbki. Chociaż jest to najczęściej stosowana miara opisowa dla próbki, nie jest to solidna statystyka. Jest bardzo wrażliwy na wartości odstające i oscylacje.
Weźmy na przykład pod uwagę średni dochód mieszkańców danego miasta. Ponieważ wszystkie wartości danych są sumowane, a następnie dzielone, dochód niezwykle zamożnej osoby znacząco wpływa na średnią. Dlatego średnie wartości nie zawsze są dobrą reprezentacją danych.
Również w przypadku sygnału przemiennego prąd przepływający przez element okresowo zmienia się z kierunku dodatniego do ujemnego i odwrotnie. Jeśli weźmiemy średni prąd przepływający przez element w pojedynczym okresie, da to 0, co oznacza, że żaden prąd nie przepłynął przez element, co oczywiście nie jest prawdą. Dlatego też w tym przypadku średnia arytmetyczna nie jest dobrą miarą.
Średnia arytmetyczna jest dobrym wskaźnikiem, gdy dane są równomiernie rozłożone. W przypadku rozkładu normalnego średnia jest równa postaci i medianie. Ma również najniższe reszty, biorąc pod uwagę średni kwadratowy błąd; w związku z tym najlepszym środkiem opisowym, gdy wymagane jest przedstawienie zbioru danych pojedynczą liczbą.
Mediana
Wartości środkowego punktu danych po uporządkowaniu wszystkich wartości danych w porządku rosnącym są definiowane jako mediana zbioru danych. Mediana to 2. kwartyl, 5. decyl i 50. percentyl.
• Jeśli liczba obserwacji (punktów danych) jest nieparzysta, to mediana jest obserwacją dokładnie pośrodku uporządkowanej listy.
• Jeśli liczba obserwacji (punktów danych) jest parzysta, mediana jest średnią z dwóch środkowych obserwacji na uporządkowanej liście.
Mediana dzieli obserwację na dwie grupy; tj. grupa (50%) wartości wyższych i grupa (50%) wartości niższych od mediany. Mediany są szczególnie używane w rozkładach skośnych i reprezentują dane znacznie lepiej niż średnia arytmetyczna.
Tryb
Mod to najczęściej występująca liczba w zbiorze obserwacji. Tryb zbioru danych jest obliczany poprzez znalezienie częstotliwości każdego elementu w zestawie.
• Jeśli żadna wartość nie występuje więcej niż raz, to zestaw danych nie ma trybu.
• W przeciwnym razie każda wartość, która występuje z największą częstotliwością, jest trybem zestawu danych.
W zestawie może istnieć więcej niż 1 tryb; dlatego tryb nie jest unikatową statystyką zbioru danych. W równomiernym rozkładzie istnieje jeden tryb. Postać dyskretnego rozkładu prawdopodobieństwa to punkt, w którym funkcja masy prawdopodobieństwa osiąga swój najwyższy punkt. Odwzorowując powyższe interpretacje, możemy powiedzieć, że maksima globalne są modami.
Rozważ zastosowanie wszystkich trzech miar do następującego zbioru danych.
DANE: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Średnia = (1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25 = 8,12
Mediana = 9 (13. element)
Tryb = 9 (częstotliwość 9 = 5)
Jaka jest różnica między średnią, medianą i trybem?
• Średnia arytmetyczna to suma wartości (obserwacji) podzielona przez liczbę obserwacji. Nie jest to solidna statystyka i silnie zależy od charakteru rozkładu normalnego w ramach rozważanego rozkładu. Pojedyncza wartość odstająca może spowodować znaczne przesunięcie średniej, podając względnie mylące wartości. Pojęcie to można rozszerzyć na średnią geometryczną, średnią harmoniczną, średnią ważoną i tak dalej.
• Mediana to środkowe wartości zbioru obserwacji i obserwacje odstające mają na nią stosunkowo mniejszy wpływ. Może to dać dobre oszacowanie jako statystyka podsumowująca w przypadkach silnie wypaczonych.
• Tryb to najczęściej spotykane wartości obserwacji w zbiorze danych. Jeśli rozkład jest dodatnio pochylony, mod leży po lewej stronie mediany, a jeśli jest ujemnie skośny, mod leży po prawej stronie mediany.
• Jeśli dodatnio wypaczony, średnia jest równa medianie; jeśli ujemnie wypaczona średnia znajduje się na lewo od mediany.
• W rozkładzie normalnym wszystkie trzy, średnia, postać i mediana są równe.