Rozwiązanie z użyciem R - darmowego pakietu do obliczeń statystycznych
Zrobię rozwiązanie w
R, a potem go ewentualnie skomentuję robiąc obliczenia ręczne, których nienawidzę (ale oczywiście umiem je zrobić). Hipotetyczny średni zarobek to zarobek krajowy, czyli \(1000\). Dlatego przyjmujemy \(H_0:m=1000\), gdzie \(m\) jest średnim zarobkiem w całym przedsiębiorstwie. Popatrzmy jeszcze, jaką przyjąć hipotezę alternatywną. W gruncie rzeczy zależy to od średniej w próbie, jak ona ma się do średniej hipotetycznej.
Kod: Zaznacz cały
> zarobki<-c(650, 800, 700, 1500, 1200, 850, 950)
> zarobek_sredni<-mean(zarobki)
> print(zarobek_sredni)
[1] 950
Średni zarobek jest znacznie niższy niż 1000, dlatego przyjmiemy hipotezę alternatywną lewostronną, czyli \(H_1:m<1000.\) Bardzo często wyniki badania próby determinują postać hipotezy alternatywnej.
No i teraz właściwe rozwiązanie w
R. Wykonujemy test Studenta dla średniej hipotetycznej 1000 z lewostronną hipotezą alternatywną.
Kod: Zaznacz cały
> t.test(zarobki,mu=1000,alternative = 'less')
One Sample t-test
data: zarobki
t = -0.43693, df = 6, p-value = 0.3387
alternative hypothesis: true mean is less than 1000
95 percent confidence interval:
-Inf 1172.367
sample estimates:
mean of x
950
Napis
p-value=0.3387 mówi nam, że aż do poziomu istotności 33.87% brak podstaw do odrzucenia hipotezy zerowej. Sensowne, uznane przez statystyków poziomy istotności to 1%-10%, więc na każdym z tych poziomów decyzja jest identyczna. Jest więc bardzo mocny argument za przyjęciem, że średni zarobek w firmie nie różni się zbytnio od średniego zarobku w kraju.
Dla formalności trzeba by jeszcze przetestować czy dane z próby zostały wybrane z populacji o rozkładzie normalnym cechy. Służy do tego test Shapiro-Wilka. Niestety nikt o nim nie naucza.
Kod: Zaznacz cały
> shapiro.test(zarobki)
Shapiro-Wilk normality test
data: zarobki
W = 0.89682, p-value = 0.3122
Tu p-wartość też jest duża, więc na wszystkich sensownych poziomach istotności brak podstaw do odrzucenia tezy o normalności rozkładu.
Obliczenia ręczne - sposób dla amatorów
Czas na obliczenia ręczne, bo oczywiście nikt na wykładach nie robi statystyki na komputerze, a to krzywda wyrządzona studentowi, który potem nie zna żadnego pakietu statystycznego. Moje wykłady ze statystyki są przesycone oprogramowaniem
R.
Robimy test istotności dla średniej dla populacji o rozkładzie normalnym cechy z nieznanym odchyleniem standardowym w małej próbie.
Musimy wyliczyć średnią z próby: mamy to już zrobione w
R, nie będę liczył na kartce, bo zakładam, że działania na ułamkach są Ci znane.
Więc \(\bar{x}=950.\) Teraz należy obliczyć odchylenie standardowe z próby. Często robi się to ze wzoru\[s=\sqrt{\frac{1}{n-1}\sum_{k=1}^n(x_k-\bar{x})^2}.\]W
R realizuje to funkcja sd, a Ty policz samodzielnie na kartce.
Tak więc \(s=302.765.\)
Hipotezy jak wyżej. \(H_0:m=1000\) oraz \(H_1:m<1000\). Statystyka testowa:\[t=\frac{\bar{x}-1000}{s}\sqrt{n-1}=\frac{950-1000}{302.765}\cdot\sqrt{6}=-0.405.\](Uwaga:
R bierze \(\sqrt{n}\) zamiast \(\sqrt{n-1}\)).
Teraz obszar krytyczny czyli obszar odrzucenia na poziomie istotności \(\alpha=5\%\). Charakteryzuje go nierówność\[t<-t_{2\alpha;n-1}=-t_{0.10;6}=-1.94,\]co odczytujemy z tablic rozkładu t-Studenta.
Statystyka testowa \(t=-0.405\) nie spełnia tej nierówności, a zatem statystyka testowa nie leży w obszarze krytycznym. Dlatego brak podstaw do odrzucenia hipotezy zerowej na poziomie istotności 5%.
Wnioski.
1. Szkoda, że nie naucza się o p-wartościach, bo ich użycie jest bardziej rzetelne w badaniach zwłaszcza tam, gdzie decyzja zależy od sensownego poziomu istotności.
2. Szkoda, że nie naucza się programów statystycznych, bo - jak widać - ich użycie sprowadza wszystko do jednej komendy, a nam pozostaje interpretacja.
3. Obliczenia na kartce nia mają sensu.
4. Jeśli ktoś bardzo, ale to bardzo nie chce uczyć się darmowego i genialnego
R, to niech zrobi zadanie w Excelu, który też ma dość dobrą statystykę. Tam obliczenia będą pół-ręczne chyba, że istnieje tam coś takiego, jak test Studenta.