Testy parametryczne - Statystyka

freshi · Post autor: **freshi** » 04 gru 2020, 01:35

Prosiłbym o pomoc w tym zadaniu!

Wiadomo, że średnie wynagrodzenie brutto w pewnym kraju wynosi 1100 $ miesięcznie. Zapytano o wynagrodzenie 7 losowo wybranych osób pracujących w pewnym przedsiębiorstwie i uzyskano odpowiedzi: 650, 800, 700, 1500, 1200, 850, 950 [w $]. Czy na tej podstawie na poziomie istotności α = 0.05 można twierdzić, że zarobki w tym przedsiębiorstwie są inne niż w całym kraju? Załóż, że zarobki losowego pracownika badanego przedsiębiorstwa mają rozkład normalny.

Z góry dziękuję za pomoc!

grdv10 · Post autor: **grdv10** » 04 gru 2020, 19:08

Rozwiązanie z użyciem R - darmowego pakietu do obliczeń statystycznych

Zrobię rozwiązanie w R, a potem go ewentualnie skomentuję robiąc obliczenia ręczne, których nienawidzę (ale oczywiście umiem je zrobić). Hipotetyczny średni zarobek to zarobek krajowy, czyli $1000$. Dlatego przyjmujemy $H_0:m=1000$, gdzie $m$ jest średnim zarobkiem w całym przedsiębiorstwie. Popatrzmy jeszcze, jaką przyjąć hipotezę alternatywną. W gruncie rzeczy zależy to od średniej w próbie, jak ona ma się do średniej hipotetycznej.

Kod: Zaznacz cały

> zarobki<-c(650, 800, 700, 1500, 1200, 850, 950)
> zarobek_sredni<-mean(zarobki)
> print(zarobek_sredni)
[1] 950

Średni zarobek jest znacznie niższy niż 1000, dlatego przyjmiemy hipotezę alternatywną lewostronną, czyli $H_1:m<1000.$ Bardzo często wyniki badania próby determinują postać hipotezy alternatywnej.

No i teraz właściwe rozwiązanie w R. Wykonujemy test Studenta dla średniej hipotetycznej 1000 z lewostronną hipotezą alternatywną.

Kod: Zaznacz cały

> t.test(zarobki,mu=1000,alternative = 'less')

	One Sample t-test

data:  zarobki
t = -0.43693, df = 6, p-value = 0.3387
alternative hypothesis: true mean is less than 1000
95 percent confidence interval:
     -Inf 1172.367
sample estimates:
mean of x 
      950

Napis p-value=0.3387 mówi nam, że aż do poziomu istotności 33.87% brak podstaw do odrzucenia hipotezy zerowej. Sensowne, uznane przez statystyków poziomy istotności to 1%-10%, więc na każdym z tych poziomów decyzja jest identyczna. Jest więc bardzo mocny argument za przyjęciem, że średni zarobek w firmie nie różni się zbytnio od średniego zarobku w kraju.

Dla formalności trzeba by jeszcze przetestować czy dane z próby zostały wybrane z populacji o rozkładzie normalnym cechy. Służy do tego test Shapiro-Wilka. Niestety nikt o nim nie naucza.

Kod: Zaznacz cały

> shapiro.test(zarobki)

	Shapiro-Wilk normality test

data:  zarobki
W = 0.89682, p-value = 0.3122

Tu p-wartość też jest duża, więc na wszystkich sensownych poziomach istotności brak podstaw do odrzucenia tezy o normalności rozkładu.

Obliczenia ręczne - sposób dla amatorów

Czas na obliczenia ręczne, bo oczywiście nikt na wykładach nie robi statystyki na komputerze, a to krzywda wyrządzona studentowi, który potem nie zna żadnego pakietu statystycznego. Moje wykłady ze statystyki są przesycone oprogramowaniem R.

Robimy test istotności dla średniej dla populacji o rozkładzie normalnym cechy z nieznanym odchyleniem standardowym w małej próbie.

Musimy wyliczyć średnią z próby: mamy to już zrobione w R, nie będę liczył na kartce, bo zakładam, że działania na ułamkach są Ci znane.

Więc $\bar{x}=950.$ Teraz należy obliczyć odchylenie standardowe z próby. Często robi się to ze wzoru\[s=\sqrt{\frac{1}{n-1}\sum_{k=1}^n(x_k-\bar{x})^2}.\]W R realizuje to funkcja sd, a Ty policz samodzielnie na kartce.

Kod: Zaznacz cały

> s<-sd(zarobki)
> print(s)
[1] 302.765

Tak więc $s=302.765.$

Hipotezy jak wyżej. $H_0:m=1000$ oraz $H_1:m<1000$. Statystyka testowa:\[t=\frac{\bar{x}-1000}{s}\sqrt{n-1}=\frac{950-1000}{302.765}\cdot\sqrt{6}=-0.405.\](Uwaga: R bierze $\sqrt{n}$ zamiast $\sqrt{n-1}$).

Teraz obszar krytyczny czyli obszar odrzucenia na poziomie istotności $\alpha=5\%$. Charakteryzuje go nierówność\[t<-t_{2\alpha;n-1}=-t_{0.10;6}=-1.94,\]co odczytujemy z tablic rozkładu t-Studenta.

Statystyka testowa $t=-0.405$ nie spełnia tej nierówności, a zatem statystyka testowa nie leży w obszarze krytycznym. Dlatego brak podstaw do odrzucenia hipotezy zerowej na poziomie istotności 5%.

Wnioski.

1. Szkoda, że nie naucza się o p-wartościach, bo ich użycie jest bardziej rzetelne w badaniach zwłaszcza tam, gdzie decyzja zależy od sensownego poziomu istotności.
2. Szkoda, że nie naucza się programów statystycznych, bo - jak widać - ich użycie sprowadza wszystko do jednej komendy, a nam pozostaje interpretacja.
3. Obliczenia na kartce nia mają sensu.
4. Jeśli ktoś bardzo, ale to bardzo nie chce uczyć się darmowego i genialnego R, to niech zrobi zadanie w Excelu, który też ma dość dobrą statystykę. Tam obliczenia będą pół-ręczne chyba, że istnieje tam coś takiego, jak test Studenta.

panb · Post autor: **panb** » 04 gru 2020, 20:25

Nie widzę powodu, żeby gardzić sekretarkami ani tym bardziej grzecznymi dziećmi.
To komentarz/wniosek poniżej pana godności. Chyba, że się mylę

grdv10 · Post autor: **grdv10** » 04 gru 2020, 20:27

To nie jest pogarda. Mnie zastanawia coś innego. Czemu Pan mnie non stop kontruje? Dla świętego spokoju usuwam zdanie o sekretarkach, bo nie należy to do meritum sprawy i bez szkody dla siebie mogę z niego zrezygnować. Ale proszę o więcej merytoryki z Pana strony. Czyżbym coś źle napisał w kwestii statystycznej?

freshi · Post autor: **freshi** » 06 gru 2020, 01:01

Dziękuję za pomoc z tym zadaniem, aczkolwiek mam dwa pytania.

1.Czy mógłbyś mi powiedzieć, dlaczego tutaj hipotetyczny średni zarobek to 1000?

Zrobię rozwiązanie w R, a potem go ewentualnie skomentuję robiąc obliczenia ręczne, których nienawidzę (ale oczywiście umiem je zrobić). Hipotetyczny średni zarobek to zarobek krajowy, czyli $1000$. Dlatego przyjmujemy $H_0:m=1000$, gdzie $m$ jest średnim zarobkiem w całym przedsiębiorstwie. Popatrzmy jeszcze, jaką przyjąć hipotezę alternatywną. W gruncie rzeczy zależy to od średniej w próbie, jak ona ma się do średniej hipotetycznej.

2.Czy przyjęcie, że $H_1:m \ \neq 1100$ i $C_1 = ( -\infty , -t_{1- \alpha /2}) \cup ( t_{1- \alpha /2}, \infty $) jest dobre? Wyliczenie $s$ jest dokładnie takie samo, jak ze wzoru, który podałeś, a we wzorze na $t$ byłaby jedynie różnica, że pod pierwiastkiem zamiast $n-1$ byłoby samo $n$.

korki_fizyka · Post autor: **korki_fizyka** » 06 gru 2020, 11:11

szw1710 pisze: ↑04 gru 2020, 19:08 2. Szkoda, że nie naucza się programów statystycznych, bo - jak widać - ich użycie sprowadza wszystko do jednej komendy, a nam pozostaje interpretacja.

Naucza się albo studenci sami muszą je opanować jeśli mają motywację czyli jakąś serię opracowań wyników do policzenia ewentualnie gdy potrzebne im to jest przy pracy magisterskiej. Natomiast, gdy spotykają się z tym incydentalnie, raz albo dwa, to najczęściej wstawiają te "problemy" tutaj lub na innych forach.

szw1710 pisze: ↑04 gru 2020, 19:08 Rozwiązanie z użyciem R - darmowego pakietu do obliczeń statystycznych
[..]
Uwaga: R bierze $\sqrt{n}$ zamiast $\sqrt{n-1}$)

Mnie zastanawia fakt, czemu w tych programach nie ma od razu $\sqrt{n(n-1)}$ stosowanego przy obliczaniu odchylenia standardowego średniej arytmetycznej

Nawet, gdy student liczy sam np. na kalkulatorze, wykorzystując istniejące tam funkcje statystyczne, to zwykle o tym zapomina.

szw1710 pisze: ↑04 gru 2020, 19:08 3. Obliczenia na kartce nia mają sensu.

pełna zgoda

grdv10 · Post autor: **grdv10** » 06 gru 2020, 18:23

freshi pisze: ↑06 gru 2020, 01:01 Dziękuję za pomoc z tym zadaniem, aczkolwiek mam dwa pytania.

1.Czy mógłbyś mi powiedzieć, dlaczego tutaj hipotetyczny średni zarobek to 1000?
Zrobię rozwiązanie w R, a potem go ewentualnie skomentuję robiąc obliczenia ręczne, których nienawidzę (ale oczywiście umiem je zrobić). Hipotetyczny średni zarobek to zarobek krajowy, czyli $1000$. Dlatego przyjmujemy $H_0:m=1000$, gdzie $m$ jest średnim zarobkiem w całym przedsiębiorstwie. Popatrzmy jeszcze, jaką przyjąć hipotezę alternatywną. W gruncie rzeczy zależy to od średniej w próbie, jak ona ma się do średniej hipotetycznej.
2.Czy przyjęcie, że $H_1:m \ \neq 1100$ i $C_1 = ( -\infty , -t_{1- \alpha /2}) \cup ( t_{1- \alpha /2}, \infty $) jest dobre? Wyliczenie $s$ jest dokładnie takie samo, jak ze wzoru, który podałeś, a we wzorze na $t$ byłaby jedynie różnica, że pod pierwiastkiem zamiast $n-1$ byłoby samo $n$.

ad 1. Bo się pomyliłem.

Zaraz zrobię test Studenta dla 1100. Więc hipoteza lewostronna ma jeszcze większe uzasadnienie. Obliczenia tylko w R, bo to, co pokazałem na kartce, jak to się robi, jest reprezentatywne i nie ma sensu tu powtarzać...

Kod: Zaznacz cały

> zarobki<-c(650, 800, 700, 1500, 1200, 850, 950)
> zarobek_sredni<-mean(zarobki)
> t.test(zarobki,mu=1100,alternative = 'less')

	One Sample t-test

data:  zarobki
t = -1.3108, df = 6, p-value = 0.1189
alternative hypothesis: true mean is less than 1100
95 percent confidence interval:
     -Inf 1172.367
sample estimates:
mean of x 
      950

Tu p-wartość jest już znacznie mniejsza, na poziomie niecałych 12%, ale i tak wszystkie sensowne poziomy istotności są poniżej niej i wnioski są identyczne jak poprzednio. Brak podstaw do odrzucenia hipotezy o tym, że średni zarobek w firmie jest na poziomie 1100 czyli nie różni się istotnie od zarobku krajowego.

ad 2. Test z dwustronną hipotezą alternatywną:

Kod: Zaznacz cały

> zarobki<-c(650, 800, 700, 1500, 1200, 850, 950)
> zarobek_sredni<-mean(zarobki)
> t.test(zarobki,mu=1100,alternative = 'two.sided')

	One Sample t-test

data:  zarobki
t = -1.3108, df = 6, p-value = 0.2379
alternative hypothesis: true mean is not equal to 1100
95 percent confidence interval:
  669.989 1230.011
sample estimates:
mean of x 
      950

p-wartość 23%, więc wnioski identyczne. Jednak widzimy, że średnia w próbie to 950 i jest znacznie mniejsza od 1100. W formułowaniu hipotezy idziemy za tym i dlatego przyjmujemy hipotezę lewostronną. Jeśli średnia w próbie byłaby powiedzmy 1050, to można by brać i obustronną...

Forum serwisu

Testy parametryczne - Statystyka

Testy parametryczne - Statystyka

Re: Testy parametryczne - Statystyka

Re: Testy parametryczne - Statystyka

Re: Testy parametryczne - Statystyka

Re: Testy parametryczne - Statystyka

Re: Testy parametryczne - Statystyka

Re: Testy parametryczne - Statystyka