Istotność statystyczna: definicja, pojęcie, istotność, równania regresji i testowanie hipotez. Jakie jest znaczenie statystyczne w optymalizacji konwersji

Trafność statystyczna jest niezbędna w praktyce obliczeniowej FCC. Zauważono wcześniej, że z tej samej populacji można wybrać wiele próbek:

Jeśli zostaną wybrane prawidłowo, ich średnie wskaźniki i wskaźniki populacji ogólnej różnią się nieznacznie od siebie wielkością błędu reprezentatywności, biorąc pod uwagę przyjętą wiarygodność;

Jeśli zostaną wybrani z różnych populacji ogólnych, różnica między nimi okaże się znacząca. Porównanie próbek jest powszechnie uwzględniane w statystykach;

Jeśli różnią się nieznacznie, nieistotnie, nieistotnie, to znaczy faktycznie należą do tej samej populacji ogólnej, różnicę między nimi nazywa się statystycznie niewiarygodną.

istotne statystycznie różnica między próbami to próba, która różni się istotnie i zasadniczo, to znaczy należy do różnych populacji ogólnych.

W FCC ocena istotności statystycznej różnic między próbami oznacza rozwiązanie wielu problemów praktycznych. Na przykład wprowadzenie nowych metod nauczania, programów, zestawów ćwiczeń, testów, ćwiczenia kontrolne wiąże się z ich weryfikacją eksperymentalną, która powinna wykazać, że grupa badana zasadniczo różni się od kontrolnej. Dlatego stosuje się specjalne metody statystyczne, zwane kryteriami istotności statystycznej, w celu wykrycia obecności lub braku statystycznie istotnej różnicy między próbami.

Wszystkie kryteria są podzielone na dwie grupy: parametryczne i nieparametryczne. Kryteria parametryczne przewidują obowiązkową obecność prawa dystrybucji normalnej, tj. odnosi się to do obowiązkowego określenia głównych wskaźników prawa normalnego - średniej arytmetycznej i odchylenia standardowego s. Kryteria parametryczne są najbardziej dokładne i poprawne. Kryteria nieparametryczne opierają się na różnicach rangowych (porządkowych) pomiędzy elementami próbek.

Oto główne kryteria istotności statystycznej stosowane w praktyce FCC: test Studenta i test Fishera.

Kryterium studenta nazwany na cześć angielskiego naukowca C. Gosseta (Student to pseudonim), który odkrył tę metodę. Test t-Studenta ma charakter parametryczny, służy do porównywania wskaźników bezwzględnych próbek. Próbki mogą różnić się wielkością.

Kryterium studenta definiuje się w ten sposób.

1. Kryterium Studenta t znajdujemy według następującego wzoru:


gdzie są średnie arytmetyczne porównywanych próbek; t 1 , t 2 - błędy reprezentatywności zidentyfikowane na podstawie wskaźników porównywanych próbek.

2. Praktyka FCC pokazała, że ​​dla praca sportowa wystarczy przyjąć wiarygodność rachunku Р = 0,95.

Dla wiarygodności obliczeń: P = 0,95 (a = 0,05), przy liczbie stopni swobody

k \u003d n 1 + p 2 - 2 zgodnie z tabelą w dodatku 4, znajdujemy wartość wartości granicznej kryterium ( t gr).

3. Bazując na własnościach rozkładu normalnego, kryterium Studenta porównuje t i t gr.

Wyciągamy wnioski:

jeśli t t gr, to różnica pomiędzy porównywanymi próbami jest istotna statystycznie;

jeśli t t gr, to różnica nie jest istotna statystycznie.

Dla badaczy zajmujących się FCC ocena istotności statystycznej jest pierwszym krokiem do rozwiązania konkretnego problemu: czy porównywane próbki różnią się zasadniczo, czy nie. Następnym krokiem jest ocena tej różnicy z pedagogicznego punktu widzenia, który jest zdeterminowany kondycją problemu.

Rozważ zastosowanie kryterium Studenta na konkretnym przykładzie.

Przykład 2.14. W grupie 18 osób dokonano oceny tętna (uderzenia na minutę) przed x i i po tak, ja rozgrzewki.

Oceń skuteczność rozgrzewki na podstawie tętna. Wstępne dane i obliczenia przedstawiono w tabeli. 2.30 i 2.31.

Tabela 2.30

Przetwarzanie danych dotyczących tętna przed rozgrzewką


Błędy obu grup były zbieżne, gdyż liczebność prób była równa (ta sama grupa była badana w różnych warunkach), a odchylenia standardowe wynosiły s x = s y = 3 bpm. Przejdźmy do definicji kryterium Studenta:

Ustalamy wiarygodność rachunku: Р= 0,95.

Liczba stopni swobody k 1 \u003d n 1 + p 2 - 2 \u003d 18 + 18-2 \u003d 34. Zgodnie z tabelą w dodatku 4 znajdujemy t gr= 2,02.

Wnioskowanie statystyczne. Ponieważ t \u003d 11,62, a granica t gr \u003d 2,02, to 11,62\u003e 2,02, tj. t > t gr, więc różnica pomiędzy próbkami jest istotna statystycznie.

wniosek pedagogiczny. Stwierdzono, że pod względem tętna różnica pomiędzy stanem grupy przed i po rozgrzewce jest istotna statystycznie, tj. znaczący, ważny. Zatem na podstawie wskaźnika tętna możemy stwierdzić, że rozgrzewka jest skuteczna.

Kryterium Fishera jest parametryczny. Stosuje się go przy porównywaniu współczynników rozproszenia próbek. Oznacza to z reguły porównanie pod względem stabilności pracy sportowej lub stabilności wskaźników funkcjonalnych i technicznych w praktyce. wychowanie fizyczne i sport. Próbki mogą mieć różne rozmiary.

Kryterium Fishera definiuje się w następującej kolejności.

1. Znajdź kryterium Fishera F według wzoru


gdzie , są wariancjami porównywanych próbek.

Warunki kryterium Fishera przewidują to w liczniku wzoru F istnieje duża rozbieżność, tj. F jest zawsze większe niż jeden.

Ustalamy niezawodność rachunku: P = 0,95 - i wyznaczamy liczbę stopni swobody dla obu próbek: k 1 = n 1 - 1, k 2 = n 2 - 1.

Zgodnie z tabelą w załączniku 4 znajdujemy wartość brzegową kryterium F gr.

Porównanie kryteriów F i F gr pozwala nam wyciągnąć następujące wnioski:

jeśli F > F gr, to różnica pomiędzy próbami jest istotna statystycznie;

jeśli F< F гр, то различие между выборками статически недо­стоверно.

Weźmy konkretny przykład.

Przykład 2.15. Przeanalizujmy dwie grupy zawodników piłki ręcznej: x ja (nr 1= 16 osób) i y i (n 2 = 18 osób). Te grupy sportowców badano pod kątem czasu (czasów) odpychania podczas rzucania piłki do bramki.

Czy współczynniki odpychania są takie same?

Dane wstępne i podstawowe obliczenia przedstawiono w tabeli. 2.32 i 2.33.

Tabela 2.32

Przetwarzanie wskaźników odpychania pierwszej grupy zawodników piłki ręcznej


Zdefiniujmy kryterium Fishera:





Zgodnie z danymi przedstawionymi w tabeli w Załączniku 6, znajdujemy Fgr: Fgr = 2,4

Zwróćmy uwagę na fakt, że w tabeli w Załączniku 6 wyliczenie liczb stopni swobody zarówno większego, jak i mniejszego rozproszenia przy dochodzeniu duże liczby staje się bardziej szorstkie. Zatem liczba stopni swobody większej dyspersji jest następująca w następującej kolejności: 8, 9, 10, 11, 12, 14, 16, 20, 24 itd., a mniejszej - 28, 29, 30, 40, 50 itd. d.

Wyjaśnia to fakt, że wraz ze wzrostem wielkości próbki zmniejszają się różnice w teście F i można zastosować wartości tabelaryczne zbliżone do danych oryginalnych. Zatem w przykładzie 2,15 =17 nie ma i możemy przyjąć najbliższą mu wartość k = 16, z czego otrzymamy Fgr = 2,4.

Wnioskowanie statystyczne. Ponieważ test Fishera F= 2,5 > F= 2,4, próbki są istotne statystycznie.

wniosek pedagogiczny. Wartości czasu (czasów) odpychania przy wrzuceniu piłki do bramki zawodników piłki ręcznej obu grup różnią się istotnie. Grupy te należy uznać za różne.

Dalsze badania powinny wykazać, jaka jest przyczyna tej różnicy.

Przykład 2.20.(na istotność statystyczną próby ). Czy kwalifikacje piłkarza wzrosły, jeżeli czas od dania sygnału do kopnięcia piłki na początku treningu wynosił x i na końcu i.

Dane wyjściowe i podstawowe obliczenia podano w tabeli. 2,40 i 2,41.

Tabela 2.40

Przetwarzanie wskaźników czasu od podania sygnału do uderzenia piłki na początku treningu


Określmy różnicę pomiędzy grupami wskaźników według kryterium Studenta:

Przy niezawodności P \u003d 0,95 i stopniach swobody k \u003d n 1 + n 2 - 2 \u003d 22 + 22 - 2 \u003d 42, zgodnie z tabelą w dodatku 4, znajdujemy t gr= 2,02. Ponieważ t = 8,3 > t gr= 2,02 – różnica jest istotna statystycznie.

Określmy różnicę pomiędzy grupami wskaźników według kryterium Fishera:


Zgodnie z tabelą w Załączniku 2, przy niezawodności P = 0,95 i stopniach swobody k = 22-1 = 21, wartość F gr = 21. Ponieważ F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Wnioskowanie statystyczne. Według średniej arytmetycznej różnica pomiędzy grupami wskaźników jest istotna statystycznie. Pod względem rozproszenia (rozproszenia) różnica pomiędzy grupami wskaźników nie jest istotna statystycznie.

wniosek pedagogiczny. Kwalifikacje piłkarza znacznie się poprawiły, jednak należy zwrócić uwagę na stabilność jego zeznań.

Przygotowanie do pracy

Przed przeprowadzeniem tej pracy laboratoryjnej nad dyscypliną „ Metrologia sportowa» wszystkim studentom kółko naukowe konieczne jest utworzenie zespołów roboczych składających się z 3-4 uczniów w każdym, aby wspólnie wykonać zadanie wszystkich prac laboratoryjnych.

W przygotowaniu do pracy przeczytaj odpowiednie sekcje zalecanej literatury (patrz punkt 6 danych). wytyczne) i notatki z wykładów. Przestudiuj sekcje 1 i 2 tego laboratorium, a także związane z nimi zadanie robocze (część 4).

Przygotuj formularz raportu na standardowych arkuszach papier do pisania formacie A4 i umieść w nim materiały niezbędne do pracy.

Raport musi zawierać :

Strona tytułowa wskazanie wydziału (UK i TR), grupy badawczej, nazwiska, imienia, patronimika studenta, numeru i nazwy pracy laboratoryjnej, daty jej zakończenia, a także nazwiska, stopnia naukowego, tytułu naukowego i stanowiska o przyjęciu pracy przez nauczyciela;

Cel pracy;

Formuły z wartości liczbowe, wyjaśnienie pośrednich i końcowych wyników obliczeń;

Tabele wartości zmierzonych i obliczonych;

Wymagane przez przydział materiał graficzny;

Krótkie wnioski na temat wyników każdego z etapów przydzielonej pracy i ogólnie na temat wykonanej pracy.

Wszystkie wykresy i tabele są rysowane dokładnie przy użyciu narzędzi do rysowania. Grafika warunkowa i oznaczenia literowe musi być zgodny z GOST. Dopuszcza się sporządzenie protokołu przy wykorzystaniu technologii komputerowej (komputerowej).

Zadanie pracy

Przed wykonaniem wszelkich pomiarów każdy członek zespołu musi zapoznać się z zasadami użytkowania gra sportowa Rzutki, podane w Załączniku 7, które są niezbędne w kolejnych etapach badań.

I - etap badań„Badanie wyników trafienia do celu w grze sportowej Darts przez każdego członka brygady pod kątem zgodności z prawem dystrybucji normalnej według kryterium χ 2 Pearsona i test trzech sigma”

1. zmierzyć (przetestować) swoją (osobistą) prędkość i koordynację działań, rzucając rzutkami 30-40 razy w okrągłą tarczę w grze sportowej Darts.

2. Wyniki pomiarów (badań) x ja(w szklankach) ułożyć w formie seria odmian i wpisz w tabeli 4.1 (kolumny , wykonaj wszystko niezbędne obliczenia, uzupełnij niezbędne tabele i wyciągnij odpowiednie wnioski na temat zgodności otrzymanego rozkładu empirycznego z prawem rozkładu normalnego, przez analogię do podobnych obliczeń, tabel i wniosków z przykładu 2.12, podanych w rozdziale 2 niniejszych wytycznych na stronach 7 -10 .

Tabela 4.1

Zgodność szybkości i koordynacji działań podmiotów z prawem dystrybucji normalnej

Nie. p/s bułczasty
Całkowity

II - etap badań

„Ocena średnich wskaźników ogólnej populacji trafień w tarczę gry sportowej Darts wszystkich uczniów grupy edukacyjnej na podstawie wyników pomiarów członków jednej brygady”

Ocenić średnie wskaźniki szybkości i koordynacji działań wszystkich uczniów grupy badanej (zgodnie z listą grupy badanej w czasopiśmie klasowym) na podstawie wyników trafienia do celu w grze sportowej Darts przez wszystkich członków grupy zespołu, uzyskanych na pierwszym etapie badań w niniejszej pracy laboratoryjnej.

1. Dokumentuj wyniki pomiarów prędkości i koordynacji działań podczas rzucania rzutkami do okrągłej tarczy w grze sportowej Rzutki wszystkich członków Twojej drużyny (2 – 4 osoby), które stanowią wybór wyników pomiarów z populacji ogólnej (wyniki pomiarów wszystkich uczniów badanej grupy – np. 15 osób), wpisując je w drugiej i trzeciej kolumnie tabele 4.2.

Tabela 4.2

Przetwarzanie wskaźników szybkości i koordynacji działań

członkowie brygady

Nie. p/s
Całkowity

Tabela 4.2 pod należy rozumieć , dopasowany średni wynik (patrz wyniki obliczeń zgodnie z tabelą 4.1) członkowie Twojego zespołu , uzyskane na pierwszym etapie badań. Należy zauważyć że, zazwyczaj, w tabeli 4.2 obliczono średnią wartość wyników pomiarów uzyskanych przez jednego członka zespołu w pierwszym etapie badań , gdyż prawdopodobieństwo, że wyniki pomiarów różnych członków zespołu będą zbieżne, jest bardzo małe. Następnie, zwykle wartości w kolumnie tabele 4.2 dla każdego z wierszy - są równe 1, A w wierszu „Razem » kolumny « », jest napisane liczbę członków Twojego zespołu.

2. Wykonaj wszystkie niezbędne obliczenia, aby wypełnić tabelę 4.2, a także inne obliczenia i wnioski podobne do obliczeń i wniosków z przykładu 2.13, podanych w drugiej części tego rozwój metodologiczny na stronach 13-14. Należy o tym pamiętać przy obliczaniu błędu reprezentatywności "M" konieczne jest skorzystanie ze wzoru 2.4, podanego na stronie 13 niniejszego rozwinięcia metodologicznego, gdyż próba jest niewielka (n, a liczba elementów populacji ogólnej N jest znana i jest równa liczbie studentów w badanej grupie , zgodnie z wykazem czasopisma grupy badanej.

III - etap badań

Ocena efektywności rozgrzewki pod kątem „Szybkości i koordynacji działań” przez każdego członka zespołu przy zastosowaniu kryterium Studenta

Aby ocenić skuteczność rozgrzewki przed rzucaniem rzutkami do celu gry sportowej „Darts”, przeprowadzonej na pierwszym etapie badań tej pracy laboratoryjnej, przez każdego członka zespołu pod kątem „Szybkości i koordynacja działań”, wykorzystując test t-Studenta – parametryczne kryterium statystycznej wiarygodności empirycznego prawa rozkładu do prawa rozkładu normalnego.

… Całkowity

2. dyspersja i Północny Kazachstan , wyniki pomiarów wskaźnika „Szybkość i koordynacja działań” na podstawie wyników rozgrzewki, podane w tabeli 4.3, (patrz podobne obliczenia podane bezpośrednio po tabeli 2.30 w przykładzie 2.14 na stronie 16 niniejszego opracowania metodologicznego).

3. Każdy członek zespołu roboczego zmierzyć (przetestować) swoją (osobistą) prędkość i koordynację działań po rozgrzewce,

… Całkowity

5. Wykonaj średnie obliczenia dyspersja i Północny Kazachstan ,wyniki pomiarów wskaźnika „Szybkość i koordynacja działań” po rozgrzewce, podane w tabeli 4.4, zapisz ogólny wynik pomiarów na podstawie wyników rozgrzewki (patrz podobne obliczenia podane bezpośrednio po tabeli 2.31 w przykładzie 2.14 na stronie 17 tego opracowania metodologicznego).

6. Wykonaj wszystkie niezbędne obliczenia i wnioski, podobne do obliczeń i wniosków z przykładu 2.14, podanych w drugiej części tego opracowania metodologicznego na stronach 16-17. Należy o tym pamiętać przy obliczaniu błędu reprezentatywności "M" konieczne jest skorzystanie ze wzoru 2.1, podanego na stronie 12 niniejszego opracowania metodologicznego, ponieważ próba wynosi n, a liczba elementów populacji N ( jest nieznana.

IV - etap badań

Ocena jednolitości (stabilności) wskaźników „Szybkość i koordynacja działań” dwóch członków zespołu za pomocą kryterium Fishera

Ocenić jednorodność (stabilność) wskaźników „Szybkość i koordynacja działań” dwóch członków zespołu, stosując kryterium Fishera, zgodnie z wynikami pomiarów uzyskanymi na trzecim etapie badań tej pracy laboratoryjnej.

Aby to zrobić, wykonaj następujące czynności.

Wykorzystując dane z tabel 4.3 i 4.4, wyniki obliczeń rozrzutów dla tych tablic, uzyskane w trzecim etapie badań, a także metodykę obliczania i stosowania kryterium Fishera do oceny jednolitości (stabilności) wskaźników sportowych, podane w przykładzie 2.15 na stronach 18-19 tego opracowania metodologicznego, wyciągnij odpowiednie wnioski statystyczne i pedagogiczne.

V - etap badań

Ocena grup wskaźników „Szybkość i koordynacja działań” jednego członka zespołu przed i po rozgrzewce

Rozważać typowy przykład zastosowanie metod statystycznych w medycynie. Twórcy leku sugerują, że zwiększa on diurezę proporcjonalnie do przyjętej dawki. Aby sprawdzić to założenie, podają pięciu ochotnikom różne dawki leku.

Na podstawie wyników obserwacji sporządzono wykres zależności diurezy od dawki (ryc. 1.2A). Uzależnienie widać gołym okiem. Naukowcy gratulują sobie nawzajem odkrycia i światu nowego leku moczopędnego.

Tak naprawdę dane pozwalają rzetelnie stwierdzić jedynie, że u tych pięciu ochotników zaobserwowano zależność diurezy od dawki. To, że uzależnienie to ujawni się u wszystkich osób, które zażyją narkotyk, jest niczym innym jak przypuszczeniem.
WJ

Z

żenie. Nie można powiedzieć, że jest to bezpodstawne – w przeciwnym razie po co eksperymentować?

Ale teraz lek jest na rynku. Wszystko więcej ludzi brać go w nadziei na zwiększenie diurezy. I co widzimy? Widzimy ryc. 1.2B, która wskazuje na brak związku pomiędzy dawką leku a diurezą. Czarne kółka przedstawiają dane z oryginalnego badania. Statystyka ma metody szacowania prawdopodobieństwa uzyskania takiej „niereprezentatywnej”, w dodatku mylącej próbki. Okazuje się, że w przypadku braku zależności pomiędzy diurezą a dawką leku powstałą „zależność” można by zaobserwować w około 5 na 1000 eksperymentów. Więc w ta sprawa badaczom po prostu zabrakło szczęścia. Nawet gdyby stosowali nawet najdoskonalsze metody statystyczne, nie uchroniłoby ich to od błędów.

Ten fikcyjny, ale wcale nie odbiegający od rzeczywistości przykład, przytoczyliśmy nie po to, aby wskazać na bezużyteczność
Statystyka. Mówi o czymś innym, o probabilistycznym charakterze jej wniosków. W wyniku zastosowania metody statystycznej nie otrzymujemy ostatecznej prawdy, a jedynie oszacowanie prawdopodobieństwa danego założenia. Ponadto każda metoda statystyczna opiera się na własnym modelu matematycznym, a jej wyniki są poprawne w takim stopniu, w jakim model ten odpowiada rzeczywistości.

Więcej o rzetelności i znaczeniu statystycznym:

  1. Statystycznie istotne różnice we wskaźnikach jakości życia
  2. Agregat statystyczny. Znaki konta. Koncepcja badań ciągłych i selektywnych. Wymagania dotyczące zbiorowości statystycznej oraz stosowania dokumentów księgowych i sprawozdawczych
  3. ABSTRAKCYJNY. BADANIE WIARYGODNOŚCI WSKAZAŃ TONOMETRU DO POMIARU CIŚNIENIA ŚRODKOWEGO PRZEZ POWIEK2018, 2018

Hipotezy są testowane za pomocą Analiza statystyczna. Istotność statystyczną wyznacza się za pomocą wartości P, która odpowiada prawdopodobieństwu danego zdarzenia przy założeniu, że jakieś stwierdzenie (hipoteza zerowa) jest prawdziwe. Jeśli wartość P jest mniejsza niż dany poziom istotności statystycznej (zwykle 0,05), eksperymentator może bezpiecznie stwierdzić, że hipoteza zerowa jest fałszywa i przejść do rozważenia hipotezy alternatywnej. Korzystając z testu t-Studenta, można obliczyć wartość P i określić istotność dla dwóch zbiorów danych.

Kroki

Część 1

Zakładanie eksperymentu

    Zdefiniuj swoją hipotezę. Pierwszym krokiem w ocenie istotności statystycznej jest wybór pytania, na które chcesz uzyskać odpowiedź, i sformułowanie hipotezy. Hipoteza to stwierdzenie dotyczące danych eksperymentalnych, ich rozkładu i właściwości. Dla każdego eksperymentu istnieje zarówno hipoteza zerowa, jak i alternatywna. Ogólnie rzecz biorąc, będziesz musiał porównać dwa zestawy danych, aby określić, czy są podobne, czy różne.

    • Hipoteza zerowa (H 0) zwykle stwierdza, że ​​nie ma różnicy pomiędzy obydwoma zbiorami danych. Przykładowo: ci uczniowie, którzy przeczytali materiał przed zajęciami, nie dostają wyższych ocen.
    • Hipoteza alternatywna (Ha) jest przeciwieństwem hipotezy zerowej i jest twierdzeniem wymagającym potwierdzenia danymi eksperymentalnymi. Przykładowo: ci uczniowie, którzy przeczytali materiał przed zajęciami, dostają wyższe oceny.
  1. Ustaw poziom istotności, aby określić, jak bardzo rozkład danych musi różnić się od zwykłego, aby można go było uznać za wynik znaczący. Poziom istotności (tzw α (\ displaystyle \ alfa)-level) to próg, który definiujesz dla istotności statystycznej. Jeżeli wartość p jest mniejsza lub równa poziomowi istotności, dane uznaje się za istotne statystycznie.

    • Z reguły poziom istotności (wartość α (\ displaystyle \ alfa)) przyjmuje się jako 0,05 i w tym przypadku prawdopodobieństwo wykrycia losowej różnicy pomiędzy różnymi zbiorami danych wynosi tylko 5%.
    • Im wyższy poziom istotności (i odpowiednio mniejsza wartość p), tym bardziej wiarygodne są wyniki.
    • Jeśli chcesz uzyskać bardziej wiarygodne wyniki, obniż wartość P do 0,01. Zwykle w produkcji stosuje się niższe wartości P, gdy konieczne jest wykrycie wad produktów. W takim przypadku wymagana jest duża pewność, aby mieć pewność, że wszystkie części działają zgodnie z oczekiwaniami.
    • W przypadku większości eksperymentów z hipotezami wystarczający jest poziom istotności 0,05.
  2. Zdecyduj, jakich kryteriów będziesz używać: jednostronne lub dwustronne. Jednym z założeń testu t-Studenta jest założenie, że dane mają rozkład normalny. Rozkład normalny to krzywa w kształcie dzwonu z maksymalną liczbą wyników w środku krzywej. Test t-Studenta to matematyczna metoda walidacji danych, która pozwala określić, czy dane wychodzą poza rozkład normalny (więcej, mniej lub w „ogonach” krzywej).

    • Jeśli nie masz pewności, czy dane znajdują się powyżej, czy poniżej grupy kontrolnej, użyj testu dwustronnego. Umożliwi to określenie znaczenia w obu kierunkach.
    • Jeśli wiesz, w którą stronę dane mogą wypaść poza rozkład normalny, użyj testu jednostronnego. W powyższym przykładzie spodziewamy się, że oceny uczniów wzrosną, dlatego można zastosować test jednostronny.
  3. Określ wielkość próby, korzystając z mocy statystycznej. Moc statystyczna badania to prawdopodobieństwo, że przy danej wielkości próby uzyskany zostanie oczekiwany wynik. Typowy próg mocy (lub β) wynosi 80%. Analiza mocy bez żadnych wcześniejszych danych może być trudna, ponieważ wymagane są pewne informacje na temat oczekiwanych średnich w każdym zestawie danych i ich odchyleń standardowych. Skorzystaj z internetowego kalkulatora mocy statystycznej, aby określić optymalną wielkość próbki dla swoich danych.

    • Zazwyczaj badacze przeprowadzają małe badanie pilotażowe, aby dostarczyć dane do analizy mocy i określić wielkość próby potrzebną do większego i pełniejszego badania.
    • Jeśli nie masz możliwości przeprowadzenia badania pilotażowego, spróbuj oszacować możliwe wartości średnie w oparciu o dane literaturowe i wyniki innych osób. Może to pomóc w określeniu optymalnej wielkości próbki.

    Część 2

    Oblicz odchylenie standardowe
    1. Zapisz wzór na odchylenie standardowe. Odchylenie standardowe wskazuje, jak duży jest rozrzut danych. Pozwala stwierdzić, jak zbliżone są dane uzyskane na konkretnej próbce. Na pierwszy rzut oka wzór wydaje się dość skomplikowany, ale poniższe wyjaśnienia pomogą Ci go zrozumieć. Formuła ma następny widok: s = √∑((x i – µ) 2 /(N – 1)).

      • s - odchylenie standardowe;
      • znak ∑ wskazuje, że należy dodać wszystkie dane uzyskane w próbie;
      • x i odpowiada i-tej wartości, czyli uzyskanemu oddzielnemu wynikowi;
      • µ to średnia wartość dla tej grupy;
      • N- Łączna dane w próbce.
    2. Znajdź średnią w każdej grupie. Aby obliczyć odchylenie standardowe, należy najpierw znaleźć średnią dla każdej badanej grupy. Wartość średnią oznaczono grecką literą µ (mu). Aby znaleźć średnią, wystarczy dodać wszystkie otrzymane wartości i podzielić je przez ilość danych (wielkość próbki).

      • Na przykład, aby znaleźć średnią ocenę w grupie uczniów, którzy studiują materiał przed zajęciami, rozważ mały zbiór danych. Dla uproszczenia używamy zestawu pięciu punktów: 90, 91, 85, 83 i 94.
      • Dodajmy wszystkie wartości razem: 90 + 91 + 85 + 83 + 94 = 443.
      • Podziel sumę przez liczbę wartości, N = 5: 443/5 = 88,6.
      • Zatem średnia wartość dla tej grupy wynosi 88,6.
    3. Odejmij każdą uzyskaną wartość od średniej. Następnym krokiem jest obliczenie różnicy (x i - µ). Aby to zrobić, odejmij każdą uzyskaną wartość od znalezionej wartości średniej. W naszym przykładzie musimy znaleźć pięć różnic:

      • (90 - 88,6), (91 - 88,6), (85 - 88,6), (83 - 88,6) i (94 - 88,6).
      • W rezultacie otrzymujemy następujące wartości: 1,4, 2,4, -3,6, -5,6 i 5,4.
    4. Podnieś każdą uzyskaną wartość do kwadratu i dodaj je do siebie. Każdą z właśnie znalezionych wielkości należy podnieść do kwadratu. Ten krok usunie wszystkie wartości ujemne. Jeśli po tym kroku nadal masz liczby ujemne, to zapomniałeś je podnieść do kwadratu.

      • W naszym przykładzie otrzymujemy 1,96, 5,76, 12,96, 31,36 i 29,16.
      • Otrzymane wartości dodajemy: 1,96 + 5,76 + 12,96 + 31,36 + 29,16 = 81,2.
    5. Podziel przez wielkość próbki minus 1. We wzorze suma jest dzielona przez N - 1, ponieważ nie uwzględniamy populacji ogólnej, ale do oceny pobieramy próbę wszystkich uczniów.

      • Odejmij: N - 1 = 5 - 1 = 4
      • Podziel: 81,2/4 = 20,3
    6. Wyciąg Pierwiastek kwadratowy. Po podzieleniu sumy przez wielkość próby minus jeden, weź pierwiastek kwadratowy znalezionej wartości. Jest to ostatni krok w obliczaniu odchylenia standardowego. Istnieją programy statystyczne, które po wprowadzeniu danych początkowych wykonują wszystkie niezbędne obliczenia.

      • W naszym przykładzie odchylenie standardowe ocen uczniów, którzy przeczytali materiał przed zajęciami, wynosi s = √20,3 = 4,51.

      Część 3

      Określ znaczenie
      1. Oblicz wariancję pomiędzy dwiema grupami danych. Do tego etapu rozważaliśmy przykład tylko dla jednej grupy danych. Jeśli chcesz porównać dwie grupy, oczywiście powinieneś wziąć dane dla obu grup. Oblicz odchylenie standardowe dla drugiej grupy danych, a następnie znajdź wariancję między nimi grupy eksperymentalne. Dyspersję oblicza się ze wzoru: s d = √((s 1 /N 1) + (s 2 /N 2)).

Jeśli nie zaczniesz działać, stracisz rozum. (Shota Rustaveli)

Podstawowe pojęcia i pojęcia statystyki medycznej

W tym artykule przedstawiamy niektóre kluczowe idee statystyki istotne dla badań medycznych. Warunki zostały omówione bardziej szczegółowo w odpowiednich artykułach.

Zmiana

Definicja. Stopień rozproszenia danych (wartości znaku) w zakresie wartości

Prawdopodobieństwo

Definicja. Prawdopodobieństwo to stopień, w jakim dane zdarzenie może wystąpić w określonych warunkach.

Przykład. Wyjaśnijmy definicję terminu w zdaniu „Prawdopodobieństwo wyzdrowienia przy stosowaniu leku Arimidex wynosi 70%”. Zdarzenie to „wyzdrowienie pacjenta”, stan „pacjent przyjmuje Arimidex”, stopień prawdopodobieństwa wynosi 70% (w przybliżeniu na 100 osób przyjmujących Arimidex, 70 wyzdrowieje).

Skumulowane prawdopodobieństwo

Definicja. Skumulowane prawdopodobieństwo przeżycia w chwili t jest takie samo, jak odsetek pacjentów, którzy przeżyli w tym czasie.

Przykład. Jeśli powiedzieć, że skumulowane prawdopodobieństwo przeżycia po pięcioletnim leczeniu wynosi 0,7, to oznacza to, że w rozpatrywanej grupie pacjentów 70% początkowej liczby przeżyło, a 30% zmarło. Innymi słowy, na każde sto osób 30 zmarło w ciągu pierwszych 5 lat.

Czas na wydarzenie

Definicja. Czas do zdarzenia - jest to czas wyrażony w niektórych jednostkach, jaki upłynął od pewnego czasu początkowego do wystąpienia jakiegoś zdarzenia.

Wyjaśnienie. Jednostką czasu w badaniach medycznych są dni, miesiące i lata.

Typowe przykłady czasów początkowych:

    rozpoczęcie obserwacji pacjenta

    leczenie chirurgiczne

Typowe przykłady rozważanych zdarzeń:

    postęp choroby

    nawrót

    śmierć pacjenta

Próbka

Definicja. Część populacji uzyskana w drodze selekcji.

Na podstawie wyników analizy próby wyciągane są wnioski dotyczące całej populacji, które są ważne tylko wtedy, gdy dobór był losowy. Ponieważ dobór losowy z populacji jest praktycznie niemożliwy, należy dążyć do tego, aby próba była co najmniej reprezentatywna dla populacji.

Próbki zależne i niezależne

Definicja. Próby, w których obiekty badań rekrutowano niezależnie od siebie. Alternatywą dla próbek niezależnych są próbki zależne (połączone, sparowane).

Hipoteza

Hipotezy dwustronne i jednostronne

Wyjaśnijmy najpierw użycie terminu hipoteza w statystyce.

Celem większości badań jest sprawdzenie prawdziwości jakiegoś stwierdzenia. Celem testowania leków jest najczęściej sprawdzenie hipotezy, że jeden lek jest skuteczniejszy od drugiego (na przykład Arimidex jest skuteczniejszy niż Tamoksyfen).

Aby oddać rygor badania, sprawdzane stwierdzenie wyrażono matematycznie. Na przykład, jeśli A to liczba lat, jakie przeżyje pacjent przyjmujący Arimidex, a T to liczba lat, jakie przeżyje pacjent przyjmujący Tamoksyfen, wówczas testowaną hipotezę można zapisać jako A>T.

Definicja. Hipotezę nazywamy dwustronną, jeśli polega na równości dwóch wielkości.

Przykład hipotezy dwustronnej: A=T.

Definicja. Hipotezę nazywamy jednostronną (1-stronną), jeśli polega na nierówności dwóch wielkości.

Przykłady hipotez jednostronnych:

Dane dychotomiczne (binarne).

Definicja. Dane wyrażone tylko przez dwie ważne wartości alternatywne

Przykład: Pacjent jest „zdrowy” - „chory”. Obrzęk „jest” – „nie występuje”.

Przedział ufności

Definicja. Przedział ufności dla pewnej wielkości to zakres wokół wartości wielkości, który zawiera prawdziwą wartość tej wielkości (przy pewnym poziomie ufności).

Przykład. Niech badana ilość będzie liczbą pacjentów rocznie. Średnio ich liczba wynosi 500, a 95% przedział ufności wynosi (350, 900). Oznacza to, że najprawdopodobniej (z prawdopodobieństwem 95%) z poradnią skontaktuje się w ciągu roku co najmniej 350 i nie więcej niż 900 osób.

Przeznaczenie. Bardzo powszechnym skrótem jest: 95% CI (95% CI) to przedział ufności z poziomem ufności 95%.

Rzetelność, istotność statystyczna (poziom P)

Definicja. Istotność statystyczna wyniku jest miarą pewności co do jego „prawdziwości”.

Wszelkie badania opierają się jedynie na części obiektów. Badanie skuteczności leku nie jest przeprowadzane na podstawie ogółu pacjentów na świecie, ale tylko na określonej grupie pacjentów (po prostu nie da się przeprowadzić analizy na podstawie wszystkich pacjentów).

Załóżmy, że w wyniku analizy wyciągnięto jakiś wniosek (np. zastosowanie Arimidexu jako odpowiedniej terapii jest 2 razy skuteczniejsze niż Tamoksyfen).

Pytanie, które należy zadać, brzmi: „Na ile można ufać temu wynikowi?”.

Wyobraźmy sobie, że prowadziliśmy badanie tylko z udziałem dwóch pacjentów. Oczywiście w tym przypadku do wyników należy podchodzić z niepokojem. Jeśli zbadano dużą liczbę pacjentów (wartość liczbowa „ duża liczba” zależy od sytuacji), wówczas wyciągniętym wnioskom można już ufać.

Zatem stopień zaufania zależy od wartości poziomu p (wartość p).

Wyższy poziom p odpowiada niższemu poziomowi ufności wyników uzyskanych z analizy próbki. Przykładowo poziom p równy 0,05 (5%) pokazuje, że wniosek wyciągnięty podczas analizy pewnej grupy jest jedynie przypadkową cechą tych obiektów z prawdopodobieństwem zaledwie 5%.

Innymi słowy, z bardzo dużym prawdopodobieństwem (95%) wniosek można rozszerzyć na wszystkie obiekty.

W wielu badaniach 5% uważa się za akceptowalną wartość p. Oznacza to, że jeśli np. p=0,01, to można ufać wynikom, natomiast jeśli p=0,06, to nie jest to możliwe.

Badanie

badanie prospektywne to badanie, w którym próbki są wybierane na podstawie czynnika wejściowego, a w próbkach analizowany jest pewien wynikowy czynnik.

Badanie retrospektywne to badanie, w którym próbki są wybierane na podstawie otrzymanego czynnika, a w próbkach analizowany jest pewien czynnik wejściowy.

Przykład. Czynnikiem początkowym jest kobieta w ciąży młodsza/starsza niż 20 lat. Wynikowy czynnik jest taki, że dziecko jest lżejsze/cięższe niż 2,5 kg. Analizujemy, czy waga dziecka zależy od wieku mamy.

Jeśli pobierzemy 2 próbki, jedną od matek młodszych niż 20 lat, drugą od starszych, a następnie przeanalizujemy masę dzieci w każdej grupie, to jest to badanie prospektywne.

Jeśli zbierzemy 2 próbki, w jednej - matki, które urodziły dzieci o wadze poniżej 2,5 kg, w drugiej - cięższe, a następnie przeanalizujemy wiek matek w każdej grupie, to jest to badanie retrospektywne (oczywiście takie badanie można przeprowadzić dopiero po zakończeniu eksperymentu, tj. urodzeniu się wszystkich dzieci).

Exodus

Definicja. Klinicznie istotne zdarzenie, wartość laboratoryjna lub znak, który interesuje badacza. W badaniach klinicznych wyniki służą jako kryteria oceny skuteczności interwencji terapeutycznej lub profilaktycznej.

Epidemiologia kliniczna

Definicja. Nauka, która pozwala przewidzieć konkretny wynik dla każdego konkretnego pacjenta na podstawie badania przebiegu klinicznego choroby w podobnych przypadkach, stosując ścisłe metody naukowe badanie pacjentów w celu zapewnienia dokładności prognoz.

Kohorta

Definicja. Grupa uczestników badania, których łączy pewna wspólna cecha w momencie jego powstania i badana jest przez długi okres czasu.

Kontrola

Kontrola historyczna

Definicja. Grupa kontrolna utworzona i zbadana w okresie poprzedzającym badanie.

Sterowanie równoległe

Definicja. Grupa kontrolna, utworzona jednocześnie z utworzeniem grupy głównej.

Korelacja

Definicja. Statystyczne połączenie dwóch znaków (ilościowych lub porządkowych), pokazujące to większa wartość jednemu atrybutowi w pewnej części przypadków odpowiada większa wartość – w przypadku dodatniej (bezpośredniej) korelacji – wartości innego atrybutu lub mniejszej wartości – w przypadku ujemnej (odwrotnej) korelacji.

Przykład. Stwierdzono istotną korelację pomiędzy poziomem płytek krwi i leukocytów we krwi pacjenta. Współczynnik korelacji wynosi 0,76.

Współczynnik ryzyka (CR)

Definicja. Współczynnik ryzyka (hazard względny) to stosunek prawdopodobieństwa wystąpienia określonego („złego”) zdarzenia dla pierwszej grupy obiektów do prawdopodobieństwa wystąpienia tego samego zdarzenia dla drugiej grupy obiektów.

Przykład. Jeśli u osób niepalących ryzyko zachorowania na raka płuc wynosi 20%, a u palaczy – 100%, współczynnik CR wyniesie jedną piątą. W tym przykładzie pierwszą grupę obiektów stanowią osoby niepalące, drugą grupę stanowią palacze, a wystąpienie raka płuc uznawane jest za „złe” zdarzenie.

To oczywiste, że:

1) jeżeli КР=1, to prawdopodobieństwo wystąpienia zdarzenia w grupach jest takie samo

2) jeśli КР>1, to zdarzenie występuje częściej w przypadku obiektów z pierwszej grupy niż z drugiej

3) jeżeli CR<1, то событие чаще происходит с объектами из второй группы, чем из первой

Metaanaliza

Definicja. Z analiza statystyczna podsumowująca wyniki kilku badań dotyczących tego samego problemu (zwykle skuteczności metod leczenia, profilaktyki, diagnostyki). Badania łączone zapewniają większą próbkę do analizy i większą moc statystyczną badań łączonych. Stosowane w celu zwiększenia dowodów lub pewności co do wniosków na temat skuteczności metody badawczej.

Metoda Kaplana-Meiera (wielokrotne szacunki Kaplana-Meiera)

Metodę tę wynaleźli statystycy E. L. Kaplan i Paul Meyer.

Metoda ta służy do obliczania różnych wielkości związanych z czasem obserwacji pacjenta. Przykłady takich wartości:

    szansę na wyzdrowienie w ciągu jednego roku podczas stosowania leku

    ryzyko nawrotu choroby po operacji w ciągu trzech lat od operacji

    skumulowane prawdopodobieństwo przeżycia po pięciu latach wśród pacjentów z rakiem prostaty po amputacji narządu

Wyjaśnijmy zalety stosowania metody Kaplana-Meiera.

Wartość wartości w analizie „normalnej” (nie stosując metody Kaplana-Meiera) oblicza się na podstawie podziału rozpatrywanego przedziału czasu na przedziały.

Przykładowo, jeśli zbadamy prawdopodobieństwo śmierci pacjenta w ciągu 5 lat, to przedział czasu można podzielić na 5 części (mniej niż 1 rok, 1-2 lata, 2-3 lata, 3-4 lata, 4- 5 lat), tak i 10 (po pół roku każdy) lub inną liczbę odstępów czasu. Wyniki będą różne dla różnych partycji.

Wybór najodpowiedniejszej partycji nie jest łatwym zadaniem.

Oszacowania wartości wielkości otrzymanych metodą Kaplana-Meiera nie zależą od podziału czasu obserwacji na przedziały, lecz zależą jedynie od czasu życia każdego indywidualnego pacjenta.

Badaczowi łatwiej jest zatem przeprowadzić analizę, a wyniki często okazują się wyższej jakości niż wyniki „zwykłej” analizy.

Krzywa Kaplana-Meiera jest wykresem krzywej przeżycia otrzymanej metodą Kaplana-Meiera.

Model Coxa

Model ten został wymyślony przez Sir Davida Roxby Coxa (ur. 1924), znanego angielskiego statystyka, autora ponad 300 artykułów i książek.

Model Coxa stosuje się w sytuacjach, gdy wielkości badane w analizie przeżycia zależą od funkcji czasu. Na przykład prawdopodobieństwo ponownego wystąpienia po t latach (t=1,2,…) może zależeć od logarytmu czasu log(t).

Ważną zaletą metody zaproponowanej przez Coxa jest możliwość jej zastosowania w dużej liczbie sytuacji (model nie narzuca ścisłych ograniczeń co do charakteru i formy rozkładu prawdopodobieństwa).

W oparciu o model Coxa można przeprowadzić analizę (zwaną analizą Coxa), w wyniku której uzyskana zostanie wartość współczynnika ryzyka oraz przedział ufności dla współczynnika ryzyka.

Nieparametryczne metody statystyki

Definicja. Klasa metod statystycznych wykorzystywanych głównie do analizy danych ilościowych o rozkładzie normalnym, a także do analizy danych jakościowych.

Przykład. Aby określić istotność różnic w ciśnieniu skurczowym pacjentów w zależności od rodzaju leczenia, posłużymy się nieparametrycznym testem Manna-Whitneya.

Cecha (zmienna)

Definicja. X charakterystyka obiektu badań (obserwacji). Istnieją cechy jakościowe i ilościowe.

Randomizacja

Definicja. Metoda losowego podziału obiektów badawczych na grupę główną i kontrolną za pomocą specjalnych środków (tablice lub licznik liczb losowych, rzut monetą i inne metody losowego przypisywania numeru grupowego do uwzględnionej obserwacji). Randomizacja minimalizuje różnice między grupami pod względem znanych i nieznanych cech potencjalnie wpływających na badany wynik.

Ryzyko

Atrybutywny- dodatkowe ryzyko niekorzystnego wyniku (na przykład choroby) ze względu na obecność określonej cechy (czynnika ryzyka) w obiekcie badań. Jest to część ryzyka rozwoju choroby, która jest powiązana z tym czynnikiem ryzyka, jest przez nią wyjaśniona i może zostać wyeliminowana, jeśli ten czynnik ryzyka zostanie wyeliminowany.

Ryzyko względne- stosunek ryzyka wystąpienia niekorzystnego stanu w jednej grupie do ryzyka wystąpienia tego stanu w innej grupie. Stosuje się ją w badaniach prospektywnych i obserwacyjnych, gdy grupy formują się z wyprzedzeniem, a wystąpienie badanego stanu jeszcze nie nastąpiło.

egzamin rolkowy

Definicja. Metoda sprawdzania stabilności, wiarygodności, wydajności (ważności) modelu statystycznego poprzez sukcesywne usuwanie obserwacji i ponowne obliczanie modelu. Im bardziej podobne są powstałe modele, tym model jest bardziej stabilny i niezawodny.

Wydarzenie

Definicja. Wynik kliniczny zaobserwowany w badaniu, taki jak wystąpienie powikłań, nawrót, wyzdrowienie, śmierć.

Stratyfikacja

Definicja. M metoda doboru próby, w której populacja wszystkich uczestników spełniających kryteria włączenia do badania jest najpierw dzielona na grupy (warstwy) w oparciu o jedną lub więcej cech (zwykle płeć, wiek) potencjalnie wpływających na wynik badania, a następnie z każdej z nich tych grup (warstwa), uczestnicy są niezależnie rekrutowani do grupy eksperymentalnej i kontrolnej. Pozwala to badaczowi zrównoważyć ważne cechy pomiędzy grupą eksperymentalną i kontrolną.

Tabela awaryjnych

Definicja. Tabela bezwzględnych częstotliwości (liczb) obserwacji, których kolumny odpowiadają wartościom jednej cechy, a wiersze wartościom innej cechy (w przypadku dwuwymiarowej tabeli kontyngencji). Wartości częstotliwości bezwzględnych znajdują się w komórkach na przecięciu wierszy i kolumn.

Podajmy przykład tabeli kontyngencji. Operację tętniaka przeprowadzono u 194 pacjentów. Znany wskaźnik ciężkości obrzęku u pacjentów przed operacją.

Obrzęk \ Wynik

brak obrzęku 20 6 26
umiarkowany obrzęk 27 15 42
wyraźny obrzęk 8 21 29
mj 55 42 194

Zatem z 26 chorych bez obrzęków po operacji przeżyło 20 chorych, 6 chorych zmarło. Z 42 pacjentów z umiarkowanym obrzękiem przeżyło 27 pacjentów, 15 zmarło itd.

Test chi-kwadrat dla tabel kontyngencji

Aby określić znaczenie (wiarygodność) różnic w jednym znaku w zależności od innego (na przykład wynik operacji w zależności od nasilenia obrzęku), w tabelach kontyngencji stosuje się test chi-kwadrat:


Szansa

Niech prawdopodobieństwo jakiegoś zdarzenia będzie równe p. Wtedy prawdopodobieństwo, że zdarzenie nie nastąpi, wynosi 1-p.

Na przykład, jeśli prawdopodobieństwo, że pacjent będzie nadal żył po pięciu latach, wynosi 0,8 (80%), wówczas prawdopodobieństwo, że umrze w tym okresie wynosi 0,2 (20%).

Definicja. Szansa to stosunek prawdopodobieństwa wystąpienia zdarzenia do prawdopodobieństwa, że ​​zdarzenie nie nastąpi.

Przykład. W naszym przykładzie (dotyczącym pacjenta) szansa wynosi 4, ponieważ 0,8/0,2 = 4

Zatem prawdopodobieństwo wyzdrowienia jest 4 razy większe niż prawdopodobieństwo śmierci.

Interpretacja wartości wielkości.

1) Jeżeli Szansa=1, to prawdopodobieństwo wystąpienia zdarzenia jest równe prawdopodobieństwu, że zdarzenie nie nastąpi;

2) jeżeli Szansa >1, to prawdopodobieństwo wystąpienia zdarzenia jest większe od prawdopodobieństwa, że ​​zdarzenie nie nastąpi;

3) jeśli szansa<1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

iloraz szans

Definicja. Iloraz szans to stosunek szans dla pierwszej grupy obiektów do ilorazu szans dla drugiej grupy obiektów.

Przykład. Załóżmy, że leczeniu poddawani są zarówno mężczyźni, jak i kobiety.

Prawdopodobieństwo, że pacjent płci męskiej będzie nadal żył po pięciu latach, wynosi 0,6 (60%); prawdopodobieństwo, że umrze w tym okresie wynosi 0,4 (40%).

Podobne prawdopodobieństwa dla kobiet wynoszą 0,8 i 0,2.

Iloraz szans w tym przykładzie wynosi

Interpretacja wartości wielkości.

1) Jeśli iloraz szans = 1, to szansa dla pierwszej grupy jest równa szansie dla drugiej grupy

2) Jeśli iloraz szans wynosi >1, wówczas szansa dla pierwszej grupy jest większa niż szansa dla drugiej grupy

3) Jeśli iloraz szans<1, то шанс для первой группы меньше шанса для второй группы

W każdej naukowej i praktycznej sytuacji eksperymentu (ankiety) badacze nie mogą badać wszystkich ludzi (populacji ogólnej, populacji), ale tylko określoną próbkę. Na przykład, nawet jeśli badamy stosunkowo małą grupę osób, np. osób cierpiących na konkretną chorobę, jest bardzo mało prawdopodobne, abyśmy dysponowali zasobami lub potrzebowali przebadać każdego pacjenta. Zamiast tego zazwyczaj bada się próbkę populacji, ponieważ jest to wygodniejsze i zajmuje mniej czasu. Skąd w takim razie wiemy, że wyniki uzyskane z próby reprezentują całą grupę? Albo, używając fachowej terminologii, czy możemy być pewni, że nasze badanie poprawnie opisuje całość populacja, próbka, z której korzystaliśmy?

Aby odpowiedzieć na to pytanie, należy określić istotność statystyczną wyników badań. Znaczenie statystyczne (Znaczący poziom, w skrócie sygn.), lub /7-poziom istotności (poziom p) - jest prawdopodobieństwem, że dany wynik prawidłowo reprezentuje populację, z której badano próbę. Pamiętaj, że to tylko prawdopodobieństwo- nie można z całkowitą pewnością stwierdzić, że badanie to prawidłowo opisuje całą populację. W najlepszym razie na podstawie poziomu istotności można jedynie stwierdzić, że jest to wysoce prawdopodobne. Nieuchronnie pojawia się zatem pytanie: jaki powinien być poziom istotności, aby wynik ten można było uznać za prawidłową charakterystykę populacji?

Na przykład, przy jakiej wartości prawdopodobieństwa jesteś skłonny powiedzieć, że takie szanse są wystarczające, aby podjąć ryzyko? Jeśli szanse wynoszą 10 na 100 lub 50 na 100? Ale co, jeśli to prawdopodobieństwo jest większe? A co z szansami takimi jak 90 na 100, 95 na 100 lub 98 na 100? W przypadku sytuacji związanej z ryzykiem wybór ten jest dość problematyczny, ponieważ zależy od cech osobowych danej osoby.

W psychologii tradycyjnie uważa się, że prawdopodobieństwo 95 lub więcej na 100 oznacza, że ​​prawdopodobieństwo poprawności wyników jest na tyle wysokie, że można je uogólnić na całą populację. Liczba ta została ustalona w procesie działalności naukowej i praktycznej - nie ma prawa, zgodnie z którym należy ją wybrać jako wytyczną (a rzeczywiście w innych naukach czasami wybiera się inne wartości poziomu istotności).

W psychologii prawdopodobieństwo to traktuje się w nieco nietypowy sposób. Zamiast prawdopodobieństwa, że ​​próbka reprezentuje populację, podaje się prawdopodobieństwo, że próbka taka jest nie reprezentuje populacja. Innymi słowy, jest to prawdopodobieństwo, że odkryta zależność lub różnice mają charakter przypadkowy i nie są własnością populacji. Zatem zamiast twierdzić, że wyniki badania są prawidłowe z prawdopodobieństwem 95 na 100, psychologowie twierdzą, że istnieje 5 na 100 szans, że wyniki są błędne (podobnie 40 na 100 szans na korzyść poprawność wyników oznacza 60 na 100 szans na ich błędność). Wartość prawdopodobieństwa jest czasami wyrażana w procentach, ale częściej jest zapisywana jako ułamek dziesiętny. Na przykład 10 szans na 100 jest przedstawianych jako ułamek dziesiętny 0,1; 5 na 100 zapisuje się jako 0,05; 1 na 100 - 0,01. Przy tej formie rejestracji wartość graniczna wynosi 0,05. Aby wynik można było uznać za prawidłowy, jego poziom istotności musi taki być poniżej tę liczbę (pamiętaj, że jest to prawdopodobieństwo, że wynik zło opisuje populację. Aby pozbyć się terminologii, dodamy, że „prawdopodobieństwo błędnego wyniku” (co jest bardziej poprawnie nazywane poziom istotności) zwykle oznaczane literą łacińską R. Opis wyników eksperymentu zawiera zazwyczaj podsumowanie podsumowujące, typu: „wyniki były istotne na poziomie istotności (R(p) mniej niż 0,05 (tj. mniej niż 5%).

Zatem poziom istotności ( R) wskazuje prawdopodobieństwo, że wyniki Nie reprezentują populację. Tradycyjnie w psychologii uważa się, że wyniki rzetelnie odzwierciedlają ogólny obraz, jeśli chodzi o wartość R mniej niż 0,05 (tj. 5%). Jest to jednak jedynie probabilistyczne stwierdzenie, a wcale nie bezwarunkowa gwarancja. W niektórych przypadkach wniosek ten może być błędny. W rzeczywistości możemy obliczyć, jak często może się to zdarzyć, jeśli spojrzymy na wielkość poziomu istotności. Na poziomie istotności 0,05 w 5 na 100 przypadków wyniki są prawdopodobnie nieprawidłowe. 11a na pierwszy rzut oka wydaje się, że nie jest to zbyt częste, ale jeśli się nad tym zastanowić, to 5 szans na 100 to to samo, co 1 na 20. Innymi słowy, w jednym na 20 przypadków wynik się odwróci się mylić. Takie szanse nie wydają się szczególnie korzystne i badacze powinni wystrzegać się angażowania błędy pierwszego rodzaju. Tak nazywa się błąd, który pojawia się, gdy badacze myślą, że znaleźli prawdziwe wyniki, ale w rzeczywistości ich nie ma. Błędy przeciwne, polegające na tym, że badacze uważają, że nie znaleźli wyniku, ale w rzeczywistości taki jest, nazywane są błędy drugiego rodzaju.

Błędy te powstają, ponieważ nie można wykluczyć możliwości nieprawidłowej analizy statystycznej. Prawdopodobieństwo błędu zależy od poziomu istotności statystycznej wyników. Zauważyliśmy już, że aby wynik można było uznać za prawidłowy, poziom istotności musi być poniżej 0,05. Oczywiście niektóre wyniki są niższe i nierzadko można znaleźć wyniki tak niskie, jak 0,001 (wartość 0,001 oznacza prawdopodobieństwo popełnienia błędu 1 na 1000). Im mniejsza wartość p, tym większa nasza pewność co do poprawności wyników.

W tabeli. 7.2 przedstawia tradycyjną interpretację poziomów istotności dotyczącą możliwości wnioskowania statystycznego i uzasadnienia decyzji o istnieniu powiązania (różnic).

Tabela 7.2

Tradycyjna interpretacja poziomów istotności stosowana w psychologii

Opierając się na doświadczeniach badań praktycznych, zaleca się, aby w celu uniknięcia błędów pierwszego i drugiego rodzaju przy wyciąganiu odpowiedzialnych wniosków podejmować decyzje o występowaniu różnic (powiązań), koncentrując się na poziomie R znak n.

Test statystyczny(Test statystyczny - jest narzędziem służącym do określenia poziomu istotności statystycznej. Jest to reguła decyzyjna, która gwarantuje, że hipoteza prawdziwa zostanie przyjęta, a fałszywa odrzucona z dużym prawdopodobieństwem.

Kryteria statystyczne wskazują także sposób obliczenia danej liczby i samą tę liczbę. Wszystkie kryteria są stosowane w jednym głównym celu: określić poziom istotności dane, które analizują (tj. prawdopodobieństwo, że dane odzwierciedlają prawdziwy efekt, który prawidłowo reprezentuje populację, z której została pobrana próba).

Niektóre kryteria można zastosować tylko w przypadku danych o rozkładzie normalnym (oraz jeśli cecha jest mierzona na skali przedziałowej) – kryteria te są zwykle nazywane parametryczny. Za pomocą innych kryteriów można analizować dane z niemal każdym prawem dystrybucyjnym - są to tzw nieparametryczny.

Kryteria parametryczne – kryteria uwzględniające we wzorze obliczeniowym parametry rozkładu, tj. średnie i wariancje (test t-Studenta, test F Fishera itp.).

Kryteria nieparametryczne - kryteria, które nie uwzględniają parametrów rozkładu we wzorze na obliczanie rozkładów i opierają się na częstotliwościach lub rangach pracy (kryterium Q Rosenbaum, kryterium U Manna – Whitney

Przykładowo, gdy mówimy, że istotność różnic została określona za pomocą testu t-Studenta, mamy na myśli, że do obliczenia wartości empirycznej wykorzystano metodę testu t-Studenta, którą następnie porównano z wartością tabelaryczną (krytyczną).

Na podstawie stosunku wartości empirycznych (obliczyliśmy) i krytycznych kryterium (tabela) możemy ocenić, czy nasza hipoteza jest potwierdzona, czy odrzucona. W większości przypadków, abyśmy uznali różnice za istotne, konieczne jest, aby wartość empiryczna kryterium była większa od wartości krytycznej, choć istnieją kryteria (np. test Manna-Whitneya czy test znaków), w których musimy przestrzegać odwrotnej zasady.

W niektórych przypadkach we wzorze obliczeniowym kryterium uwzględnia się liczbę obserwacji w próbie badawczej, oznaczoną jako P. Za pomocą specjalnej tabeli określamy, jaki poziom istotności statystycznej różnic odpowiada danej wartości empirycznej. W większości przypadków ta sama wartość empiryczna kryterium może okazać się istotna lub nieistotna, w zależności od liczby obserwacji w badanej próbie ( P ) lub z tzw liczba stopni swobody , co jest oznaczone jako w (g>) lub oba zm (Czasami D).

Porozumiewawczy P lub liczbę stopni swobody możemy określić ze specjalnych tabel (główne podano w dodatku 5) wartości krytyczne kryterium i porównać z nimi otrzymaną wartość empiryczną. Zwykle pisze się to w ten sposób: n = 22 wartości krytyczne kryterium to tSt = 2,07” lub „przy w (D) = 2, wartości krytyczne kryterium Studenta wynoszą = 4,30” oraz tzw.

Zwykle jednak preferowane są kryteria parametryczne i tego stanowiska się trzymamy. Uważa się, że są bardziej niezawodne i przy ich pomocy można uzyskać więcej informacji i przeprowadzić głębszą analizę. Jeśli chodzi o złożoność obliczeń matematycznych, przy korzystaniu z programów komputerowych złożoność ta zanika (ale niektóre wydają się jednak całkiem do pokonania).

  • W tym podręczniku nie zajmujemy się szczegółowo problemem statystyki
  • hipotezy (zero - R0 i alternatywa - Hj) i decyzje statystyczne, ponieważ studenci psychologii studiują to osobno w dyscyplinie „Metody matematyczne w psychologii”. Ponadto należy zaznaczyć, że przygotowując raport z badania (kurs lub Praca dyplomowa, publikacje) hipotez statystycznych i rozwiązań statystycznych z reguły nie podaje się. Zwykle przy opisie wyników wskazuje się kryterium, podaje niezbędne statystyki opisowe (średnie, sigma, współczynniki korelacji itp.), Wartości empiryczne kryteriów, stopnie swobody i koniecznie poziom istotności p. Następnie formułuje się znaczący wniosek w odniesieniu do testowanej hipotezy, wskazując (zwykle w postaci nierówności) poziom istotności osiągnięty lub nieosiągnięty.