POMOCNIK BADACZA
STRONA GŁÓWNA
Wprowadzanie danych
Wyznaczenie liczebności próby
Analiza struktury
Analiza dynamiki
Analiza współzależności
Eksport danych
Przykłady
Słowniczek
Powrót na stronę czyzycki.eu
ANALIZA STRUKTURY
– przedstawienie w sposób ilościowy właściwości badanej zbiorowości statystycznej.
Zbiorowość statystyczna
– zbiór nieidentycznych jednostek, posiadających przynajmniej jedną cechę wspólną istotną ze względu na cel badania.
Jednostka statystyczna
– pojedynczy element zbiorowości statystycznej.
ŚREDNIA ARYTMETYCZNA
- ogólna suma wartości rozdzielona jednakowo na poszczególne jednostki. Informuje, jaka byłaby wartość cechy, gdyby wszystkie jednostki były jednakowe.
x
¯
=
∑
i
=
1
n
x
i
n
Średnia arytmetyczna zawiera się w przedziale
x
min
≤
x
¯
≤
x
max
DOMINANTA
inaczej-wartość typowa, wartość modalna, wartość najczęstsza, moda – wartość badanej cechy, która występuje w badanej zbiorowości najczęściej.
D
=
x
i
,
gdzie
x
i
−
najczęstszy
wariant
cechy
Aby wyznaczyć dominantę zbiorowość musi być jednomodalna.
MEDIANA
(wartość środkowa, kwartyl II) – wartość jednostki statystycznej zajmującej środkowe miejsce w zbiorowości uporządkowanej rosnąco lub malejąco wg wartości cechy.
n
−
nieparzyste
n
−
parzyste
M
=
x
n
+
1
2
M
=
x
n
2
+
x
n
2
+
1
2
Mediana jest taką wartością cechy, poniżej której znajduje się połowa jednostek i powyżej której znajduje się połowa jednostek zbiorowości statystycznej. Medianę zawsze można obliczyć, zawsze ma sens. Na wartość mediany nie wpływają wartości skrajne.
KWARTYL I
(kwartyl dolny) – dzieli zbiorowość na dwie części w taki sposób, że 25% jednostek zbiorowości ma wartości zmiennej mniejsze lub równe kwartylowi pierwszemu, a 75% - równe lub większe od tego kwartyla.
n
podzielne
przez
4
:
Q
I
=
x
n
4
+
x
n
4
+
1
2
(
n
+
1
)
podzielne
przez
4
:
Q
I
=
x
n
+
1
4
(
n
+
2
)
podzielne
przez
4
:
Q
I
=
x
n
4
+
1
2
(
n
+
3
)
podzielne
przez
4
:
Q
I
=
x
n
+
1
4
−
1
2
+
x
n
+
1
4
+
1
2
2
KWARTYL III
(kwartyl górny) – dzieli zbiorowość w taki sposób, że 75% jednostek zbiorowości ma wartości zmiennej mniejsze lub równe kwartylowi trzeciemu , a 25% - równe lub większe od tego kwartyla.
n
podzielne
przez
4
:
Q
III
=
x
3n
4
+
x
3n
4
+
1
2
(
n
+
1
)
podzielne
przez
4
:
Q
III
=
x
3
(
n
+
1
)
4
(
n
+
2
)
podzielne
przez
4
:
Q
III
=
x
3n
4
+
1
2
(
n
+
3
)
podzielne
przez
4
:
Q
III
=
x
3
(
n
+
1
)
4
−
1
2
+
x
3
(
n
+
1
)
4
+
1
2
2
ODCHYLENIE STANDARDOWE
– określa o ile - średnio biorąc – jednostki badanej zbiorowości różnią się od wartości średniej arytmetycznej badanej zmiennej. Jest pierwiastkiem kwadratowym z wariancji.
S
(
x
)
=
S
2
(
x
)
WARIANCJA
– średnia arytmetyczna z sumy kwadratów odchyleń poszczególnych wartości cechy od ich średniej arytmetycznej.
S
2
(
x
)
=
∑
i
=
1
n
(
x
i
−
x
¯
)
2
n
=
x
2
¯
−
x
¯
2
Wariancja nie posiada interpretacji ekonomicznej, ale ma bardzo duże znaczenie teoretyczne. Im zbiorowość jest bardziej zróżnicowana, tym wartość wariancji jest wyższa.
KLASYCZNY WSPÓŁCZYNNIK ZMIENNOŚCI
– iloraz absolutnej miary zróżnicowania i przeciętnego poziomu wartości cechy. Wykazuje stopień zróżnicowania całej badanej zbiorowości.
V
s
=
S
(
x
)
x
¯
∗
100
%
Interpretacja: patrz pozycyjny współczynnik zmienności.
KLASYCZNY TYPOWY OBSZAR ZMIENNOŚCI
– charakteryzuje typowe wartości jednostek całej zbiorowości statystycznej.
x
¯
−
S
(
x
)
≤
x
TYP
≤
x
¯
+
S
(
x
)
Gdy rozkład jest symetryczny lub bardzo zbliżony do symetrycznego w obszarze tym mieszczą się wartości cechy około 2/3 wszystkich jednostek badanej zbiorowości.
ODCHYLENIE ĆWIARTKOWE
– obliczane na podstawie różnicy między trzecim a pierwszym kwartylem. Mierzy poziom zróżnicowania jedynie połowy jednostek, pozostałych po odrzuceniu 25% jednostek o wartościach mniejszych od pierwszego kwartyla i większych od trzeciego kwartyla.
Q
=
Q
III
−
Q
I
2
POZYCYJNY WSPÓŁCZYNNIK ZMIENNOŚCI
- wykazuje stopień zróżnicowania badanej zbiorowości w zawężonym obszarze zmienności (w dwóch środkowych ćwiartkach badanej zbiorowości).
V
Q
=
Q
M
∗
100
%
Jeżeli współczynnik zmienności przyjmuje wysokie wartości liczbowe, to fakt ten świadczy o niejednorodności badanej zbiorowości. Przyjmuje się, że:
0
≤
V
S
≤
0,1
−
zbiorowość
jest
jednorodna
;
0,1
<
V
S
≤
0,6
−
zbiorowość
jest
względnie
jednorodna
;
0,6
<
V
S
−
zbiorowość
jest
niejednorodna
Interpretacja współczynnika zmienności:
0
<
V
S
<
20
%
−
bardzo
małe
/
bardzo
słabe
zróżnicowanie
;
20
≤
V
S
<
40
%
−
małe
/
słabe
zróżnicowanie
;
40
≤
V
S
<
60
%
−
umiarkowane
zróżnicowanie
;
60
≤
V
S
<
80
%
−
duże
/
silne
zróżnicowanie
;
pow
.
80
%
−
bardzo
duże
/
bardzo
silne
zróżnicowanie
.
ZASTOSOWANIE: Służy do porównywania zmienności: - jednej cechy dwóch lub więcej zbiorowości, - dwóch lub więcej cech tej samej zbiorowości.
POZYCYJNY TYPOWY OBSZAR ZMIENNOŚCI
- charakteryzuje typowe wartości jednostek zbiorowości statystycznej w zawężonym obszarze zmienności do dwóch środkowych ćwiartek.
M
−
Q
≤
x
TYP
≤
M
−
Q
ASYMETRIA
Badanie asymetrii polega na odpowiedzi na pytanie czy przeważająca liczba jednostek tworzących badaną zbiorowość ma wartości cechy wyższe czy niższe od przeciętnego poziomu.
Jeżeli:
x
¯
=
M
=
D
−
to
rozkład
jest
symetryczny
,
czyli
asymetria
jest
centralna
(
A
2
,
A
3
=
0
)
;
x
¯
>
M
>
D
−
to
rozkład
charakteryzuje
się
asymetri
ą
prawostronn
ą (
dodatni
ą,
A
2
,
A
3
>
0
);
x
¯
<
M
<
D
−
to
rozkład
charakteryzuje
się
asymetri
ą
lewostronn
ą (
ujemn
ą,
A
2
,
A
3
<
0
)
Interpretacja siły asymetrii:
0,0 – 0,2 - siła asymetrii bardzo słaba, bardzo niska
0,2 – 0,4 - siła asymetrii słaba, niska
0,4 – 0,7 - siła asymetrii jest umiarkowana, średnia
0,7 – 0,9 - siła asymetrii wysoka, silna
0,9 – 1,0 - siła asymetrii bardzo wysoka, bardzo silna
KLASYCZNO-POZYCYJNA MIARA ASYMETRII
– informuje o asymetrii w całej badanej zbiorowości.
A
3
=
x
¯
−
D
S
(
x
)
Klasyczno-pozycyjny współczynnik asymetrii przyjmuje wartości z przedziału (-1,1).
POZYCYJNA MIARA ASYMETRII
- informuje o asymetrii w dwóch środkowych ćwiartkach badanej zbiorowości.
A
2
=
Q
III
+
Q
I
−
2
M
2
Q
Pozycyjny współczynnik asymetrii przyjmuje wartości z przedziału <-1,1>.
ANALIZA DYNAMIKI
– określanie rozmiarów i kierunku rozwoju zmian w czasie badanego zjawiska
Analizę dynamiki przeprowadza się na podstawie szeregów czasowych. Szereg czasowy – ciąg wartości badanego zjawiska, obserwowanego w kolejnych jednostkach czasu.
Do najczęściej stosowanych miar dynamicznych należą:
- Przyrosty absolutne (bezwzględne)
- Indeksy dynamiki (wskaĽniki dynamiki, indeksy indywidualne)
PRZYROST ABSOLUTNY
ABSOLUTNY – różnica między wielkością zjawiska w badanym okresie, a wielkością tego zjawiska w okresie podstawowym.
Wyróżniamy przyrost absolutny:
- JEDNOPODSTAWOWY (o stałej podstawie porównań):
Δ
Y
t
/
0
=
Y
t
−
Y
0
- ŁAŃCUCHOWY ( o zmiennej podstawie porównań):
Δ
Y
t
/
t
−
1
=
Y
t
−
Y
t
−
1
INDEKS DYNAMIKI
– stosunek wielkości danego zjawiska w okresie badanym do wielkości tego zjawiska w okresie podstawowym.
Wyróżniamy indeksy:
- JEDNOPODSTAWOWE (o stałej podstawie porównań):
i
t
/
0
=
Y
t
Y
0
- ŁAŃCUCHOWE (o zmiennej podstawie porównań):
i
t
/
t
−
1
=
Y
t
Y
t
−
1
TREND (TENDENCJA ROZWOJOWA)
– długookresowa tendencja zmian w szeregu czasowym. Jest to pewna wyrównana linia wyznaczająca zasadniczy kierunek rozwojowy badanego zjawiska. W celu określenia analitycznej postaci funkcji trendu dopasowuje się określoną funkcję matematyczną do zbioru obserwacji, wyznaczając parametry tej funkcji najczęściej Metodą Najmniejszych Kwadratów. Najczęściej spotykaną w praktyce postacią analityczną funkcji trendu jest postać liniowa.
Y
ˆ
t
=
a
1
t
+
a
0
a
1
=
Y
⋅
t
¯
−
Y
¯
⋅
t
¯
t
2
¯
−
t
¯
2
Ocena parametru a
1
informuje jak średnio z okresu na okres zmieniało się (wzrastało/spadało) obserwowane zjawisko w badanym przedziale czasowym.
a
0
=
Y
¯
−
a
1
⋅
t
¯
Współczynnika a
0
zwykle się nie interpretuje.
CHARAKTERYSTYKI DOPASOWANIA FUNKCJI TRENDU
(inaczej WERYFIKACJA) - badanie zgodności dopasowania wartości rzeczywistych szeregu czasowego y
t
z wartościami wynikającymi z wyznaczonej funkcji trendu.
Do najczęściej wykorzystywanych miar weryfikacji należą:
- współczynnik determinacji;
- współczynnik zgodności;
- odchylenie standardowe składnika losowego;
- współczynnik zmienności losowej.
WSPÓŁCZYNNIK DETERMINACJI
– określa w jakim stopniu zmiany badanego zjawiska są wyjaśniane przez zbudowany model trendu liniowego (w ilu % wartości rzeczywiste szeregu czasowego są zbieżne z wartościami teoretycznymi – wynikającymi z funkcji trendu).
R
2
=
1
−
ϕ
2
WSPÓŁCZYNNIK ZGODNOŚCI
( inaczej: zbieżności, indeterminacji, niedopasowania) - określa w jakim stopniu zmiany badanego zjawiska nie są wyjaśniane przez zbudowany model trendu liniowego (w ilu % wartości rzeczywiste szeregu czasowego są rozbieżne z wartościami teoretycznymi – wynikającymi z funkcji trendu).
ϕ
2
=
∑
i
=
1
n
(
Y
t
−
Y
ˆ
t
)
2
∑
i
=
1
n
(
Y
t
−
Y
¯
)
2
,
przy
czym
ϕ
2
∈
<
0
;
1
>
ODCHYLENIE STANDARDOWE SKŁADNIKA LOSOWEGO
(inaczej: odchylenie standardowe reszt, średni błąd szacunku) - określa o ile przeciętnie różnią się między sobą wartości rzeczywiste szeregu czasowego i wartości teoretyczne uzyskane na podstawie oszacowanego modelu trendu liniowego.
S
e
=
∑
i
=
1
n
(
Y
t
−
Y
ˆ
t
)
2
n
−
2
WSPÓŁCZYNNIK ZMIENNOŚCI LOSOWEJ
(inaczej: współczynnik wyrazistości) - określa udział odchylenia standardowego w średniej wartości badanego zjawiska.
V
Se
=
S
e
Y
¯
⋅
100
%
Model trendu jest tym lepszy im niższa jest wartość tego współczynnika.
ANALIZA WSPÓŁZALEŻNOŚCI
Przedmiotem analizy współzależności jest badanie związków zachodzących pomiędzy różnymi cechami statystycznymi opisującymi zbiorowości statystyczne. Badanie związków ma sens jedynie wtedy gdy pomiędzy cechami istnieje więĽ przyczynowo-skutkowa.
WięĽ przyczynowo – skutkowa może być:
- jednostronna – liczba dni absencji w pracy (przyczyna) wpływa na wynik finansowy firmy (skutek).
- dwustronna – koszt jednostkowy produkcji (przyczyna) wpływa na wielkość produkcji (skutek) i na odwrót wielkość produkcji (przyczyna) wpływa na kształtowanie jednostkowego kosztu produkcji.
ANALIZA REGRESJI
W przypadku liniowej zależności równanie regresji przedstawia się według wzoru:
Y
ˆ
i
=
a
y
x
i
+
b
y
a
y
=
c
(
yx
)
S
2
(
x
)
=
yx
¯
−
y
¯
⋅
x
¯
S
2
(
x
)
=
r
yx
⋅
S
(
y
)
S
(
x
)
- współczynnik regresji. Informuje o ile przeciętnie wzrośnie bądĽ zmaleje wartość zmiennej zależnej y, gdy wartość zmiennej niezależnej x wzrośnie o jednostkę.
b
y
=
y
¯
−
a
y
⋅
x
¯
- wyraz wolny, nie interpretujemy go.
CHARAKTERYSTYKA OCENY DOPASOWANIA OSZACOWANEGO MODELU REGRESJI LINIOWEJ
– badanie jakości oszacowanego modelu regresji liniowej
WSPÓŁCZYNNIK DETERMINACJI LINIOWEJ
(inaczej: dopasowania) – określa w ilu % zmienność zjawiska Y może zostać wyjaśniona zmiennością zjawiska X.
R
2
=
1
−
ϕ
2
=
1
−
n
−
2
n
⋅
S
e
2
S
2
(
y
)
=
r
yx
2
WSPÓŁCZYNNIK ZBIEŻNOŚCI
(inaczej: indeterminacji liniowej, niedopasowania) – określa w ilu % zmienność zjawiska Y nie może zostać wyjaśniona zmiennością zjawiska X, lub też w ilu % zmienność zjawiska Y można wyjaśnić przez inne czynniki niż zjawisko X.
ϕ
2
=
1
−
R
2
ODCHYLENIE STANDARDOWE SKŁADNIKA RESZTOWEGO
– określa o ile przeciętnie różnią się między sobą wartości rzeczywiste zmiennej zależnej i wartości teoretyczne uzyskane na podstawie oszacowanego modelu regresji liniowej.
S
e
=
∑
i
=
1
n
(
Y
t
−
Y
ˆ
t
)
2
n
−
2
=
n
n
−
2
⋅
S
2
(
y
)
⋅
(
1
−
r
yx
2
)
WSPÓŁCZYNNIK ZMIENNOŚCI LOSOWEJ
– określa udział odchylenia standardowego składnika losowego (błędu modelu) w średniej wartości badanego zjawiska.
V
Se
=
S
e
Y
¯
⋅
100
%
Model regresji liniowej jest tym lepszy im niższa jest wartość tego współczynnika.
¬ródło i szerzej
Czyżycki R., Hundert M., Klóska R.: Wybrane zagadnienia ze statystyki, ECONOMICUS
Hozer J. red.: Statystyka – opis statystyczny, wyd. Katedra Ekonometrii i Statystyki Wydziału Nauk Ekonomicznych i Zarządzania Uniwersytetu Szczecińskiego
JóĽwiak J. Podgórski J.: Statystyka od podstaw, PWE
Kassyk-Rokicka H.: Statystyka nie jest trudna, PWE
Sobczyk M.: Statystyka – teoria, przykłady, zadania, PWN
Zeliaś A.: Metody statystyczne, PWE