Zależność statystyczna zmiennych losowych (korelacja) – związek pomiędzy dwiema zmiennymi losowymi
i
.
Intuicyjnie, zależność dwóch zmiennych oznacza, że znając wartość jednej z nich, dałoby się przynajmniej w niektórych sytuacjach dokładniej przewidzieć wartość drugiej zmiennej, niż bez tej informacji.
W dalszej części artykułu będziemy rozważać zmienne losowe o wartościach rzeczywistych i zdarzenia określone na ustalonej przestrzeni probabilistycznej
. Jeśli
jest zmienną losową, to symbolem
oznaczać będziemy jej rozkład.
Spis treści |
Mówimy, że zmienne losowe
są niezależne, gdy dla każdych liczb rzeczywistych
zachodzi równość

Powyższy wzór jest uogólniany na dowolną liczbę zmiennych (por. rozdział Zmienne losowe o wartościach rzeczywistych.)
W szczególności niezależność każdej dla pary zmiennych
nie oznacza koniecznie niezależności wszystkich zmiennych
.
Mówimy, że zmienne losowe
są zależne, gdy nie są one niezależne - to znaczy, dla pewnych liczb rzeczywistych 

lub w języku dystrybuant:

Dodatnia zależność monotoniczna zachodzi, gdy zwiększenie wartości jednej ze zmiennych oznacza zwiększenie wartości oczekiwanej drugiej zmiennej. Analogicznie ujemna zależność monotoniczna zachodzi, gdy zwiększenie jednej ze zmiennych oznacza zmniejszenie drugiej.
Ściśle zależność monotoniczna (a konkretniej jej odmiana zwana Quadrant Dependence) została określona przez Lehmana (1966). Dodatnia zależność monotoniczna:

Ujemna zależność monotoniczna:

Istnieją też inne definicje zależności monotonicznej. Lehman podał także dwie silniejsze definicje, a Kowalczyk i Pleszczyńska (1977) także definicję słabszą.
Powyższe definicje obejmują skrajny przypadek zależności zmiennych (
). W praktyce zależność nie musi być pełna. Miarą stopnia zależności monotonicznej są współczynniki korelacji rangowej.
są całkowalne i parami niezależne, to
.Zmienne losowe
nazywamy niezależnymi, gdy dla każdego ciągu zbiorów borelowskich (na prostej)
spełniony jest warunek
.Innymi słowy, zmienne
są niezależne wtedy i tylko wtedy, gdy generowane przez nie σ-ciała[1]
są niezależne.
Używając zmiennych losowych możemy opisywać niezależność zdarzeń. I tak, zdarzenia
są niezależne wtedy i tylko wtedy, gdy niezależne są ich indykatory
, rozpatrywane jako zmienne losowe. Często wygodnie jest używać następującej charakteryzacji niezależności zmiennych losowych:
Jeśli
są zmiennymi losowymi, to każde dwa z następujących zdań są równoważne:
są niezależne.
, tzn. rozkład łączny wektora losowego
jest produktem rozkładów odpowiednich zmiennych losowych.
dla każdych liczb rzeczywistych
, tzn. dystrybuanta wielowymiarowa wektora losowego
jest iloczynem dystrybuant odpowiednich zmiennych losowych.Ponadto, jeśli zmienne losowe
mają rozkłady ciągłe, a
są ich gęstościami, to są one niezależne gdy funkcja

jest gęstością wektora losowego
.
Jeżeli
są zmiennymi losowymi o rozkładach dyskretnych, a
są takimi zbiorami przeliczalnymi, że
, tozmienne te są niezależne wtedy i tylko wtedy, gdy dla każdych liczb
zachodzi równość
.Jeżeli, natomiast, zmienne losowe
są niezależne, a
jest ściśle rosnącym ciągiem liczb ze zbioru
, to σ-ciała

są niezależne.
Jeśli
, gdzie
jest pewnym zbiorem indeksów, jest rodziną zmiennych losowych, to mówimy, że jest ona niezależne gdy dla każdej liczby naturalnej
oraz dla każdych elementów
niezależne są zmienne losowe
.
Korzystając z twierdzenia Fubiniego można dowieść, że jeśli
są niezależnymi zmiennymi losowymi, to wartość oczekiwana modułu ich iloczynu wyraża się wzorem
.Jeśli ponadto, zmienne te są całkowalne, to
.Twierdzenie odwrotne nie jest jednak prawdziwe - niech
oraz niech
będzie σ-ciałem zbiorów borelowskich na tym zbiorze, a
będzie obcięciem miary Lebesgue'a do tego σ-ciała. Rozważmy następujące zmienne losowe
.Wartość oczekiwana każdej z nich oraz ich iloczynu wynosi 0, natomiast zmienne te nie są niezależne, gdyż w przeciwnym razie byłyby niezależne zmienne
czyli w konsekwencji dla każdego zbioru borelowskiego
byłby spełniony warunek
,co oczywiście nie jest prawdą.
jest ciągiem niezależnych zmiennych losowych, to
.Znając rozkłady brzegowe każdej ze zmiennych z osobna nic nie da się powiedzieć o ewentualnej zależności lub braku zależności pomiędzy nimi. Na przykład między dwiema zmiennymi
i
przyjmującymi każdą z wartości {1,2,3,4,5,6} z tym samym prawdopodobieństwem (rozkład jednostajny dyskretny), może istnieć korelacja ujemna, dodatnia, lub mogą być niezależne:
jest wynikiem rzutu kostką, a
, to zmienne
i
są zależne, współczynnik korelacji wynosi -1
jest wynikiem rzutu kostką, a
, to zmienne
i
są zależne, współczynnik korelacji wynosi +1
i
są niezależne, współczynnik korelacji wynosi 0.
jest wynikiem rzutu kostką, a
jest w części przypadków równe
, a w pozostałych przypadkach równe wynikowi rzutu drugą kostką, to zmienne
i
są zależne, współczynnik korelacji będzie gdzieś pomiędzy 0 a +1.W każdym z tych przypadków rozkład brzegowy każdej ze zmiennych
jest identyczny, jednak różni się ich rozkład łączny. W trzech pierwszych przypadkach różni się np. zbiór możliwych wartości pary
:


. Zmienne są niezależne, bo informacja o wartości jednej z nich nic nie mówi o wartości drugiej.
pozwala dokładniej przewidywać znajomość zmiennej
(formalnie: rozkład warunkowy
zmienia się w zależności od
), więc są zależne.Zależność jest więc cechą rozkładu łącznego porównywanych zmiennych.
Często błędnie zakłada się, że zależność statystyczna jest równoważna niezerowemu współczynnikowi korelacji. Nie jest to prawda. Na przykład zmienne
i
mogą być związane zależnością:

Jest to przykład ścisłej zależności. Jednak zarówno klasyczna korelacja Pearsona, jak i rangowa dadzą wartość zero (dla próbki - bliską zeru), gdyż zależność ta nie jest monotoniczna, ani tym bardziej liniowa.
Częstym błędem jest przyjmowanie, że zmienne silnie nawet skorelowane są związane jakimś związkiem przyczynowo-skutkowym, tym mocniejszym, im korelacja większa. Uświadamia to taki oto przykład: dźwięk dworcowego zegara wybijającego godzinę pierwszą jest niezwykle silnie skorelowany z odjazdem pociągu o 1:00 ze stacji, nie jest on jednak żadną przyczyną ruchu - i odwrotnie, odjazd pociągu nie jest przyczyną dźwięku. W tym wypadku mamy jedynie do czynienia ze współwystępowaniem zjawisk, a nie związkiem przyczynowo-skutkowym. W związku z tym jeśli czynnik A (np. wykształcenie) i czynnik B (np. zarobki) korelują ze sobą, to powinno się tworzyć przynajmniej kilka hipotez na temat ewentualnego związku przyczynowego między nimi:
Korelacja nie dowodzi więc żadnego związku przyczynowo - skutkowego.
Wśród statystyków jako przykład podawana jest anegdota o tym, że wykryto istotną statystycznie dodatnią zależność pomiędzy liczbą bocianów przypadających na km2 w danym skupisku ludzkim, a przyrostem naturalnym na tym obszarze. Oczywiście nie dowodzi to, że bociany przynoszą dzieci. Na wsi jest średnio większy przyrost naturalny i czasem żyją tam bociany. W mieście przyrost jest mniejszy i nie ma bocianów. Istnienie trzeciej zmiennej – miasto / wieś, skorelowanej zarówno z liczbą bocianów jak i z przyrostem naturalnym powoduje powstanie zależności także tamtych dwóch zmiennych.
W innej wersji mówi się o korelacji liczby bocianów z liczbą dzieci na tym samym terenie wiejskim w skali wielu lat. Okazuje się, że liczba bocianów jest skorelowana dodatnio z ciepłym latem, a przy dobrej pogodzie wzrastać ma też liczba par kochających się na łonie natury.
Prawdopodobnie nie są to wyniki poważnych badań, lecz tylko legenda, niemniej jest ona dobrą ilustracją, jak może powstawać zależność, nie będąca związkiem przyczynowo-skutkowym[2].
Podobnie, można by się dopatrzyć silnej dodatniej korelacji między wzrostem liczby ludności w Indiach a liczbą samochodów w Polsce, choć jest to jedynie czysto statystyczna korelacja, współwystępowanie zjawisk, a nie jakikolwiek związek przyczynowo-skutkowy.
Innym przykładem jest korelacja liczby zgonów osób bezdomnych w Indiach a poziomem spożycia lodów w Stanach Zjednoczonych. Tu trzecią zmienną jest średnia temperatura lata na półkuli północnej. Jej zwiększenie powoduje więcej zgonów spowodowanych upałem i oczywiście zwiększenie spożycia lodów.
Innym częstym błędem jest niesprawdzanie, czy w próbie nie występują obserwacje odstające, które mogą całkowicie przekłamać wartość i znak współczynnika korelacji Pearsona.