Odległość Mahalanobisa

Odległość Mahalanobisa – odległość między dwoma punktami w wielowymiarowej przestrzeni różnicująca wkład poszczególnych składowych współrzędnych punktów oraz wykorzystująca korelacje między nimi. Znajduje ona zastosowanie w statystyce, przy wyznaczaniu podobieństwa między nieznanym wektorem losowym a wektorem ze znanego zbioru. Zdefiniowana przez Prasantę Chandrę Mahalanobisa w 1936 roku.

Definicja[edytuj | edytuj kod]

Dane mamy 2 wektory losowe w przestrzeni oraz pewną symetryczną, dodatnio określoną macierz Odległość Mahalanobisa zdefiniowana jest jako:

Interpretacja[edytuj | edytuj kod]

Odległość Mahalanobisa stosuje się w analizie skupień. Mając dany zbiór punktów tworzących pewną klasę, możemy wyznaczyć dla niego wektor średni oraz macierz kowariancji które odzwierciedlają pewien charakter tej klasy. Badając przynależność nieznanego wektora losowego do danej klasy, mierzy się jego podobieństwo do wektora uwzględniając przy tym informację o wariancjach poszczególnych składowych oraz korelacjach między nimi. Miarą takiego podobieństwa jest odległość Mahalanobisa, nazywana ważoną odległością euklidesową, przy czym macierzą wag jest

Rozważmy trzy przypadki różnych zbiorów danych:

Przypadek 1[edytuj | edytuj kod]

Poszczególne składowe w zbiorze mają równe wariancje (można przyjąć, że są one równe 1) i nie są skorelowane. Wówczas macierz kowariancji jest macierzą jednostkową, a odległość Mahalanobisa jest równa odległości euklidesowej:

Punkty o identycznej odległości od pewnego danego punktu centralnego tworzą na płaszczyźnie okrąg, a w przestrzeni o trzech lub więcej wymiarach odpowiednio sferę i hipersferę.

Przypadek 2[edytuj | edytuj kod]

Składowe wektora losowego nie są skorelowane, lecz mają różne wariancje: Aby znormalizować poszczególne składowe należy je podzielić przez odpowiadające im wariancje:

gdzie jest macierzą diagonalną

Punkty o identycznej odległości tworzą na płaszczyźnie elipsę, a w przestrzeni trójwymiarowej elipsoidę, przy czym osie utworzonej figury są równoległe do osi układu współrzędnych.

Przypadek 3[edytuj | edytuj kod]

Składowe mają różne wariancje i są skorelowane: Odpowiada to pełnej macierzy kowariancji a utworzona przez punkty o tej samej odległości elipsa jest obrócona o pewien kąt względem osi układu współrzędnych. Obrót ten jest dany przez macierz wektorów własnych macierzy zaś długości półosi hiper-elipsoidy są określone przez odwrotności pierwiastków kwadratowych jej wartości własnych

Wartości własne spełniają równanie charakterystyczne, które w ogólności dla macierzy symetrycznej kwadratowej rozmiaru [ x ] sprowadza się do poszukiwania pierwiastków wielomianu tego stopnia.

Zastosowania[edytuj | edytuj kod]

  • Kwadrat odległości Mahalanobisa występuje w wykładniku wielowymiarowego rozkładu Gaussa.
  • W zagadnieniach grupowania danych, np. klasteryzacji rozmytej, odległość Mahalanobisa wykorzystana jest do określania kształtu grupy (klastra). Przykładem jest algorytm GK[1] (Gustaffsona-Kessela).

Przypisy[edytuj | edytuj kod]

  1. D.E. Gustafson, W.C. Kessel, Fuzzy clustering with a fuzzy covariance matrix, IEEE Conference on Decision and Control including the 17th Symposium on Adaptive Processes, 1978, 17, s. 761–766.