Zanieczyczczenie Giniego

REKLAMA

Helion.pl

−40%29,94 zł

Programowanie w języku C. Ćwiczenia praktyczne. Wydanie II

29,90 zł

Zanieczyszczenie Giniego (ang. Gini Impurity) – miara niejednorodności danego zbioru wyrażająca się wzorem:

$$G = ∑↙{n} p_n (1-p_n),$$

gdzie p_n jest prawdopodobieństwem przynależności elementu do klasy n, czyli liczbą elementów danej klasy podzieloną przez liczbę elementów całego zbioru. Jeśli wszystkie elementy zbioru należą do tej samej klasy, zanieczyszczenie Giniego jest równe 0.

Zanieczyszczenia Giniego nie należy mylić ze współczynnikiem Giniego. Są to miary służące do wyrażania zupełnie innych rzeczy. Współczynnik Giniego określa nierównomierność rozkładu i jest wykorzystywany między innymi do liczbowego wyrażania nierówności w dochodach danego społeczeństwa.

Przykład

Niech będzie dany zbiór {a, a, a, a, a, a, b, b, b, c}. Zbiór ten zawiera dziesięć elementów: sześć należy do klasy a, trzy do klasy b i jeden do klasy c. Prawdopodobieństwa przynależności elementów do kolejnych klas wynoszą zatem kolejno:

0,6 dla klasy a
0,3 dla klasy b
0,1 dla klasy c

Zanieczyszczenie wynosi w takim razie: 0,6 * 0,4 + 0,3 * 0,7 + 0,1 * 0,9 = 0,24 + 0,21 + 0,09 = 0,54.

Zastosowanie

Wskaźnik zanieczyszczenia Giniego jest wykorzystywany do oceny, na ile dobrze jakiś sposób podziału zbioru wejściowego (np. węzeł w drzewie decyzyjnym) separuje poszczególne klasy. Po podziale danego zbioru, łączne zanieczyszczenie uzyskanych podzbiorów wyraża się za pomocą średniej ważonej ich zanieczyszczeń, gdzie waga jest liczbą elementów w podzbiorze.

Przedstawmy to na prostym przykładzie. Załóżmy, że mamy pięć urządzeń:

urządzenie 1 – cena: 1000 zł, klasa energetyczna B,
urządzenie 2 – cena: 1100 zł, klasa energetyczna B,
urządzenie 3 – cena: 1200 zł, klasa energetyczna A,
urządzenie 4 – cena: 1300 zł, klasa energetyczna B,
urządzenie 5 – cena: 1400 zł, klasa energetyczna A.

Przyjmijmy, że chcemy ustalić próg cenowy, który oddzieliłby urządzenia wyższej klasy energetycznej od niższej. Idealny podział nie jest możliwy, ale za pomocą zanieczyszczenia Giniego możemy określić, który spośród czterech możliwych podziałów daje najbardziej jednolite podzbiory.

Dla progu wynoszącego 1050 zł otrzymamy podzbiór jednoelementowy {B} o wskaźniku zanieczyszczenia równym 0 i podzbiór czteroelementowy {B, A, B, A} o wskaźniku równym 1/2. Ich średnia ważona to (1 * 0 + 4 * (1/2)) / 5 = 2 / 5 = 0,4.
Dla progu wynoszącego 1150 zł otrzymamy podzbiór dwuelementowy {B, B} o wskaźniku zanieczyszczenia równym 0 i podzbiór trójelementowy {A, B, A} o wskaźniku równym 4/9. Ich średnia ważona to (2 * 0 + 3 * (4/9)) / 5 = 4 / 15 ≈ 0,27.
Dla progu wynoszącego 1250 zł otrzymamy podzbiór trójelementowy {B, B, A} o wskaźniku zanieczyszczenia równym 4/9 i podzbiór dwuelementowy {B, A} o wskaźniku równym 0,5. Ich średnia ważona to (3 * (4/9) + 2 * (1/2)) / 5 = 7 / 15 ≈ 0,47.
Dla progu wynoszącego 1350 zł otrzymamy podzbiór czteroelementowy {B, B, A, B} o wskaźniku zanieczyszczenia równym 3/8 i podzbiór jednoelementowy {A} o wskaźniku równym 0. Ich średnia ważona to (4 * (3/8) + 1 * 0) / 5 = 3 / 10 = 0,3.

Widzimy więc, że optymalnym progiem jest 1150 zł.

Bibliografia

S. Loaiza, Gini Impurity Measure – a simple explanation using python, Towards Data Science, 2020 [Dostęp 2022-09-17].

Ocena: +1 Tak

Liczba głosów: 1.

Zaawansowane pojęcia

Drzewo decyzyjne
Matroid
Zanieczyczczenie Giniego

Dodano: 4 lutego 2022 19:59, ostatnia edycja: 20 września 2022 19:04.

REKLAMA

Zobacz też

Algorytm Dijkstry – algorytm służący do wyznaczania najkrótszych ścieżek w grafie. Wyznacza najkrótsze ścieżki z jednego wierzchołka (zwanego wierzchołkiem źródłowym) do pozostałych wierzchołków. Algorytm wymaga, aby wagi krawędzi grafu nie były ujemne. Autorem algorytmu jest holenderski naukowiec Edsger Dijkstra.

Algorytm realizuje podejście zachłanne. W każdej iteracji wybierany jest ten spośród nieodwiedzonych wierzchołków, do którego można dotrzeć najmniejszym kosztem. Po wyznaczeniu ścieżki do konkretnego wierzchołka nie zostanie ona zmodyfikowana w trakcie wykonywania dalszej części algorytmu.

→ Czytaj całość

Graf – struktura G = (V, E) składająca się ze skończonego zbioru wierzchołków V oraz skończonego zbioru krawędzi E, gdzie każda krawędź e ∈ E jest dwuelementowym zbiorem wierzchołków u, v ∈ V. Wierzchołki u, v połączone krawędzią e = {u, v} określane są sąsiednimi. Grafy mają szerokie zastosowanie w informatyce, można za ich pomocą przedstawiać rożnego rodzaju relacje pomiędzy obiektami.

Powyższa definicja dotyczy grafu nieskierowanego, gdzie relacja sąsiedztwa jest symetryczna, tzn. krawędź łączy wierzchołki „w obie strony”. W grafie skierowanym krawędzie są „jednokierunkowe”. Krawędź grafu skierowanego zazwyczaj jest określana jako łuk.

Graf ważony (inaczej graf z wagami) to taki graf, w którym każdej krawędzi przypisana jest pewna wartość liczbowa. Wartość ta może oznaczać np. długość krawędzi lub jej przepustowość.

→ Czytaj całość

Ten artykuł opisuje pewną modyfikację algorytmu opartego na programowaniu dynamicznym rozwiązującego problem wydawania reszty. Algorytm ten daje gwarancję znalezienia rozwiązania optymalnego. Algorytm zaproponował J.W. Wright w pracy The Change-Making Problem (link w bibliografii).

→ Czytaj całość

Polityka prywatności • Kontakt