Zanieczyczczenie Giniego

REKLAMA

Testowanie full stack. Praktyczny przewodnik dostarczania oprogramowania wysokiej jakości
−36%56,96 zł
Algorytmy bez tajemnic
−38%33,49 zł

Zanieczyszczenie Giniego (ang. Gini Impurity) – miara niejednorodności danego zbioru wyrażająca się wzorem:

$$G = ∑↙{n} p_n (1-p_n),$$

gdzie pn jest prawdopodobieństwem przynależności elementu do klasy n, czyli liczbą elementów danej klasy podzieloną przez liczbę elementów całego zbioru. Jeśli wszystkie elementy zbioru należą do tej samej klasy, zanieczyszczenie Giniego jest równe 0.

Zanieczyszczenia Giniego nie należy mylić ze współczynnikiem Giniego. Są to miary służące do wyrażania zupełnie innych rzeczy. Współczynnik Giniego określa nierównomierność rozkładu i jest wykorzystywany między innymi do liczbowego wyrażania nierówności w dochodach danego społeczeństwa.

Przykład

Niech będzie dany zbiór {a, a, a, a, a, a, b, b, b, c}. Zbiór ten zawiera dziesięć elementów: sześć należy do klasy a, trzy do klasy b i jeden do klasy c. Prawdopodobieństwa przynależności elementów do kolejnych klas wynoszą zatem kolejno:

  • 0,6 dla klasy a
  • 0,3 dla klasy b
  • 0,1 dla klasy c
Zanieczyszczenie wynosi w takim razie: 0,6 * 0,4 + 0,3 * 0,7 + 0,1 * 0,9 = 0,24 + 0,21 + 0,09 = 0,54.

Zastosowanie

Wskaźnik zanieczyszczenia Giniego jest wykorzystywany do oceny, na ile dobrze jakiś sposób podziału zbioru wejściowego (np. węzeł w drzewie decyzyjnym) separuje poszczególne klasy. Po podziale danego zbioru, łączne zanieczyszczenie uzyskanych podzbiorów wyraża się za pomocą średniej ważonej ich zanieczyszczeń, gdzie waga jest liczbą elementów w podzbiorze.

Przedstawmy to na prostym przykładzie. Załóżmy, że mamy pięć urządzeń:

  • urządzenie 1 – cena: 1000 zł, klasa energetyczna B,
  • urządzenie 2 – cena: 1100 zł, klasa energetyczna B,
  • urządzenie 3 – cena: 1200 zł, klasa energetyczna A,
  • urządzenie 4 – cena: 1300 zł, klasa energetyczna B,
  • urządzenie 5 – cena: 1400 zł, klasa energetyczna A.

Przyjmijmy, że chcemy ustalić próg cenowy, który oddzieliłby urządzenia wyższej klasy energetycznej od niższej. Idealny podział nie jest możliwy, ale za pomocą zanieczyszczenia Giniego możemy określić, który spośród czterech możliwych podziałów daje najbardziej jednolite podzbiory.

  • Dla progu wynoszącego 1050 zł otrzymamy podzbiór jednoelementowy {B} o wskaźniku zanieczyszczenia równym 0 i podzbiór czteroelementowy {B, A, B, A} o wskaźniku równym 1/2. Ich średnia ważona to (1 * 0 + 4 * (1/2)) / 5 = 2 / 5 = 0,4.
  • Dla progu wynoszącego 1150 zł otrzymamy podzbiór dwuelementowy {B, B} o wskaźniku zanieczyszczenia równym 0 i podzbiór trójelementowy {A, B, A} o wskaźniku równym 4/9. Ich średnia ważona to (2 * 0 + 3 * (4/9)) / 5 = 4 / 15 ≈ 0,27.
  • Dla progu wynoszącego 1250 zł otrzymamy podzbiór trójelementowy {B, B, A} o wskaźniku zanieczyszczenia równym 4/9 i podzbiór dwuelementowy {B, A} o wskaźniku równym 0,5. Ich średnia ważona to (3 * (4/9) + 2 * (1/2)) / 5 = 7 / 15 ≈ 0,47.
  • Dla progu wynoszącego 1350 zł otrzymamy podzbiór czteroelementowy {B, B, A, B} o wskaźniku zanieczyszczenia równym 3/8 i podzbiór jednoelementowy {A} o wskaźniku równym 0. Ich średnia ważona to (4 * (3/8) + 1 * 0) / 5 = 3 / 10 = 0,3.

Widzimy więc, że optymalnym progiem jest 1150 zł.

Bibliografia

Ocena: +1 Tak Nie
Liczba głosów: 1.

Dodano: 4 lutego 2022 19:59, ostatnia edycja: 20 września 2022 19:04.

REKLAMA

Zobacz też

Kolejka (ang. Queue) – struktura danych, w której elementy pobierane są z początku, a dodawane na końcu. Z kolejki można zatem pobrać tylko ten element, który był dodany najwcześniej. Kolejka bywa określana również jako kolejka FIFO (z ang. First In, First Out), w odróżnieniu od kolejki LIFO, czyli stosu.

→ Czytaj całość

Wyznaczanie maksymalnego przepływu – problem obliczeniowy polegający na wyznaczeniu maksymalnego przepływu w sieci przepływowej.

Sieć przepływowa jest skierowanym grafem prostym. Każdy łuk (krawędź skierowana w grafie) ma swoją nieujemną wagę, która oznacza maksymalny dopuszczalny przepływ w tym łuku. Na potrzeby tego artykułu nazwijmy rzeczy przepływające przez sieć danymi. Jeden z wierzchołków sieci jest źródłem, z którego wypływają przesyłane dane. Inny z wierzchołków to ujście, do którego te dane wpływają. Zakłada się ponadto, że dla każdego z pozostałych wierzchołków istnieje ścieżka ze źródła do ujścia przechodząca przez ten wierzchołek.

Przepływem w sieci nazywamy przyporządkowanie każdemu łukowi pewnej wartości, która oznacza liczbę danych aktualnie przesyłanych przez ten łuk. Wartości te muszą spełniać następujące warunki:

  • Wartość przyporządkowana krawędzi musi być mniejsza lub równa jej wadze (warunek przepustowości).
  • Do każdego wierzchołka (poza źródłem i ujściem) musi wpływać tyle samo danych, ile z niego wypływa (warunek zachowania przepływu).

Omawiany problem polega na dobraniu takiego przepływu, aby liczba danych wypływających ze źródła (i zarazem wpływających do ujścia) była jak największa.

→ Czytaj całość

Problem komiwojażera (ang. travelling salesman problem, w skrócie TSP) – problem obliczeniowy polegający na poszukiwaniu w grafie takiego cyklu, który zawiera wszystkie wierzchołki (każdy dokładnie raz) i ma jak najmniejszy koszt. Bardziej formalnie, problem komiwojażera polega na poszukiwaniu w grafie cyklu Hammiltona o najmniejszej wadze.

Problem ma liczne zastosowania w życiu codziennym. Najlepszym przykładem jest praca kuriera, który musi wyjechać z magazynu, zawieźć przesyłki w różne miejsca i wrócić do magazynu.

Nie jest znany efektywny (tj. działający w czasie co najwyżej wielomianowym) algorytm dający gwarancję znalezienia optymalnego rozwiązania problemu komiwojażera. Problem ten jest bowiem zaliczany do klasy problemów NP-trudnych. W wersji decyzyjnej (czy istnieje cykl o długości mniejszej od x) problem jest zaliczany do klasy problemów NP-zupełnych. W grafie pełnym mającym n wierzchołków liczba możliwych cykli Hammiltona wynosi aż (n-1)!/2. W praktyce sprawdzenie wszystkich możliwości jest zatem wykonalne tylko dla niewielkiej liczby wierzchołków.

→ Czytaj całość
Polityka prywatnościKontakt