Datové klastry

  • Shluky jsou soubory podobných dat
  • Clustering je druh učení bez dozoru
  • Korelační koeficient popisuje sílu vztahu.

Shluky

Shluky jsou soubory dat založené na podobnosti.

Datové body seskupené v grafu lze často klasifikovat do shluků.

V níže uvedeném grafu můžeme rozlišit 3 různé shluky:


Identifikace klastrů

Shluky mohou obsahovat mnoho cenných informací, ale shluky mají nejrůznější tvary, jak je tedy můžeme rozpoznat?

Dvě hlavní metody jsou:

  • Použití vizualizace
  • Použití shlukovacího algoritmu

Shlukování

Clustering je druh učení bez dozoru .

Clustering se snaží:

  • Sbírejte podobná data ve skupinách
  • Sbírejte odlišná data v jiných skupinách

Metody shlukování

  • Metoda hustoty
  • Hierarchická metoda
  • Metoda dělení
  • Metoda založená na mřížce

Metoda hustoty se domnívá, že body v hustých oblastech mají více podobností a rozdílů než body v oblasti s nižší hustotou. Metoda hustoty má dobrou přesnost. Má také schopnost slučovat clustery.
Dva běžné algoritmy jsou DBSCAN a OPTICS.

Hierarchická metoda tvoří shluky ve stromové struktuře. Nové shluky se tvoří pomocí dříve vytvořených shluků.
Dva běžné algoritmy jsou CURE a BIRCH.

Metoda založená na mřížce formuluje data do konečného počtu buněk, které tvoří strukturu podobnou mřížce.
Dva běžné algoritmy jsou CLIQUE a STING

Metoda rozdělení rozděluje objekty do k clusterů a každý oddíl tvoří jeden cluster.
Jedním z běžných algoritmů je CLARANS.


Korelační koeficient

Korelační koeficient ( r) popisuje sílu a směr lineárního vztahu a x/y proměnných na bodovém grafu.

Hodnota r je vždy mezi -1 a +1:

-1,00Perfektní sjezdNegativní lineární vztah.
-0,70Silný z kopceNegativní lineární vztah.
-0,50Mírný z kopceNegativní lineární vztah.
-0,30Slabý z kopceNegativní lineární vztah.
0Žádný lineární vztah.
+0,30Do kopce slabíPozitivní lineární vztah.
+0,50Mírně do kopcePozitivní lineární vztah.
+0,70Silně do kopcePozitivní lineární vztah.
+1,00Perfektní do kopcePozitivní lineární vztah.

Perfektní do kopce +1,00 :

Perfektní sjezd -1,00 :

'

Silný do kopce +0,61 :

Žádný vztah :