Datové klastry
- Shluky jsou soubory podobných dat
- Clustering je druh učení bez dozoru
- Korelační koeficient popisuje sílu vztahu.
Shluky
Shluky jsou soubory dat založené na podobnosti.
Datové body seskupené v grafu lze často klasifikovat do shluků.
V níže uvedeném grafu můžeme rozlišit 3 různé shluky:
Identifikace klastrů
Shluky mohou obsahovat mnoho cenných informací, ale shluky mají nejrůznější tvary, jak je tedy můžeme rozpoznat?
Dvě hlavní metody jsou:
- Použití vizualizace
- Použití shlukovacího algoritmu
Shlukování
Clustering je druh učení bez dozoru .
Clustering se snaží:
- Sbírejte podobná data ve skupinách
- Sbírejte odlišná data v jiných skupinách
Metody shlukování
- Metoda hustoty
- Hierarchická metoda
- Metoda dělení
- Metoda založená na mřížce
Metoda hustoty se domnívá, že body v hustých oblastech mají více podobností a rozdílů než body v oblasti s nižší hustotou. Metoda hustoty má dobrou přesnost. Má také schopnost slučovat clustery.
Dva běžné algoritmy jsou DBSCAN a OPTICS.
Hierarchická metoda tvoří shluky ve stromové struktuře. Nové shluky se tvoří pomocí dříve vytvořených shluků.
Dva běžné algoritmy jsou CURE a BIRCH.
Metoda založená na mřížce formuluje data do konečného počtu buněk, které tvoří strukturu podobnou mřížce.
Dva běžné algoritmy jsou CLIQUE a STING
Metoda rozdělení rozděluje objekty do k clusterů a každý oddíl tvoří jeden cluster.
Jedním z běžných algoritmů je CLARANS.
Korelační koeficient
Korelační koeficient ( r) popisuje sílu a směr lineárního vztahu a x/y proměnných na bodovém grafu.
Hodnota r je vždy mezi -1 a +1:
-1,00 | Perfektní sjezd | Negativní lineární vztah. |
-0,70 | Silný z kopce | Negativní lineární vztah. |
-0,50 | Mírný z kopce | Negativní lineární vztah. |
-0,30 | Slabý z kopce | Negativní lineární vztah. |
0 | Žádný lineární vztah. | |
+0,30 | Do kopce slabí | Pozitivní lineární vztah. |
+0,50 | Mírně do kopce | Pozitivní lineární vztah. |
+0,70 | Silně do kopce | Pozitivní lineární vztah. |
+1,00 | Perfektní do kopce | Pozitivní lineární vztah. |
Perfektní do kopce +1,00 :
Perfektní sjezd -1,00 :
Silný do kopce +0,61 :
Žádný vztah :