Strojové učení – distribuce dat
Distribuce dat
Dříve v tomto tutoriálu jsme v našich příkladech pracovali s velmi malým množstvím dat, abychom porozuměli různým konceptům.
V reálném světě jsou soubory dat mnohem větší, ale může být obtížné shromáždit data z reálného světa, alespoň v rané fázi projektu.
Jak můžeme získat velké soubory dat?
K vytváření velkých datových sad pro testování používáme Python modul NumPy, který přichází s řadou metod pro vytváření náhodných datových sad libovolné velikosti.
Příklad
Vytvořte pole obsahující 250 náhodných floatů mezi 0 a 5:
import numpy
x = numpy.random.uniform(0.0, 5.0, 250)
print(x)
Histogram
Pro vizualizaci datové sady můžeme nakreslit histogram s daty, která jsme shromáždili.
K vykreslení histogramu použijeme pythonovský modul Matplotlib.
Přečtěte si o modulu Matplotlib v našem výukovém programu Matplotlib .
Příklad
Nakreslete histogram:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 250)
plt.hist(x, 5)
plt.show()
Výsledek:
Histogram vysvětlen
K nakreslení histogramu s 5 úsečkami použijeme pole z příkladu výše.
První pruh představuje, kolik hodnot v poli je mezi 0 a 1.
Druhý pruh představuje, kolik hodnot je mezi 1 a 2.
Atd.
Což nám dává tento výsledek:
- 52 hodnoty jsou mezi 0 a 1
- 48 hodnot je mezi 1 a 2
- 49 hodnoty jsou mezi 2 a 3
- 51 hodnot je mezi 3 a 4
- 50 hodnot je mezi 4 a 5
Poznámka: Hodnoty pole jsou náhodná čísla a na vašem počítači nezobrazí přesně stejný výsledek.
Distribuce velkých dat
Pole obsahující 250 hodnot není považováno za příliš velké, ale nyní víte, jak vytvořit náhodnou sadu hodnot a změnou parametrů můžete vytvořit sadu dat tak velkou, jak chcete.
Příklad
Vytvořte pole s 100 000 náhodnými čísly a zobrazte je pomocí histogramu se 100 pruhy:
import numpy
import matplotlib.pyplot as plt
x =
numpy.random.uniform(0.0, 5.0, 100000)
plt.hist(x, 100)
plt.show()