Strojové učení – distribuce dat

Distribuce dat

Dříve v tomto tutoriálu jsme v našich příkladech pracovali s velmi malým množstvím dat, abychom porozuměli různým konceptům.

V reálném světě jsou soubory dat mnohem větší, ale může být obtížné shromáždit data z reálného světa, alespoň v rané fázi projektu.

Jak můžeme získat velké soubory dat?

K vytváření velkých datových sad pro testování používáme Python modul NumPy, který přichází s řadou metod pro vytváření náhodných datových sad libovolné velikosti.

Příklad

Vytvořte pole obsahující 250 náhodných floatů mezi 0 a 5:

import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

Histogram

Pro vizualizaci datové sady můžeme nakreslit histogram s daty, která jsme shromáždili.

K vykreslení histogramu použijeme pythonovský modul Matplotlib.

Přečtěte si o modulu Matplotlib v našem výukovém programu Matplotlib .

Příklad

Nakreslete histogram:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Výsledek:

Histogram vysvětlen

K nakreslení histogramu s 5 úsečkami použijeme pole z příkladu výše.

První pruh představuje, kolik hodnot v poli je mezi 0 a 1.

Druhý pruh představuje, kolik hodnot je mezi 1 a 2.

Atd.

Což nám dává tento výsledek:

52 hodnoty jsou mezi 0 a 1
48 hodnot je mezi 1 a 2
49 hodnoty jsou mezi 2 a 3
51 hodnot je mezi 3 a 4
50 hodnot je mezi 4 a 5

Poznámka: Hodnoty pole jsou náhodná čísla a na vašem počítači nezobrazí přesně stejný výsledek.

Distribuce velkých dat

Pole obsahující 250 hodnot není považováno za příliš velké, ale nyní víte, jak vytvořit náhodnou sadu hodnot a změnou parametrů můžete vytvořit sadu dat tak velkou, jak chcete.

Příklad

Vytvořte pole s 100 000 náhodnými čísly a zobrazte je pomocí histogramu se 100 pruhy:

import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()

❮ Předchozí Další ❯

Výukový program Python

Manipulace se soubory

Moduly Pythonu

Python Matplotlib