Náhodná distribuce dat


Co je distribuce dat?

Distribuce dat je seznam všech možných hodnot a toho, jak často se každá hodnota vyskytuje.

Takové seznamy jsou důležité při práci se statistikou a datovou vědou.

Náhodný modul nabízí metody, které vrací náhodně generovaná rozdělení dat.


Náhodné rozdělení

Náhodné rozdělení je soubor náhodných čísel, která následují určitou funkci hustoty pravděpodobnosti .

Funkce hustoty pravděpodobnosti: Funkce, která popisuje spojitou pravděpodobnost. tj. pravděpodobnost všech hodnot v poli.

choice()Metodou randommodulu můžeme generovat náhodná čísla na základě definovaných pravděpodobností .

Metoda choice()nám umožňuje specifikovat pravděpodobnost pro každou hodnotu.

Pravděpodobnost je nastavena číslem mezi 0 a 1, kde 0 znamená, že se hodnota nikdy nevyskytne a 1 znamená, že se hodnota objeví vždy.

Příklad

Vygenerujte 1-D pole obsahující 100 hodnot, kde každá hodnota musí být 3, 5, 7 nebo 9.

Pravděpodobnost, že hodnota bude 3, je nastavena na 0,1

Pravděpodobnost, že hodnota bude 5, je nastavena na 0,3

Pravděpodobnost, že hodnota bude 7, je nastavena na 0,6

Pravděpodobnost, že hodnota bude 9, je nastavena na 0

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(100))

print(x)

Součet všech čísel pravděpodobnosti by měl být 1.

I když výše uvedený příklad spustíte 100krát, hodnota 9 se nikdy nevyskytne.

Zadáním tvaru v sizeparametru můžete vrátit pole libovolného tvaru a velikosti.

Příklad

Stejný příklad jako výše, ale vrátí 2-D pole se 3 řádky, z nichž každý obsahuje 5 hodnot.

from numpy import random

x = random.choice([3, 5, 7, 9], p=[0.1, 0.3, 0.6, 0.0], size=(3, 5))

print(x)