Distribuce Zipf


Zipf distribuce se používají k vzorkování dat na základě zipfova zákona.

Zipfův zákon: Ve sbírce je n-tý společný člen 1/nkrát nejběžnějšího termínu. Např. 5. běžné slovo v angličtině se vyskytuje téměř 1/5krát než nejpoužívanější slovo.

Má dva parametry:

a- distribuční parametr.

size- Tvar vráceného pole.

Příklad

Nakreslete vzorek pro distribuci zipf s distribučním parametrem 2 o velikosti 2x3:

from numpy import random

x = random.zipf(a=2, size=(2, 3))

print(x)

Vizualizace distribuce Zipf

Vzorkujte 1000 bodů, ale vykreslete pouze ty s hodnotou < 10 pro smysluplnější graf.

Příklad

from numpy import random
import matplotlib.pyplot as plt
import seaborn as sns

x = random.zipf(a=2, size=1000)
sns.distplot(x[x<10], kde=False)

plt.show()

Výsledek