Data AI

80 % projektu umělé inteligence se týká sběru dat :

  • Jaká data jsou vyžadována ?
  • Jaká data jsou k dispozici ?
  • Jak vybrat data?
  • Jak sbírat data?
  • Jak vyčistit data?
  • Jak připravit data?
  • Jak používat data?

Co je Data?

Data mohou být mnoho věcí. U umělé inteligence to musí být sbírka faktů:

TypPříklady
číslaCeny. Termíny.
MěřeníVelikost. Výška. Hmotnost.
SlovaJména a místa.
PozorováníPočítání aut.
PopisyJe chladno.

Inteligence potřebuje data

Lidská inteligence potřebuje data:

Realitní makléř potřebuje k odhadu cen údaje o prodaných domech.

Umělá inteligence potřebuje data:

Počítačový program také potřebuje data k odhadu cen.


Ukládání dat

Nejběžnějšími údaji ke shromažďování jsou čísla a měření.

Data jsou často uložena v polích představujících vztah mezi hodnotami.

Tato tabulka obsahuje ceny domů v závislosti na velikosti:

Cena7889991011141415
Velikost5060708090100 110120130140150

Kvantitativní vs. kvalitativní

Kvantitativní údaje jsou číselné:

  • 55 vozů
  • 15 metrů
  • 35 dětí

Kvalitativní údaje jsou popisné:

  • Je chladno
  • Je to dlouhé
  • Byla to zábava

Sčítání lidu nebo odběr vzorků

Sčítání je, když shromažďujeme data pro každého člena skupiny .

Vzor je , když shromažďujeme data pro některé členy skupiny.

Pokud bychom chtěli vědět, kolik Američanů kouří cigarety, mohli bychom se zeptat každého člověka v USA (sčítání lidu) nebo bychom se mohli zeptat 10 000 lidí (vzorek).

Sčítání je přesné , ale těžko proveditelné. Ukázka je nepřesná , ale je snazší ji provést.


Podmínky odběru vzorků

Populace je skupina jednotlivců (objektů), od kterých chceme shromažďovat informace.

Census je informace o každém jednotlivci v populaci.

Vzorek je informace o části populace (Aby reprezentovala všechny).


Náhodné vzorky

Aby vzorek reprezentoval populaci, musí být sbírán náhodně.

Náhodný vzorek je vzorek, kde má každý člen populace stejnou šanci objevit se ve vzorku.


Vzorkování zkreslení

Ke vzorkování (chyba) dochází, když jsou vzorky odebírány takovým způsobem, že někteří jedinci jsou méně (nebo více) zahrnuti do vzorku.