Data AI
Až 80 % projektu umělé inteligence se týká sběru dat :
- Jaká data jsou vyžadována ?
- Jaká data jsou k dispozici ?
- Jak vybrat data?
- Jak sbírat data?
- Jak vyčistit data?
- Jak připravit data?
- Jak používat data?
Co je Data?
Data mohou být mnoho věcí. U umělé inteligence to musí být sbírka faktů:
Typ | Příklady |
---|---|
čísla | Ceny. Termíny. |
Měření | Velikost. Výška. Hmotnost. |
Slova | Jména a místa. |
Pozorování | Počítání aut. |
Popisy | Je chladno. |
Inteligence potřebuje data
Lidská inteligence potřebuje data:
Realitní makléř potřebuje k odhadu cen údaje o prodaných domech.
Umělá inteligence potřebuje data:
Počítačový program také potřebuje data k odhadu cen.
Ukládání dat
Nejběžnějšími údaji ke shromažďování jsou čísla a měření.
Data jsou často uložena v polích představujících vztah mezi hodnotami.
Tato tabulka obsahuje ceny domů v závislosti na velikosti:
Cena | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
Velikost | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Kvantitativní vs. kvalitativní
Kvantitativní údaje jsou číselné:
- 55 vozů
- 15 metrů
- 35 dětí
Kvalitativní údaje jsou popisné:
- Je chladno
- Je to dlouhé
- Byla to zábava
Sčítání lidu nebo odběr vzorků
Sčítání je, když shromažďujeme data pro každého člena skupiny .
Vzor je , když shromažďujeme data pro některé členy skupiny.
Pokud bychom chtěli vědět, kolik Američanů kouří cigarety, mohli bychom se zeptat každého člověka v USA (sčítání lidu) nebo bychom se mohli zeptat 10 000 lidí (vzorek).
Sčítání je přesné , ale těžko proveditelné. Ukázka je nepřesná , ale je snazší ji provést.
Podmínky odběru vzorků
Populace je skupina jednotlivců (objektů), od kterých chceme shromažďovat informace.
Census je informace o každém jednotlivci v populaci.
Vzorek je informace o části populace (Aby reprezentovala všechny).
Náhodné vzorky
Aby vzorek reprezentoval populaci, musí být sbírán náhodně.
Náhodný vzorek je vzorek, kde má každý člen populace stejnou šanci objevit se ve vzorku.
Vzorkování zkreslení
Ke vzorkování (chyba) dochází, když jsou vzorky odebírány takovým způsobem, že někteří jedinci jsou méně (nebo více) zahrnuti do vzorku.