Strojové učení
Díky strojovému učení se počítač učí ze studia dat a statistik.
Strojové učení je krokem směrem k umělé inteligenci (AI).
Machine Learning je program, který analyzuje data a učí se předpovídat výsledek.
Kde začít?
V tomto tutoriálu se vrátíme k matematice a studijní statistice a k tomu, jak vypočítat důležitá čísla na základě datových souborů.
Také se naučíme, jak používat různé moduly Pythonu, abychom získali odpovědi, které potřebujeme.
A naučíme se dělat funkce, které jsou schopny předvídat výsledek na základě toho, co jsme se naučili.
Soubor dat
V mysli počítače je soubor dat jakýkoli soubor dat. Může to být cokoli od pole až po kompletní databázi.
Příklad pole:
[99,86,87,88,111,86,103,87,94,78,77,85,86]
Příklad databáze:
Carname | Barva | Stáří | Rychlost | AutoPass |
BMW | Červené | 5 | 99 | Y |
Volvo | Černá | 7 | 86 | Y |
VW | šedá | 8 | 87 | N |
VW | bílý | 7 | 88 | Y |
Brod | bílý | 2 | 111 | Y |
VW | bílý | 17 | 86 | Y |
Tesla | Červené | 2 | 103 | Y |
BMW | Černá | 9 | 87 | Y |
Volvo | šedá | 4 | 94 | N |
Brod | bílý | 11 | 78 | N |
Toyota | šedá | 12 | 77 | N |
VW | bílý | 9 | 85 | N |
Toyota | modrý | 6 | 86 | Y |
Při pohledu na pole můžeme odhadnout, že průměrná hodnota je pravděpodobně kolem 80 nebo 90 a také jsme schopni určit nejvyšší a nejnižší hodnotu, ale co jiného můžeme dělat?
A když se podíváme do databáze, můžeme vidět, že nejoblíbenější barva je bílá a nejstarší auto má 17 let, ale co kdybychom dokázali předpovědět, zda auto mělo AutoPass, pouhým pohledem na ostatní hodnoty?
K tomu slouží strojové učení! Analýza dat a předpovídání výsledku!
Ve strojovém učení je běžné pracovat s velmi velkými datovými sadami. V tomto tutoriálu se pokusíme co nejvíce usnadnit pochopení různých konceptů strojového učení a budeme pracovat s malými, snadno srozumitelnými datovými sadami.
Typy dat
Pro analýzu dat je důležité vědět, s jakým typem dat máme co do činění.
Datové typy můžeme rozdělit do tří hlavních kategorií:
- Číselné
- Kategorický
- řadový
Číselné údaje jsou čísla a lze je rozdělit do dvou číselných kategorií:
- Diskrétní data
– čísla, která jsou omezena na celá čísla. Příklad: Počet projíždějících aut. - Spojitá data
– čísla, která mají nekonečnou hodnotu. Příklad: Cena položky nebo velikost položky
Kategorická data jsou hodnoty, které nelze vzájemně měřit. Příklad: hodnota barvy nebo jakékoli hodnoty ano/ne.
Ordinální data jsou jako kategorická data, ale lze je vzájemně měřit. Příklad: školní známky, kde A je lepší než B a tak dále.
Když budete znát typ dat vašeho zdroje dat, budete moci vědět, jakou techniku použít při jejich analýze.
Více o statistice a analýze dat se dozvíte v dalších kapitolách.