Úvod do datové vědy
Data Science je kombinací několika oborů, které využívají statistiku, analýzu dat a strojové učení k analýze dat ak získávání znalostí a poznatků z nich.
Co je Data Science?
Data Science je o sběru dat, analýze a rozhodování.
Data Science je o hledání vzorců v datech pomocí analýzy a vytváření předpovědí budoucnosti.
Pomocí Data Science jsou společnosti schopny:
- Lepší rozhodnutí (měli bychom zvolit A nebo B)
- Prediktivní analýza (co se stane dál?)
- Objevy vzorů (najít vzor nebo možná skryté informace v datech)
Kde je Data Science Needed?
Data Science se dnes používá v mnoha odvětvích světa, např. bankovnictví, poradenství, zdravotnictví a výroba.
Příklady, kde je potřeba Data Science:
- Pro plánování trasy: Chcete-li zjistit nejlepší trasy k odeslání
- Předvídat zpoždění letu/lodě/vlaku atd. (prostřednictvím prediktivní analýzy)
- K vytváření propagačních nabídek
- Chcete-li najít nejvhodnější dobu pro doručení zboží
- Předpovídat příjmy společnosti v příštích letech
- Analyzovat zdravotní přínos tréninku
- Předvídat, kdo vyhraje volby
Data Science lze aplikovat téměř v každé části podniku, kde jsou data dostupná. Příklady:
- Spotřební zboží
- Burzy
- Průmysl
- Politika
- Logistické společnosti
- E-commerce
Jak pracuje datový vědec?
Data Scientist vyžaduje odborné znalosti v několika oblastech:
- Strojové učení
- Statistika
- Programování (Python nebo R)
- Matematika
- Databáze
Data Scientist musí v datech najít vzory. Než najde vzory, musí uspořádat data ve standardním formátu.
Zde je návod, jak Data Scientist pracuje:
- Pokládejte správné otázky – Chcete-li porozumět obchodnímu problému.
- Prozkoumejte a shromažďujte data – z databáze, webových protokolů, zpětné vazby od zákazníků atd.
- Extrahujte data – Transformujte data do standardizovaného formátu.
- Vyčistit data - Odstraňte z dat chybné hodnoty.
- Najít a nahradit chybějící hodnoty - Zkontrolujte chybějící hodnoty a nahraďte je vhodnou hodnotou (např. průměrnou hodnotou).
- Normalizace dat - Měřítko hodnot v praktickém rozsahu (např. 140 cm je menší než 1,8 m. Číslo 140 je však větší než 1,8. - takže měřítko je důležité).
- Analyzujte data, najděte vzory a provádějte budoucí předpovědi .
- Reprezentovat výsledek – Prezentujte výsledek s užitečnými poznatky způsobem, kterému „společnost“ rozumí.
Kde začít?
V tomto tutoriálu začneme představením toho, co jsou data a jak lze data analyzovat.
Naučíte se používat statistiky a matematické funkce k předpovědím.