Úvod do datové vědy


Data Science je kombinací několika oborů, které využívají statistiku, analýzu dat a strojové učení k analýze dat ak získávání znalostí a poznatků z nich.


Co je Data Science?

Data Science je o sběru dat, analýze a rozhodování.

Data Science je o hledání vzorců v datech pomocí analýzy a vytváření předpovědí budoucnosti.

Pomocí Data Science jsou společnosti schopny:

  • Lepší rozhodnutí (měli bychom zvolit A nebo B)
  • Prediktivní analýza (co se stane dál?)
  • Objevy vzorů (najít vzor nebo možná skryté informace v datech)

Kde je Data Science Needed?

Data Science se dnes používá v mnoha odvětvích světa, např. bankovnictví, poradenství, zdravotnictví a výroba.

Příklady, kde je potřeba Data Science:

  • Pro plánování trasy: Chcete-li zjistit nejlepší trasy k odeslání
  • Předvídat zpoždění letu/lodě/vlaku atd. (prostřednictvím prediktivní analýzy)
  • K vytváření propagačních nabídek
  • Chcete-li najít nejvhodnější dobu pro doručení zboží
  • Předpovídat příjmy společnosti v příštích letech
  • Analyzovat zdravotní přínos tréninku
  • Předvídat, kdo vyhraje volby

Data Science lze aplikovat téměř v každé části podniku, kde jsou data dostupná. Příklady:

  • Spotřební zboží
  • Burzy
  • Průmysl
  • Politika
  • Logistické společnosti
  • E-commerce

Jak pracuje datový vědec?

Data Scientist vyžaduje odborné znalosti v několika oblastech:

  • Strojové učení
  • Statistika
  • Programování (Python nebo R)
  • Matematika
  • Databáze

Data Scientist musí v datech najít vzory. Než najde vzory, musí uspořádat data ve standardním formátu.

Zde je návod, jak Data Scientist pracuje:

  1. Pokládejte správné otázky – Chcete-li porozumět obchodnímu problému.
  2. Prozkoumejte a shromažďujte data – z databáze, webových protokolů, zpětné vazby od zákazníků atd.
  3. Extrahujte data – Transformujte data do standardizovaného formátu.
  4. Vyčistit data - Odstraňte z dat chybné hodnoty.
  5. Najít a nahradit chybějící hodnoty - Zkontrolujte chybějící hodnoty a nahraďte je vhodnou hodnotou (např. průměrnou hodnotou).
  6. Normalizace dat - Měřítko hodnot v praktickém rozsahu (např. 140 cm je menší než 1,8 m. Číslo 140 je však větší než 1,8. - takže měřítko je důležité).
  7. Analyzujte data, najděte vzory a provádějte budoucí předpovědi .
  8. Reprezentovat výsledek – Prezentujte výsledek s užitečnými poznatky způsobem, kterému „společnost“ rozumí.

Kde začít?

V tomto tutoriálu začneme představením toho, co jsou data a jak lze data analyzovat.

Naučíte se používat statistiky a matematické funkce k předpovědím.