Hadoop je odprto-kodna platforma, ki temelji na porazdeljenem datotečnem sistemu HDFS in je osnova za številna orodja za zajem, hrambo, procesiranje in vizualizacijo velikih količin podatkov. Izobraževanje je namenjeno predstavitvi konkretnih orodij ter primerov uporabe. Razdeljeno je v tri sklope, hramba podatkov, zajem podatkov in procesiranje ter vizualizacija podatkov.
Vsebina:
1. izobraževanje: Shramba podatkov v Hadoop
Namen izobraževanja je predstaviti tri izbrana orodja, ki so prvenstveno namenjena hrambi velikih količin podatkov. To so:
- HBase, kot osnovna porazdeljena podatkovna baza Hadoop ekosistema,
- Lucene/Solr, ki je namenjeno obdelavi velikih količin delno strukturiranega in nestrukturiranega besedila,
- Neo4j za delo s podatki, predstavljenimi z grafom.
2. izobraževanje: Zajemanje podatkov v Hadoop
V tem sklopu izobraževanj bodo predstavljena tri orodja za zajem podatkov v Hadoop ekosistem:
- Kafka kot porazdeljena, visoko-razpoložljiva in razširljiva sporočilna vrsta,
- Nifi, ki se odlikuje z enostavnostjo uporabe saj za zajem podatkov ponuja enostaven “drag and drop” spletni uporabniški vmesnik in
- HiveMQ, kot primer orodja za prenos podatkov iz senzorjev in drugih IoT naprav z uporabo MQTT in drugih protokolov.
3. izobraževanje: Procesiranje in vizualizacija podatkov v Hadoop
Tretji sklop izobraževanj je namenjen predstavitvi izbranih orodij za procesiranje in vizualizacijo podatkov. Predstavljena bodo naslednja tri orodja:
- Spark kot eno izmed najbolj poznanih orodij za porazdeljeno procesiranje podatkov (vključno s Spark streaming za procesiranje podatkovnih tokov v realnem času),
- Superset kot primer orodja za poslovno analitiko, ki omogoča učinkovito raziskovanje in vizualizacijo podatkov.
- Grafana kot orodje za hiter razvoj nadzornih plošč, monitoriranje in alarmiranje.
Za koga?
Izobraževanja so primerna predvsem za tehnično osebje, ki se ukvarja z zajemom, analizo in procesiranjem večjih količin podatkov ter za razvijalce podatkovno intenzivnih informacijskih sistemov.
Po izobraževanju boste …
… poznali osnove ključnih orodij za zajem, hrambo, procesiranje in vizualizacijo podatkov v porazdeljenem, razširljivem in visoko-razpoložljivem okolju.
Predznanja:
Zaželeno je osnovno poznavanje okolja Hadoop ter porazdeljenih sistemov za zajem, hrambo, procesiranje in vizualizacijo podatkov. Priporočamo izobraževanje “Obvladovanje velikih količin podatkov”.
Trajanje:
- Izobraževanja so samostojna. Vsako od izobraževanj traja 2 x 4 šolske ure.