Namen izobraževanja je predstaviti in uporabiti glavne tehnike rudarjenja besedil, predvsem na semantičnem nivoju. Udeleženci boste uporabili metode za predprocesiranje besedil in se nato osredotočili na ekstrakcijo pomenskih delov (entitet, povezav, koreferenc). Zajete oziroma semantično označene podatke se boste naučili shranjevati v semantičnih podatkovnih zbirkah (kot je na primer DBPedia) in po njih tudi poizvedovati.

Vsebina:

  • Predprocesiranje in obogatitev besedil.
  • Pomen jezikovnih virov, njihova izgradnja in uporaba.
  • Prepoznavanje imenskih entitet, ekstrakcija povezav in odkrivanje koreferenčnosti.
  • Osnovna uporaba nevronskih mrež nad besedili.
  • Primerjava jezikovnih lastnosti med različnimi jeziki.
  • Hranjenje podatkov v obliki ontologij in iskanje po njih.
  • Praktični primeri in samostojno delo za vsako izmed zgornjih tematik (Python notebook).

Za koga?

Za vse, ki že poznate osnove programiranja in bi želeli avtomatsko obdelovati tudi besedilne podatke.

Po izobraževanju boste …

… sposobni sami s pomočjo programskega jezika izvesti izbrano analizo besedila od začetka do konca.

Predznanja:

Osnovno predznanje iz programiranja (poljuben programski jezik).

Trajanje:

  • 2 x 4 šolske ure

Izvajalci: