dmytro_ushatenko/pages/students/2019/michal_stromko/README.md
2021-09-24 16:11:32 +02:00

5.0 KiB

title published taxonomy
Michal Stromko true
category tag author
vp2021
bp2022
ir
cloud
demo
nlp
Daniel Hladek

rok začiatku štúdia: 2019

Bakalárska 2022

Názov: Indexovanie slovenského textu

  1. Vypracujte prehľad metód pre získavanie informácií.
  2. Vytvorte vyhľadávací index dokumentov zo slovenského internetu.
  3. Vytvorte demonštračnú webovú aplikáciu pre vyhľadávanie na slovenskom internete.
  4. Navrhnite zlepšenia vyhľadávania.

Bakalársky projekt 2021

Ciele na semester:

  • vedieť zaindexovať väčšie množstvo slovenských textov.
  • vytvoriť funkčné webové demo na vyhľadávanie v týchto textoch.

Stretnutie 24.9.2021:

Stav:

  • Urobené poznámku ku knihe "Learning to Rank".
  • Naštudované Cassandra.

Úlohy:

  • Kódy dávajte na GIT do repozitára bp2022
  • Začnite pracovať na Flask Web aplikácii. Aplikácia by mala vedieť zadať dotaz a zobraziť výsledky vyhľadávania.
  • Vytvorte skript na indexovanie wikipédie do ES
  • Napíšte si osnovu bakalárskej práce a dopíšte do nej relevantné texty ktoré máte.

Zásobník úloh:

  • Vytvorte si virtuálny stroj na cloud.tuke.sk
  • Web aplikácia by mala byť Dockerizovaná - vytvoríme Docker image.
  • Vytvorte si pracovné prostredie s ElasticSearch a docker-compose: nainštalujete Docker Swarm

Vedecký projekt 2021

Návrh na zadanie bakalárskej práce:

  1. Vypracujte teoretickú úvod do problematiky získavania informácií.
  2. Navrhnite spôsob vytvorenia indexu vybranej databázy a implementujte vyhľadávanie.
  3. Vykonajte niekoľko experimentov a identifikujte mesto pre zlepšenie vyhľadávania.

Podobná práca Ján Holp

Klaudové služby pre získavanie informácií

Cieľom projektu je zistiť ako fungujú klaudové služby pre umelú inteligenciu a ako fungujú webové vyhľadávače.

Úlohy:

  • Zistite čo je to získavanie informácií.
  • Oboznámte sa s Azure Cognitive Search a získajte prístup k službe. Pre prihlásenie môžete použiť Váše študentské prihlasovacie údaje.
  • Vypracujte minimálne jeden tutoriál pre prácu s Azure Cognitive Search.
  • Vypracujte krátky report na 2 strany kde napíšete čo ste robili a čo ste sa dozvedeli.

Zásobník úloh:

  • Vytvorte index a vyhľadávanie na ZP Wiki.
  • Napíšte tutoriál o tom ako ste to dokázali.

Stretnutie 4.6.

  • Dohodli sme sa na vytvorení vyhľadávacieho systému za použitia crawlera, indexu a webového rozhrania.
  • Vytvorený prístup na websucker-pip git,
  • Vytvorený prístup na idoc
  • Pre vedúceho : vytvoriť prístup na cassandra, dorobiť deployment elasticsearch.

Úlohy:

  • Zoznámiť sa so zdrojovými kódmi crawlera
  • Prečítať si knihu "Learning to Rank for Information Retrieval and Natural Language Processing: Second Edition"
  • Nainštalujte si u seba cassandru a vyskúšajte crawler, zistite ako pracuje Cassandra.
  • Porozmmýšľajte, ako vytvoriť vyhľadávací index pre text uložený v cassandre. Index môže byť vytvorený pomocou elasticsearch alebo podobného systému.

Do budúcnosti:

  • Zaindexovať texty
  • Vytvoriť webové rozhranie pre vyhľadávací index.

Stretnutie 7.5.

Stav:

  • Vytvorená SQL databáza pomocou az príkazov (SQL Database).
  • Nainštalované Azure Data Studio, vytvorená databáza študentov.
  • Vytvorený nový ACS index a naindexovaná databáza.
  • Azure Blob funguje iba cez Portál kvôli Location. Azure Data Storage. Všetky README sa dali do jedného súboru a to sa zaindexxovalo pomocou ACS.
  • Dokumetácia je rozsiahla, podmienky na zápočet sú splnené.

Stretnutie 23.4.

Stav:

  • vytvorené ACS pre vyhľadávanie vo vzorovej databáze hotelov.
  • vytvorený prázdny index pre vyhľadávanie na Wiki.
  • vytvorená databáza SQL Database - zatiaľ nefunguje. Chýba prístup na shell pre vytvorenie.
  • vytvorený Azure BLOB - zatiaľ nefunguje. Vytvorená tabuľka so základnými informáciami -id, meno,... Nefunguje indexovanie blobu - problém s názvami blobu.
  • zpwiki viem pridať do kontajnera - statický WEB blob kontajner.
  • Vyzerá to tak, že ACS priamo nepracuje s PostgreSQL ani s Mariadb

Možnosti:

  • Pokračovať v ceste pomocou ACS.
  • Využiť Grav Plugin TNT Search.
  • Vymyslieť niečo celkom iné.

Úlohy:

  • Zapracovať na indexovaní pomocou Azure SQL.
  • Porozmýšľať ako ďalej - chceme použiť hotové riešenie alebo niečo vymyslieť. Napríklad Elasticsearch - vyžaduje si Python, Javascript.

Stretnutie 9.4:

Stav:

  • Vytvorená sada tutoriálov o Azure a Azure Cognitive Search. Dobré na ZKT. Tutorály sú na GIthube.
  • Zistili sme, že ACS indexuje iba z Azure Storage.

Úlohy:

  • Vytvoriť pokusný Azure Storage zdroj. Môže to byť Azure Blob alebo Azure Table alebo Azure SQL.
  • Použiť indexer na indexovanie obsahu zdroja.
  • Zapísať postup do súboru MD.

Stretnutie 19.3

Stav:

  • Vytvorený prístup na Azure Portal

Úlohy:

  • Vypracujte minimálne jeden tutoriál pre prácu s Azure Cognitive Search.