2021-03-17 13:04:18 +00:00
---
title: Michal Stromko
2021-03-26 07:12:43 +00:00
published: true
taxonomy:
2021-09-24 14:11:32 +00:00
category: [vp2021,bp2022]
2021-03-26 07:12:43 +00:00
tag: [ir,cloud,demo,nlp]
author: Daniel Hladek
2021-03-17 13:04:18 +00:00
---
rok začiatku štúdia: 2019
2021-09-24 14:15:58 +00:00
# Bakalárska práca 2022
2021-09-24 08:09:56 +00:00
2021-10-15 08:53:50 +00:00
2021-10-22 07:11:49 +00:00
- [Repozitár ](https://git.kemt.fei.tuke.sk/ms111of/bp2022 )
2021-10-15 08:53:50 +00:00
2021-10-22 07:11:49 +00:00
Názov: Indexovanie slovenského textu pomocou Elasticsearch
2021-09-24 08:09:56 +00:00
1. Vypracujte prehľad metód pre získavanie informácií.
2. Vytvorte vyhľadávací index dokumentov zo slovenského internetu.
3. Vytvorte demonštračnú webovú aplikáciu pre vyhľadávanie na slovenskom internete.
4. Navrhnite zlepšenia vyhľadávania.
## Bakalársky projekt 2021
2021-11-26 09:28:34 +00:00
Stretnutie 26.11.2021
- Vypracované skripty na vkladanie, ale zatiaľ nefungujú.
Úlohy:
- Zoznámte sa s ES API
- Prejdite tutoriál http://blog.adnansiddiqi.me/getting-started-with-elasticsearch-in-python/
2021-11-12 09:23:11 +00:00
Stretnutie 12.11.2021
Pokračujú práce na písomnej časti, na praktickej zatiaľ nie.
Úlohy:
- Zlepšiť štruktúru práce.
- Doplniť do textu odkazy na literatúru.
2021-09-24 08:09:56 +00:00
Ciele na semester:
- vedieť zaindexovať väčšie množstvo slovenských textov.
- vytvoriť funkčné webové demo na vyhľadávanie v týchto textoch.
2021-10-22 07:11:49 +00:00
Stretnutie 22.10.2021:
- Pokračovanie na otvrených úlohách - problémy s Essential Data Docker setup
Úlohy:
- Nainštalovať ES a Kibana, upravte compose na https://alysivji.github.io/elasticsearch-kibana-with-docker-compose.html
- Pozrieť si knihu https://nlp.stanford.edu/IR-book/ a urobiť z nej poznámky do teoretickej časti BP. Odvolávajte sa na túto knihu v texte.
- Skúste cez Kibanu zaindexovať jeden text a vyhľadať niečo.
- Preštudujte si ES Analyzer.
2021-10-15 08:48:30 +00:00
Stretnutie 15.10.2021
Stav:
- Nainštalovaný ES na UVT virtuálke s dostatkom miesta.
- Naštudovaný Docker.
Úlohy:
- Pokračovať v otvorených úlohách.
- Vyberte vhodnú klientskú knižnicu pre prácu s ES.
2021-10-15 08:53:50 +00:00
- Pozrite podporu slovenčiny na ES od [Essential Data ](https://github.com/essential-data/elasticsearch-sk ).
2021-10-15 08:48:30 +00:00
2021-10-01 06:41:31 +00:00
Stretnutie 1.10.2021
Stav:
- Urobený GIT, Overleaf aj virtuálny stroj na tuke cloud.
2021-10-01 06:45:26 +00:00
Úlohy:
- Pokračovať v otvorených úlohách.
2021-10-01 06:41:31 +00:00
Stretnutie 24.9.2021
2021-09-24 08:09:56 +00:00
Stav:
- Urobené poznámku ku knihe "Learning to Rank".
- Naštudované Cassandra.
Úlohy:
- Kódy dávajte na GIT do repozitára bp2022
- Začnite pracovať na Flask Web aplikácii. Aplikácia by mala vedieť zadať dotaz a zobraziť výsledky vyhľadávania.
- Vytvorte skript na indexovanie wikipédie do ES
- Napíšte si osnovu bakalárskej práce a dopíšte do nej relevantné texty ktoré máte.
Zásobník úloh:
- Vytvorte si virtuálny stroj na cloud.tuke.sk
- Web aplikácia by mala byť Dockerizovaná - vytvoríme Docker image.
- Vytvorte si pracovné prostredie s ElasticSearch a docker-compose: nainštalujete Docker Swarm
2021-03-17 13:04:18 +00:00
## Vedecký projekt 2021
2021-05-07 07:33:26 +00:00
Návrh na zadanie bakalárskej práce:
1. Vypracujte teoretickú úvod do problematiky získavania informácií.
2. Navrhnite spôsob vytvorenia indexu vybranej databázy a implementujte vyhľadávanie.
3. Vykonajte niekoľko experimentov a identifikujte mesto pre zlepšenie vyhľadávania.
2021-05-07 07:39:25 +00:00
Podobná práca [Ján Holp ](/students/2016/jan_holp )
2021-05-07 07:33:26 +00:00
2021-03-19 10:26:26 +00:00
Klaudové služby pre získavanie informácií
Cieľom projektu je zistiť ako fungujú klaudové služby pre umelú inteligenciu a ako fungujú webové vyhľadávače.
Úlohy:
- Zistite čo je to získavanie informácií.
- Oboznámte sa s Azure Cognitive Search a získajte prístup k službe. Pre prihlásenie môžete použiť Váše študentské prihlasovacie údaje.
- Vypracujte minimálne jeden tutoriál pre prácu s Azure Cognitive Search.
- Vypracujte krátky report na 2 strany kde napíšete čo ste robili a čo ste sa dozvedeli.
Zásobník úloh:
- Vytvorte index a vyhľadávanie na ZP Wiki.
- Napíšte tutoriál o tom ako ste to dokázali.
2021-06-04 08:39:06 +00:00
Stretnutie 4.6.
2021-06-04 08:47:05 +00:00
- Dohodli sme sa na vytvorení vyhľadávacieho systému za použitia crawlera, indexu a webového rozhrania.
2021-06-04 08:39:06 +00:00
- Vytvorený prístup na websucker-pip git,
- Vytvorený prístup na idoc
2021-06-04 08:47:05 +00:00
- Pre vedúceho : vytvoriť prístup na cassandra, dorobiť deployment elasticsearch.
Úlohy:
- Zoznámiť sa so zdrojovými kódmi crawlera
- Prečítať si knihu "Learning to Rank for Information Retrieval and Natural Language Processing: Second Edition"
- Nainštalujte si u seba cassandru a vyskúšajte crawler, zistite ako pracuje Cassandra.
- Porozmmýšľajte, ako vytvoriť vyhľadávací index pre text uložený v cassandre. Index môže byť vytvorený pomocou elasticsearch alebo podobného systému.
Do budúcnosti:
- Zaindexovať texty
- Vytvoriť webové rozhranie pre vyhľadávací index.
2021-05-07 07:19:33 +00:00
Stretnutie 7.5.
Stav:
- Vytvorená SQL databáza pomocou az príkazov (SQL Database).
- Nainštalované Azure Data Studio, vytvorená databáza študentov.
- Vytvorený nový ACS index a naindexovaná databáza.
- Azure Blob funguje iba cez Portál kvôli Location. Azure Data Storage. Všetky README sa dali do jedného súboru a to sa zaindexxovalo pomocou ACS.
2021-05-07 07:33:26 +00:00
- [Dokumetácia ](vp2021 ) je rozsiahla, podmienky na zápočet sú splnené.
2021-05-07 07:19:33 +00:00
2021-04-23 11:52:09 +00:00
Stretnutie 23.4.
Stav:
2021-04-23 12:18:43 +00:00
2021-04-23 11:52:09 +00:00
- vytvorené ACS pre vyhľadávanie vo vzorovej databáze hotelov.
- vytvorený prázdny index pre vyhľadávanie na Wiki.
2021-04-23 12:18:43 +00:00
- vytvorená databáza SQL Database - zatiaľ nefunguje. Chýba prístup na shell pre vytvorenie.
2021-04-23 11:52:09 +00:00
- vytvorený Azure BLOB - zatiaľ nefunguje. Vytvorená tabuľka so základnými informáciami -id, meno,... Nefunguje indexovanie blobu - problém s názvami blobu.
- zpwiki viem pridať do kontajnera - statický WEB blob kontajner.
2021-04-23 12:04:55 +00:00
- Vyzerá to tak, že ACS priamo nepracuje s PostgreSQL ani s Mariadb
2021-04-23 11:52:09 +00:00
2021-04-23 12:18:43 +00:00
Možnosti:
- Pokračovať v ceste pomocou ACS.
- Využiť Grav Plugin TNT Search.
- Vymyslieť niečo celkom iné.
Úlohy:
- Zapracovať na indexovaní pomocou Azure SQL.
- Porozmýšľať ako ďalej - chceme použiť hotové riešenie alebo niečo vymyslieť. Napríklad Elasticsearch - vyžaduje si Python, Javascript.
2021-04-23 11:52:09 +00:00
2021-04-09 11:01:37 +00:00
Stretnutie 9.4:
Stav:
- Vytvorená sada tutoriálov o Azure a Azure Cognitive Search. Dobré na ZKT. Tutorály sú na [GIthube ](https://github.com/michal552703/Vedecky-projekt ).
- Zistili sme, že ACS indexuje iba z Azure Storage.
Úlohy:
- Vytvoriť pokusný Azure Storage zdroj. Môže to byť Azure Blob alebo Azure Table alebo Azure SQL.
- Použiť indexer na indexovanie obsahu zdroja.
- Zapísať postup do súboru MD.
2021-03-19 10:26:26 +00:00
Stretnutie 19.3
Stav:
- Vytvorený prístup na Azure Portal
2021-03-19 10:29:08 +00:00
Úlohy:
- Vypracujte minimálne jeden tutoriál pre prácu s Azure Cognitive Search.
2021-03-17 13:04:18 +00:00