Nahrát soubory do „pages/students/2019/michal_stromko/vp2021/dokumentacia“
This commit is contained in:
parent
634f0f8a63
commit
fc54a5aae5
@ -0,0 +1,19 @@
|
|||||||
|
INSERT INTO students
|
||||||
|
([StudentId], [Name], [Surname], [Email], [StartStudy], [SubjectName])
|
||||||
|
VALUES
|
||||||
|
(1, N'Martin', N'Wencel',N'martin.wencel@student.tuke.sk',2018, N'bp2021'),
|
||||||
|
(2,N'Martin', N'Jancura',N'martin.jancura@student.tuke.sk',2017, N'bp2021'),
|
||||||
|
(3,N'Oleh', N'Bilykh',N'oleh.bilykh@student.tuke.sk',2018, N'bp2021'),
|
||||||
|
(4,N'Ondrej', N'Megela',N'ondrej.megela@student.tuke.sk',2018, N'bp2021'),
|
||||||
|
(5,N'Than Trung', N'Thanh',N'than.thanh.tuke.sk',2018, N'bp2021'),
|
||||||
|
(6,N'Martin', N'NaN1',N'martin.jnan1@student.tuke.sk',2018, N'bp2021'),
|
||||||
|
(7,N'Dmytro', N'Ushatenko',N'dmytro.ushatenko@student.tuke.sk',2018, N'bp2020'),
|
||||||
|
(8,N'Patrik', N'Pavlišin',N'patrik.pavlisin@student.tuke.sk',2018, N'bp2020'),
|
||||||
|
(9,N'Stanislav', N'Matsunych',N'stanislav.matsunych@student.tuke.sk',2018, N'bp2020'),
|
||||||
|
(10,N'Jakub', N'Maruniak',N'jakub.maruniak@student.tuke.sk',2016, N'bp2019'),
|
||||||
|
(11,N'Ján', N'Holp',N'jan.holp@student.tuke.sk',2016, N'bp2019'),
|
||||||
|
(12,N'Dmytro', N'Ushatenko',N'dmytro.ushatenko@student.tuke.sk',2018, N'bp2019'),
|
||||||
|
(13,N'Lukáš', N'Pokrývka',N'lukas.pokryvka@student.tuke.sk',2016, N'bp2019'),
|
||||||
|
(14,N'Dominik', N'Nagy',N'dominik.nagy@student.tuke.sk',2016, N'dp2022'),
|
||||||
|
(15,N'Maroš', N'Haraus',N'maros.haraus@student.tuke.sk',2016, N'dp2020')
|
||||||
|
GO
|
@ -0,0 +1,8 @@
|
|||||||
|
CREATE TABLE students
|
||||||
|
(
|
||||||
|
StudentId INT NOT NULL PRIMARY KEY,
|
||||||
|
Name [NVARCHAR](50) NOT NULL,
|
||||||
|
Surname [NVARCHAR](50) NOT NULL,
|
||||||
|
Email [NVARCHAR](50) NOT NULL,
|
||||||
|
StartStudy INT NOT NULL
|
||||||
|
)
|
@ -0,0 +1,160 @@
|
|||||||
|
|
||||||
|
<h1 align="center">
|
||||||
|
<b>TECHNICKÁ UNIVERZITA V KOŠICIACH <br>
|
||||||
|
FAKULTA ELEKTRONIKY A INFORMATIKY</b>
|
||||||
|
</h1>
|
||||||
|
<br> <br> <br> <br>
|
||||||
|
|
||||||
|
<p align="center", style="font-size:35px; line-height:normal;" > <b>Klaudové služby pre získavanie informácii </b></p>
|
||||||
|
<br> <br> <br> <br> <br> <br> <br>
|
||||||
|
|
||||||
|
<b>
|
||||||
|
<p style="text-align:left;">
|
||||||
|
2021
|
||||||
|
<span style="float:right;">
|
||||||
|
Michal Stromko
|
||||||
|
</span>
|
||||||
|
</p>
|
||||||
|
</b>
|
||||||
|
|
||||||
|
<br> <br>
|
||||||
|
## Úvod
|
||||||
|
Cieľom mojej práce bolo zistenie fungovania klaudových služieb pre umelú inteligenciu a zistenie fungovania webových vyhľadávačov. V mojej práci som sa hľavne zameral na fungovanie webových vyhľadávačov.
|
||||||
|
|
||||||
|
V dnešnej dobe vo väčšine webových stránok je vytvorený vyhľadávač obsahu na stránke. Je to impelementované, napríklad pre lepšie vyhľadávania informácií na stránke. Vzniklo to kvôli tomu, pretože veľké množstvo webových stránok na internete má obrovské množstovo informácií.Vyhľadávanie jednej informácie by mohlo tvrať aj desať minút. Takémuto zdĺhavému hľadaniu informácie sa predišlo vytvorením vyhľadávacieho okna na stránke.
|
||||||
|
|
||||||
|
Boli by sme si pomysleli, že vytvorenie takéhoto vyhľadávača je jednoduché. Žiaľ, to nie je pravda. Za vytvorením takéhoto vyhľadávača môžeme nájsť množnstovo strávených hodín programovania. Treba si aj uvedomiť to, že takéto vyhľadávače fungujú na umelej inteligencii. Umelá inteligencia dokáže rozoznať minimálne jednu informáciu, napr. do vyhľadávača zadáme _"Mobilný telefón"_. Niekdedy bolo vyhľadanie jednej informácie bežné. Technológie v dnešnej dobe postupujú obrovskou rýchlosťou a stáva sa štandardov vahľadávania napr. výraz: _Koľko stojí telefón Xiaomi Mi 11 ?_. Vyhľadávač na stránke nám dokáže odpovedať na takúto otázku a zároveň nám aj ponúkne vložiť tovar do košíka.
|
||||||
|
|
||||||
|
V mojej práci som sa pokúsil o vytvorenie jednoduchého vyhľadávača na stránke [ZP Wiki](https://zp.kemt.fei.tuke.sk/taxonomy?name=category&val=project).
|
||||||
|
|
||||||
|
<br>
|
||||||
|
<!-- pridať br aby ďalší obsah bol na nasledujúcej strane -->
|
||||||
|
|
||||||
|
|
||||||
|
## Ciele práce
|
||||||
|
Mojou hlavou úlohou pri riešení tejto práce bolo, porozumieť fungovaniu vyhľadávania informácií na stránkach. Popri študovaní ako to funguje som sa pokúsil v prostredí **Microsoft Azure** vytvoriť vyhľadávanie pre stránku **ZP Wiki**.
|
||||||
|
|
||||||
|
Vytvorenie vyhľadávanie zahŕňa:
|
||||||
|
- vytvorenie nasledujúcich aplikácii:
|
||||||
|
- Azure Corgnitive Search
|
||||||
|
- Dakabázu, napr.:
|
||||||
|
- SQL databases
|
||||||
|
- Azure Blob storage
|
||||||
|
- Zdroja informácii (Resouce group)
|
||||||
|
|
||||||
|
- vytvorenie indexu pre skránku
|
||||||
|
- vytvorenie kontajnera pre ZP Wiki
|
||||||
|
- Vytvorenie tutoriálov pre lepšie vytváranie vyhľadávania
|
||||||
|
|
||||||
|
<br><br>
|
||||||
|
|
||||||
|
<!-- nová stránka pridat br-->
|
||||||
|
|
||||||
|
## Fungovanie vyhľadávania na stránke
|
||||||
|
|
||||||
|
Po zadaní do textového poľa pre vyhľadávanie, nasleduje na stránke množstvo oprérácii. Pre správne vyhľadávanie je dôležité, aby vyhľadávač bol schopný v reálnom čase prehľadať stránku a vytvoriť si dátovú štruktúru inak povedané *index*. Vyhľadávače, ktoré majú názov **fulltext** pri vyhľadávaní pooužívajú kľúčové slová, ktoré vyhľadajú v indexe.
|
||||||
|
|
||||||
|
### Princíp vyhľadávania
|
||||||
|
|
||||||
|
Principiálne vyhľadávače používajú len prvé tri kroky:
|
||||||
|
1. Crawlovanie
|
||||||
|
- pojem, ktorý zahŕňa vyhľadanie alebo zber informácii (dát), ktoré sa uložia do databázy
|
||||||
|
2. Indexácia
|
||||||
|
3. Výsledky vyhľadávania
|
||||||
|
4. **Crawler**
|
||||||
|
|
||||||
|
#### Crawler
|
||||||
|
|
||||||
|
Je to jeden z najdôležitejších nástrojov pre prechádzanie súborov webových stránok. Je označovaný za program, ktorý si ukladá dáta, napr. obsah stánok, metadáta (sú to informácie o danej stránke, ako príklad hashe dokumentu, dátumy stiahnutia dokumentu a podobne.)
|
||||||
|
Primárnou úlohou Crawlera je ukladanie _Hypertextových odkazov_, ktoré sa nachádzajú na stránkach. Pred uložením takéto odkazu ho otvorí a vyhľadá ďalšie informácie spolu s ďalšími odkazmi. Robí to preto, aby získal čo najviac pravdivých informácii. Firmy ako Microsoft, Google, Apple a ďalšie majú svoje stránky uložené na minimálne tisickach GB, keby sme pustili crawler na takéto stránky, tak by spotreboval obrovské množstvo úložiska na uloženie dát o stránkach. Netreba zabúdať ani na fakt, že vyhľadávanie informácii v takejto databáze by trvalo príliš dlho, možno v desiatkach minút. Keby nastala takáto situácia, úžívateľ prestane používať danú stránku. Preto sa do tohto nástroja zadefinovalo overovanie informácii spolu s vyhodnocovaním či dané dáta majú byť zapísané do databázy.
|
||||||
|
Veľakrát nastáva aj situácia, že veľké množstov stránok využíva rovnakú cestu do súboru. Vtedy sa takáto duplikovaná cesta uloží do pamäte iba raz a druhá adresa dostane len informáciu, kde sa nachádza zvyšok cesty do súboru.
|
||||||
|
|
||||||
|
|
||||||
|
### Vytváranie indexu
|
||||||
|
|
||||||
|
Pri vytváraní indexu sa do pamäte zapisujú len najdôležitejšie informácie, ktoré následne slúžia pre rozhodovanie, ktoré stránky budú užívateľovi zobrazené na obrazovke. Takéto informácie sa triedia podľa relevantnosti.
|
||||||
|
|
||||||
|
Všeobecne sú to napr. tieto typy dát:
|
||||||
|
- typ stránky
|
||||||
|
- jazyk stránky
|
||||||
|
- informácie o doméne (napr. či táto stránka je bezpečná)
|
||||||
|
- spätné odkazy
|
||||||
|
- holý text (obsahuje slová ktoré sú uložené)
|
||||||
|
|
||||||
|
### Aktualizácia indexu
|
||||||
|
|
||||||
|
Je dôležitá pre správne fungovanie vyhľadávania, aby boli v databáze uložené aktuálne informácie na danej stránke.
|
||||||
|
Poznáme 2 typy aktualizácii:
|
||||||
|
1. Prírastková aktualizácia
|
||||||
|
- pri aktualizácii indexu sa nové dáta z databázy vyhľadávača pridajú do súčastného indexu. Vzniká tým len problém toho, že je potrebné dáta zoradiť na správne miesto v indexe.
|
||||||
|
2. Hromadná aktualizácia
|
||||||
|
- pri tejto metóde sa kontroluje, ktorá nová stránka pribudla v databáze.
|
||||||
|
- z takýchto dát sa vytvorí nový index, ktorý bude mať menej parametrov.
|
||||||
|
- k spojenu dvoch indexov teda nového a starého dochádza až počas samostatného vyhľadávania
|
||||||
|
|
||||||
|
<!-- nová stránka pridat br-->
|
||||||
|
|
||||||
|
## Microsoft Azure
|
||||||
|
|
||||||
|
Pri vypracovávaní môjho zadania som pracoval v prostredí Microsft aplikácie. Táto aplíkácia funguje vo webovom rozhraní. V tejto aplikácii sa dajú vytvárať SQL databázy, Maria DB, Posgre SQL databázy, virtuálne stroje a mnoho dalších aplikácii. Veľkú časť tutoriálov som vytvoril na prácu vo webovom rozhraní. Existuje aj pripojenie na takúto aplikáciu pomocou terminálu v OS založenom na UNIX, aj túto metódu som využíval.
|
||||||
|
|
||||||
|
Na prihlásenie do tohto portálu som vytvoril tutoriál, ktorý nájdete na nasledujúcom odkaze. [Turoriál na vytvorenie konta na azure portály.](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_acount_on_azure.md)
|
||||||
|
|
||||||
|
|
||||||
|
## Vytvorenie SQL databázy
|
||||||
|
|
||||||
|
Základom vytvorenia vyhľadávania je vytvorená databáza, ktorá bude udržiavať informácie o indexe. Takúto databázu je možné vytvoriť dvoma spôsobmi. Prvá možnosť vytvorenia databázy je priamo na portály **Microsoft Azure**. Druhá možnosť je pomocou terminálu.
|
||||||
|
|
||||||
|
### Vytvorenie databázy priamo na portály Microsoft Azure
|
||||||
|
|
||||||
|
Vytvorenie takejto databázy nie je moc náročné. Stačí mať len zbehlosť v správnom vypĺňaní formulárov. Pri vypracovávaní projektu som využil aj takýto spôsob vytvorenia databázy. Pre jednoduchšie vytvorenie takejto databázy som vytvoril tutoriál. Tento tutoriál nájdete na nasledujúcom odkaze.
|
||||||
|
|
||||||
|
[Návod na vytvorenie databázy](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_sql_database.md)
|
||||||
|
|
||||||
|
|
||||||
|
### Vytvorenie databázy pomocou terminálu
|
||||||
|
|
||||||
|
Pre vytvorenie databázy pomocou terminálu je potrebná inštalácia programu, ktorý bude fungovať v terminály. Tento program má názov **Azure CLI**, pripájam link na nainštalovanie datého programu, a následné prihlásenie užívateľa pomocou príkazu do potrálu **Microsoft Azure**
|
||||||
|
|
||||||
|
[Inštalácia Azure CLI](https://docs.microsoft.com/en-us/cli/azure/install-azure-cli)
|
||||||
|
|
||||||
|
Po nainštalovaní a prihásení som si vytvoril skript s príponou *sh*, do ktorého som napísal príkazy pre vytvorenie databázy. Tento súbor nájdete v prílohe s názvom **sql_database.sh**. Následne som tento skript spustil pomocou príkazu **sh sql_database.sh**
|
||||||
|
|
||||||
|
Po vykonaní tohto príkazu sa mi ako výstup príkazu zobrazily informácie o vytvorení databázy. Tieto informácie sú napr. Názov sql databázy, adresa servera, kde je databáza spustená, meno užívateľa, ktorý sa môže do nej prihlásiť a ďalšie informácie. Tieto infromácie som si zapísal do súboru **sql_database_out.txt**, ktorý je súčaťou prílohy.
|
||||||
|
|
||||||
|
## Vytvorenie tabuľky v databáze a pridanie hodnôt do tabuľky
|
||||||
|
|
||||||
|
Pre vytvorenie tabuľky v databáze som si nainštaloval program **Azure Data Studio**, stránku na stiahnutie a naištalovanie programu nájdete na nasledujúcom linku.
|
||||||
|
|
||||||
|
[Inštalácia Azure Data Studio](https://docs.microsoft.com/en-us/sql/azure-data-studio/download-azure-data-studio?view=sql-server-ver15)
|
||||||
|
|
||||||
|
Po následnej inštalácii sa program spustil a prihlásil som sa do databázy. Neskôr som si vytvoril tabuľku nasledovným príkazom. Tento príkaz nájdete v prílohe **create_table.sql**
|
||||||
|
|
||||||
|
CREATE TABLE students
|
||||||
|
(
|
||||||
|
StudentId INT NOT NULL PRIMARY KEY,
|
||||||
|
Name [NVARCHAR](50) NOT NULL,
|
||||||
|
Surname [NVARCHAR](50) NOT NULL,
|
||||||
|
Email [NVARCHAR](50) NOT NULL,
|
||||||
|
StartStudy INT NOT NULL,
|
||||||
|
SubjectName [NVARCHAR](15) NOT NULL
|
||||||
|
)
|
||||||
|
|
||||||
|
Následne som do tejto tabuľky pridal 15 záznamoch o študentoch. Tento skript nájdete v prílohe pod názvom **Insert_table.sql**
|
||||||
|
|
||||||
|
Neskôr som už len vytvoril select, ktorým som si vyskúšal či sa dané dáta nachádzajú v tabuľke.
|
||||||
|
|
||||||
|
SELECT * FROM studenti;
|
||||||
|
|
||||||
|
## Vytvorenie Azure Cognitive Search
|
||||||
|
|
||||||
|
Azure Cognitive search je kladudová vyhľadávacia služba, ktorá poskytuje vývojárom API (Aplication Programming Interface) nástroj na jednoduché vytvorenie vyhľadávania na stránke. Rozhranie API a architektúra kognitívneho vyhľadávania zjednodušuje úlohu pri pridávaní sofistikovaného vyhľadávania informácii.
|
||||||
|
|
||||||
|
Vytvorenie ACS som realizoval pomocou portálu **Microsoft Azure**. Vypĺňanie formulárov je celkom jednoduché, ale má jednu chybu. Ide o chybu spojenú s firmou Microsoft, ktorá pri študenských vytvára preddefinovanú databázu hotelov. Firme ide o to, aby používateľ pri vytvorení databázy dokázal aj vyhľadávať údaje v danej databáze. Na vytvorenie ACS som vytvoril jednoduchý tutoriál, ktorý nájdete v nasledujúcom linku.
|
||||||
|
|
||||||
|
[Vytvorenie ACS](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_azure_cognitive_search.md)
|
||||||
|
|
||||||
|
|
||||||
|
## Vytorennie indexu v ACS
|
||||||
|
|
||||||
|
Index tvorí základnú časť pre vyhľadávanie v ACS. Pri vytváraní indexu, je potrebné mať vytvorenú databázu, do ktorej sa index zapíše. Pokiaľ nemáte takto vytvorenú databázu, tak dokážete vytvoriť index iba na hotely, ktoré sú predefinované pri vytvorení. Vyhľadávanie v indexe a aj práca s ním, napr. napísanie skriptu vyžaduje znalosť používania nástoroja *JSON* Vytvorenie indexu som realizoval na portáli **Microsoft Azure** a vytvoril som aj k tomu tutoriál, ktorý nájdete po kliknutí na nasledujúci link. [Vytvorenie indexu](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_index.md)
|
Binary file not shown.
@ -0,0 +1,163 @@
|
|||||||
|
|
||||||
|
<h1 align="center">
|
||||||
|
<b>TECHNICKÁ UNIVERZITA V KOŠICIACH <br>
|
||||||
|
FAKULTA ELEKTRONIKY A INFORMATIKY</b>
|
||||||
|
</h1>
|
||||||
|
<br> <br> <br> <br> <br> <br> <br> <br> <br> <br> <br> <br> <br> <br>
|
||||||
|
|
||||||
|
<p align="center", style="font-size:35px; line-height:normal;" > <b>Klaudové služby pre získavanie informácii </b></p>
|
||||||
|
<br> <br> <br> <br> <br> <br> <br>
|
||||||
|
<br> <br> <br> <br><br> <br> <br> <br><br> <br> <br>
|
||||||
|
<b>
|
||||||
|
<p style="text-align:left;">
|
||||||
|
2021
|
||||||
|
<span style="float:right;">
|
||||||
|
Michal Stromko
|
||||||
|
</span>
|
||||||
|
</p>
|
||||||
|
</b>
|
||||||
|
|
||||||
|
<br> <br>
|
||||||
|
## Úvod
|
||||||
|
Cieľom mojej práce bolo zistenie fungovania klaudových služieb pre umelú inteligenciu a zistenie fungovania webových vyhľadávačov. V mojej práci som sa hľavne zameral na fungovanie webových vyhľadávačov.
|
||||||
|
|
||||||
|
V dnešnej dobe vo väčšine webových stránok je vytvorený vyhľadávač obsahu na stránke. Je to impelementované, napríklad pre lepšie vyhľadávania informácií na stránke. Vzniklo to kvôli tomu, pretože veľké množstvo webových stránok na internete má obrovské množstovo informácií.Vyhľadávanie jednej informácie by mohlo tvrať aj desať minút. Takémuto zdĺhavému hľadaniu informácie sa predišlo vytvorením vyhľadávacieho okna na stránke.
|
||||||
|
|
||||||
|
Boli by sme si pomysleli, že vytvorenie takéhoto vyhľadávača je jednoduché. Žiaľ, to nie je pravda. Za vytvorením takéhoto vyhľadávača môžeme nájsť množnstovo strávených hodín programovania. Treba si aj uvedomiť to, že takéto vyhľadávače fungujú na umelej inteligencii. Umelá inteligencia dokáže rozoznať minimálne jednu informáciu, napr. do vyhľadávača zadáme _"Mobilný telefón"_. Niekdedy bolo vyhľadanie jednej informácie bežné. Technológie v dnešnej dobe postupujú obrovskou rýchlosťou a stáva sa štandardov vahľadávania napr. výraz: _Koľko stojí telefón Xiaomi Mi 11 ?_. Vyhľadávač na stránke nám dokáže odpovedať na takúto otázku a zároveň nám aj ponúkne vložiť tovar do košíka.
|
||||||
|
|
||||||
|
V mojej práci som sa pokúsil o vytvorenie jednoduchého vyhľadávača na stránke [ZP Wiki](https://zp.kemt.fei.tuke.sk/taxonomy?name=category&val=project).
|
||||||
|
|
||||||
|
<br>
|
||||||
|
<br> <br> <br> <br> <br> <br> <br>
|
||||||
|
<br> <br> <br><br> <br> <br> <br><br> <br> <br> <br><br> <br> <br> <!-- pridať br aby ďalší obsah bol na nasledujúcej strane -->
|
||||||
|
|
||||||
|
|
||||||
|
## Ciele práce
|
||||||
|
Mojou hlavou úlohou pri riešení tejto práce bolo, porozumieť fungovaniu vyhľadávania informácií na stránkach. Popri študovaní ako to funguje som sa pokúsil v prostredí **Microsoft Azure** vytvoriť vyhľadávanie pre stránku **ZP Wiki**.
|
||||||
|
|
||||||
|
Vytvorenie vyhľadávanie zahŕňa:
|
||||||
|
- vytvorenie nasledujúcich aplikácii:
|
||||||
|
- Azure Corgnitive Search
|
||||||
|
- Dakabázu, napr.:
|
||||||
|
- SQL databases
|
||||||
|
- Azure Blob storage
|
||||||
|
- Zdroja informácii (Resouce group)
|
||||||
|
|
||||||
|
- vytvorenie indexu pre skránku
|
||||||
|
- vytvorenie kontajnera pre ZP Wiki
|
||||||
|
- Vytvorenie tutoriálov pre lepšie vytváranie vyhľadávania
|
||||||
|
|
||||||
|
<br><br>
|
||||||
|
<br>
|
||||||
|
<br> <br> <br> <br> <br> <br> <br><br> <br>
|
||||||
|
<br> <br> <br><br> <br> <br> <br><br> <br> <br> <br><br> <br> <br>
|
||||||
|
<!-- nová stránka pridat br-->
|
||||||
|
|
||||||
|
## Fungovanie vyhľadávania na stránke
|
||||||
|
|
||||||
|
Po zadaní do textového poľa pre vyhľadávanie, nasleduje na stránke množstvo oprérácii. Pre správne vyhľadávanie je dôležité, aby vyhľadávač bol schopný v reálnom čase prehľadať stránku a vytvoriť si dátovú štruktúru inak povedané *index*. Vyhľadávače, ktoré majú názov **fulltext** pri vyhľadávaní pooužívajú kľúčové slová, ktoré vyhľadajú v indexe.
|
||||||
|
|
||||||
|
### Princíp vyhľadávania
|
||||||
|
|
||||||
|
Principiálne vyhľadávače používajú len prvé tri kroky:
|
||||||
|
1. Crawlovanie
|
||||||
|
- pojem, ktorý zahŕňa vyhľadanie alebo zber informácii (dát), ktoré sa uložia do databázy
|
||||||
|
2. Indexácia
|
||||||
|
3. Výsledky vyhľadávania
|
||||||
|
4. **Crawler**
|
||||||
|
|
||||||
|
#### Crawler
|
||||||
|
|
||||||
|
Je to jeden z najdôležitejších nástrojov pre prechádzanie súborov webových stránok. Je označovaný za program, ktorý si ukladá dáta, napr. obsah stánok, metadáta (sú to informácie o danej stránke, ako príklad hashe dokumentu, dátumy stiahnutia dokumentu a podobne.)
|
||||||
|
Primárnou úlohou Crawlera je ukladanie _Hypertextových odkazov_, ktoré sa nachádzajú na stránkach. Pred uložením takéto odkazu ho otvorí a vyhľadá ďalšie informácie spolu s ďalšími odkazmi. Robí to preto, aby získal čo najviac pravdivých informácii. Firmy ako Microsoft, Google, Apple a ďalšie majú svoje stránky uložené na minimálne tisickach GB, keby sme pustili crawler na takéto stránky, tak by spotreboval obrovské množstvo úložiska na uloženie dát o stránkach. Netreba zabúdať ani na fakt, že vyhľadávanie informácii v takejto databáze by trvalo príliš dlho, možno v desiatkach minút. Keby nastala takáto situácia, úžívateľ prestane používať danú stránku. Preto sa do tohto nástroja zadefinovalo overovanie informácii spolu s vyhodnocovaním či dané dáta majú byť zapísané do databázy.
|
||||||
|
Veľakrát nastáva aj situácia, že veľké množstov stránok využíva rovnakú cestu do súboru. Vtedy sa takáto duplikovaná cesta uloží do pamäte iba raz a druhá adresa dostane len informáciu, kde sa nachádza zvyšok cesty do súboru.
|
||||||
|
|
||||||
|
|
||||||
|
### Vytváranie indexu
|
||||||
|
|
||||||
|
Pri vytváraní indexu sa do pamäte zapisujú len najdôležitejšie informácie, ktoré následne slúžia pre rozhodovanie, ktoré stránky budú užívateľovi zobrazené na obrazovke. Takéto informácie sa triedia podľa relevantnosti.
|
||||||
|
|
||||||
|
Všeobecne sú to napr. tieto typy dát:
|
||||||
|
- typ stránky
|
||||||
|
- jazyk stránky
|
||||||
|
- informácie o doméne (napr. či táto stránka je bezpečná)
|
||||||
|
- spätné odkazy
|
||||||
|
- holý text (obsahuje slová ktoré sú uložené)
|
||||||
|
|
||||||
|
### Aktualizácia indexu
|
||||||
|
|
||||||
|
Je dôležitá pre správne fungovanie vyhľadávania, aby boli v databáze uložené aktuálne informácie na danej stránke.
|
||||||
|
Poznáme 2 typy aktualizácii:
|
||||||
|
1. Prírastková aktualizácia
|
||||||
|
- pri aktualizácii indexu sa nové dáta z databázy vyhľadávača pridajú do súčastného indexu. Vzniká tým len problém toho, že je potrebné dáta zoradiť na správne miesto v indexe.
|
||||||
|
2. Hromadná aktualizácia
|
||||||
|
- pri tejto metóde sa kontroluje, ktorá nová stránka pribudla v databáze.
|
||||||
|
- z takýchto dát sa vytvorí nový index, ktorý bude mať menej parametrov.
|
||||||
|
- k spojenu dvoch indexov teda nového a starého dochádza až počas samostatného vyhľadávania
|
||||||
|
|
||||||
|
<!-- nová stránka pridat br-->
|
||||||
|
|
||||||
|
## Microsoft Azure
|
||||||
|
|
||||||
|
Pri vypracovávaní môjho zadania som pracoval v prostredí Microsft aplikácie. Táto aplíkácia funguje vo webovom rozhraní. V tejto aplikácii sa dajú vytvárať SQL databázy, Maria DB, Posgre SQL databázy, virtuálne stroje a mnoho dalších aplikácii. Veľkú časť tutoriálov som vytvoril na prácu vo webovom rozhraní. Existuje aj pripojenie na takúto aplikáciu pomocou terminálu v OS založenom na UNIX, aj túto metódu som využíval.
|
||||||
|
|
||||||
|
Na prihlásenie do tohto portálu som vytvoril tutoriál, ktorý nájdete na nasledujúcom odkaze. [Turoriál na vytvorenie konta na azure portály.](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_acount_on_azure.md)
|
||||||
|
|
||||||
|
|
||||||
|
## Vytvorenie SQL databázy
|
||||||
|
|
||||||
|
Základom vytvorenia vyhľadávania je vytvorená databáza, ktorá bude udržiavať informácie o indexe. Takúto databázu je možné vytvoriť dvoma spôsobmi. Prvá možnosť vytvorenia databázy je priamo na portály **Microsoft Azure**. Druhá možnosť je pomocou terminálu.
|
||||||
|
|
||||||
|
### Vytvorenie databázy priamo na portály Microsoft Azure
|
||||||
|
|
||||||
|
Vytvorenie takejto databázy nie je moc náročné. Stačí mať len zbehlosť v správnom vypĺňaní formulárov. Pri vypracovávaní projektu som využil aj takýto spôsob vytvorenia databázy. Pre jednoduchšie vytvorenie takejto databázy som vytvoril tutoriál. Tento tutoriál nájdete na nasledujúcom odkaze.
|
||||||
|
|
||||||
|
[Návod na vytvorenie databázy](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_sql_database.md)
|
||||||
|
|
||||||
|
|
||||||
|
### Vytvorenie databázy pomocou terminálu
|
||||||
|
|
||||||
|
Pre vytvorenie databázy pomocou terminálu je potrebná inštalácia programu, ktorý bude fungovať v terminály. Tento program má názov **Azure CLI**, pripájam link na nainštalovanie datého programu, a následné prihlásenie užívateľa pomocou príkazu do potrálu **Microsoft Azure**
|
||||||
|
|
||||||
|
[Inštalácia Azure CLI](https://docs.microsoft.com/en-us/cli/azure/install-azure-cli)
|
||||||
|
|
||||||
|
Po nainštalovaní a prihásení som si vytvoril skript s príponou *sh*, do ktorého som napísal príkazy pre vytvorenie databázy. Tento súbor nájdete v prílohe s názvom **sql_database.sh**. Následne som tento skript spustil pomocou príkazu **sh sql_database.sh**
|
||||||
|
|
||||||
|
Po vykonaní tohto príkazu sa mi ako výstup príkazu zobrazily informácie o vytvorení databázy. Tieto informácie sú napr. Názov sql databázy, adresa servera, kde je databáza spustená, meno užívateľa, ktorý sa môže do nej prihlásiť a ďalšie informácie. Tieto infromácie som si zapísal do súboru **sql_database_out.txt**, ktorý je súčaťou prílohy.
|
||||||
|
|
||||||
|
## Vytvorenie tabuľky v databáze a pridanie hodnôt do tabuľky
|
||||||
|
|
||||||
|
Pre vytvorenie tabuľky v databáze som si nainštaloval program **Azure Data Studio**, stránku na stiahnutie a naištalovanie programu nájdete na nasledujúcom linku.
|
||||||
|
|
||||||
|
[Inštalácia Azure Data Studio](https://docs.microsoft.com/en-us/sql/azure-data-studio/download-azure-data-studio?view=sql-server-ver15)
|
||||||
|
|
||||||
|
Po následnej inštalácii sa program spustil a prihlásil som sa do databázy. Neskôr som si vytvoril tabuľku nasledovným príkazom. Tento príkaz nájdete v prílohe **create_table.sql**
|
||||||
|
|
||||||
|
CREATE TABLE students
|
||||||
|
(
|
||||||
|
StudentId INT NOT NULL PRIMARY KEY,
|
||||||
|
Name [NVARCHAR](50) NOT NULL,
|
||||||
|
Surname [NVARCHAR](50) NOT NULL,
|
||||||
|
Email [NVARCHAR](50) NOT NULL,
|
||||||
|
StartStudy INT NOT NULL,
|
||||||
|
SubjectName [NVARCHAR](15) NOT NULL
|
||||||
|
)
|
||||||
|
|
||||||
|
Následne som do tejto tabuľky pridal 15 záznamoch o študentoch. Tento skript nájdete v prílohe pod názvom **Insert_table.sql**
|
||||||
|
|
||||||
|
Neskôr som už len vytvoril select, ktorým som si vyskúšal či sa dané dáta nachádzajú v tabuľke.
|
||||||
|
|
||||||
|
SELECT * FROM studenti;
|
||||||
|
|
||||||
|
## Vytvorenie Azure Cognitive Search
|
||||||
|
|
||||||
|
Azure Cognitive search je kladudová vyhľadávacia služba, ktorá poskytuje vývojárom API (Aplication Programming Interface) nástroj na jednoduché vytvorenie vyhľadávania na stránke. Rozhranie API a architektúra kognitívneho vyhľadávania zjednodušuje úlohu pri pridávaní sofistikovaného vyhľadávania informácii.
|
||||||
|
|
||||||
|
Vytvorenie ACS som realizoval pomocou portálu **Microsoft Azure**. Vypĺňanie formulárov je celkom jednoduché, ale má jednu chybu. Ide o chybu spojenú s firmou Microsoft, ktorá pri študenských vytvára preddefinovanú databázu hotelov. Firme ide o to, aby používateľ pri vytvorení databázy dokázal aj vyhľadávať údaje v danej databáze. Na vytvorenie ACS som vytvoril jednoduchý tutoriál, ktorý nájdete v nasledujúcom linku.
|
||||||
|
|
||||||
|
[Vytvorenie ACS](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_azure_cognitive_search.md)
|
||||||
|
|
||||||
|
|
||||||
|
## Vytorennie indexu v ACS
|
||||||
|
|
||||||
|
Index tvorí základnú časť pre vyhľadávanie v ACS. Pri vytváraní indexu, je potrebné mať vytvorenú databázu, do ktorej sa index zapíše. Pokiaľ nemáte takto vytvorenú databázu, tak dokážete vytvoriť index iba na hotely, ktoré sú predefinované pri vytvorení. Vyhľadávanie v indexe a aj práca s ním, napr. napísanie skriptu vyžaduje znalosť používania nástoroja *JSON* Vytvorenie indexu som realizoval na portáli **Microsoft Azure** a vytvoril som aj k tomu tutoriál, ktorý nájdete po kliknutí na nasledujúci link. [Vytvorenie indexu](https://git.kemt.fei.tuke.sk/KEMT/zpwiki/src/branch/master/pages/students/2019/michal_stromko/vp2021/tutorials/create_index.md)
|
@ -0,0 +1,47 @@
|
|||||||
|
# Vytvorenie sql databazy
|
||||||
|
|
||||||
|
|
||||||
|
# Set the resource group name and location for your server
|
||||||
|
resourceGroupName=myResourceGroup
|
||||||
|
location=eastus
|
||||||
|
|
||||||
|
# Set an admin login and password for your database
|
||||||
|
adminlogin=azureuser
|
||||||
|
password=Azure1234567!
|
||||||
|
|
||||||
|
# Set a server name that is unique to Azure DNS (<server_name>.database.windows.net)
|
||||||
|
serverName=server-$RANDOM
|
||||||
|
|
||||||
|
# Set the ip address range that can access your database
|
||||||
|
startip=0.0.0.0
|
||||||
|
endip=0.0.0.0
|
||||||
|
|
||||||
|
# Create a resource Group
|
||||||
|
az group create --name $resourceGroupName --location $location
|
||||||
|
|
||||||
|
# Create a server
|
||||||
|
az sql server create \
|
||||||
|
--name $serverName \
|
||||||
|
--resource-group $resourceGroupName \
|
||||||
|
--location $location \
|
||||||
|
--admin-user $adminlogin \
|
||||||
|
--admin-password $password
|
||||||
|
|
||||||
|
# Configure a firewall rule for server
|
||||||
|
az sql server firewall-rule create \
|
||||||
|
--resource-group $resourceGroupName \
|
||||||
|
--server $serverName \
|
||||||
|
-n AllowYourIp \
|
||||||
|
--start-ip-address $startip \
|
||||||
|
--end-ip-address $endip
|
||||||
|
|
||||||
|
# Create a single database with Azure CLI
|
||||||
|
az sql db create \
|
||||||
|
--resource-group $resourceGroupName \
|
||||||
|
--server $serverName \
|
||||||
|
--name mySampleDatabase \
|
||||||
|
--sample-name AdventureWorksLT \
|
||||||
|
--edition GeneralPurpose \
|
||||||
|
--compute-model Serverless \
|
||||||
|
--family Gen5 \
|
||||||
|
--capacity 2
|
@ -0,0 +1,98 @@
|
|||||||
|
{
|
||||||
|
"id": "/subscriptions/34363077-8695-4c14-9ae5-dc305fe8e4ef/resourceGroups/myResourceGroup",
|
||||||
|
"location": "eastus",
|
||||||
|
"managedBy": null,
|
||||||
|
"name": "myResourceGroup",
|
||||||
|
"properties": {
|
||||||
|
"provisioningState": "Succeeded"
|
||||||
|
},
|
||||||
|
"tags": null,
|
||||||
|
"type": "Microsoft.Resources/resourceGroups"
|
||||||
|
}
|
||||||
|
{\ Finished ..
|
||||||
|
"administratorLogin": "azureuser",
|
||||||
|
"administratorLoginPassword": null,
|
||||||
|
"fullyQualifiedDomainName": "server-22752.database.windows.net",
|
||||||
|
"id": "/subscriptions/34363077-8695-4c14-9ae5-dc305fe8e4ef/resourceGroups/myResourceGroup/providers/Microsoft.Sql/servers/server-22752",
|
||||||
|
"identity": null,
|
||||||
|
"kind": "v12.0",
|
||||||
|
"location": "eastus",
|
||||||
|
"minimalTlsVersion": null,
|
||||||
|
"name": "server-22752",
|
||||||
|
"privateEndpointConnections": [],
|
||||||
|
"publicNetworkAccess": "Enabled",
|
||||||
|
"resourceGroup": "myResourceGroup",
|
||||||
|
"state": "Ready",
|
||||||
|
"tags": null,
|
||||||
|
"type": "Microsoft.Sql/servers",
|
||||||
|
"version": "12.0"
|
||||||
|
}
|
||||||
|
{
|
||||||
|
"endIpAddress": "0.0.0.0",
|
||||||
|
"id": "/subscriptions/34363077-8695-4c14-9ae5-dc305fe8e4ef/resourceGroups/myResourceGroup/providers/Microsoft.Sql/servers/server-22752/firewallRules/AllowYourIp",
|
||||||
|
"kind": "v12.0",
|
||||||
|
"location": "East US",
|
||||||
|
"name": "AllowYourIp",
|
||||||
|
"resourceGroup": "myResourceGroup",
|
||||||
|
"startIpAddress": "0.0.0.0",
|
||||||
|
"type": "Microsoft.Sql/servers/firewallRules"
|
||||||
|
}
|
||||||
|
{- Finished ..
|
||||||
|
"autoPauseDelay": 60,
|
||||||
|
"backupStorageRedundancy": "Geo",
|
||||||
|
"catalogCollation": "SQL_Latin1_General_CP1_CI_AS",
|
||||||
|
"collation": "SQL_Latin1_General_CP1_CI_AS",
|
||||||
|
"createMode": null,
|
||||||
|
"creationDate": "2021-04-27T08:23:55.797000+00:00",
|
||||||
|
"currentServiceObjectiveName": "GP_S_Gen5_2",
|
||||||
|
"currentSku": {
|
||||||
|
"capacity": 2,
|
||||||
|
"family": "Gen5",
|
||||||
|
"name": "GP_S_Gen5",
|
||||||
|
"size": null,
|
||||||
|
"tier": "GeneralPurpose"
|
||||||
|
},
|
||||||
|
"databaseId": "db785b2c-f171-4386-8c89-4056785756d0",
|
||||||
|
"defaultSecondaryLocation": "westus",
|
||||||
|
"earliestRestoreDate": null,
|
||||||
|
"edition": "GeneralPurpose",
|
||||||
|
"elasticPoolId": null,
|
||||||
|
"elasticPoolName": null,
|
||||||
|
"failoverGroupId": null,
|
||||||
|
"highAvailabilityReplicaCount": null,
|
||||||
|
"id": "/subscriptions/34363077-8695-4c14-9ae5-dc305fe8e4ef/resourceGroups/myResourceGroup/providers/Microsoft.Sql/servers/server-22752/databases/mySampleDatabase",
|
||||||
|
"kind": "v12.0,user,vcore,serverless",
|
||||||
|
"licenseType": null,
|
||||||
|
"location": "eastus",
|
||||||
|
"longTermRetentionBackupResourceId": null,
|
||||||
|
"maintenanceConfigurationId": "/subscriptions/34363077-8695-4c14-9ae5-dc305fe8e4ef/providers/Microsoft.Maintenance/publicMaintenanceConfigurations/SQL_Default",
|
||||||
|
"managedBy": null,
|
||||||
|
"maxLogSizeBytes": 68719476736,
|
||||||
|
"maxSizeBytes": 34359738368,
|
||||||
|
"minCapacity": 0.5,
|
||||||
|
"name": "mySampleDatabase",
|
||||||
|
"pausedDate": null,
|
||||||
|
"readScale": "Disabled",
|
||||||
|
"recoverableDatabaseId": null,
|
||||||
|
"recoveryServicesRecoveryPointId": null,
|
||||||
|
"requestedServiceObjectiveName": "GP_S_Gen5_2",
|
||||||
|
"resourceGroup": "myResourceGroup",
|
||||||
|
"restorableDroppedDatabaseId": null,
|
||||||
|
"restorePointInTime": null,
|
||||||
|
"resumedDate": null,
|
||||||
|
"sampleName": null,
|
||||||
|
"secondaryType": null,
|
||||||
|
"sku": {
|
||||||
|
"capacity": 2,
|
||||||
|
"family": "Gen5",
|
||||||
|
"name": "GP_S_Gen5",
|
||||||
|
"size": null,
|
||||||
|
"tier": "GeneralPurpose"
|
||||||
|
},
|
||||||
|
"sourceDatabaseDeletionDate": null,
|
||||||
|
"sourceDatabaseId": null,
|
||||||
|
"status": "Online",
|
||||||
|
"tags": null,
|
||||||
|
"type": "Microsoft.Sql/servers/databases",
|
||||||
|
"zoneRedundant": false
|
||||||
|
}
|
Loading…
Reference in New Issue
Block a user