Vlastný vyhľadávač webu od NLP4SK
Vyhľadávací nástroj poskytujúci inteligentné indexovanie webových stránok pre potreby vyhľadávania.
Výhody
- vlastná integrácia (prispôsobenie vzhľadu formulára a výsledkov vyhľadávania)
- okamžitá aktualizácia prehľadávaného obsahu (zmeny je možné kedykoľvek zahrnúť do vyhľadávania)
- vlastný výber stránok, ktoré sa majú zahrnúť do vyhľadávača a ktoré vynechať (na základe zoznamu URL alebo URL vzorov)
- určenie sekcií, ktoré sa z indexovania vynechajú (napr. opakujúce sa sekcie ako úvodný banner, navigácia či záhlavie stránky a pod.)
- inteligentný výpočet relevancie slov na základe pozície (nadpis, obsah, popis obrázku...)
- zohľadnenie slov z meta značiek a titulku stránky
- výber stop slov v rámci domény (slová, ktoré nie su relevnanté napr. z dôvodu, že sa nachádzajú všade)
- konfigurácie pravidiel pre tvorbu indexu (zohľadnenie diakritiky, zohľadnenie veľkosti písmen, zahrnutie čísel, nastavenie min. dĺžky slov ...)
- extrakcia hierarchie z navigácie (tzv. breadcrumb) (zdrojový kód musí byť validný podľa špecifikácie schema.org (BreadcrumbList a ListItem)
- rozhranie pre správu: evidencia podstránok a vzájomných prepojení
- identifikácia neplatných odkazov
V príprave
- manuálna správa dokumentu (pridanie vlastných kľúčových slov)
- manuálne odstránenie dokumentu
- lematizácia slovenských slov
- kategorizovanie výsledkov na základe kategórii podstránok
Limity
- počet stránok
Možnosti nasadenia
(V príprave)
- statický web (web, ktorého obsah sa mení len občasne): export/import dát pre fultextové vyhľadávanie v obsahu
- dynamický web (web, ktorý sa často mení):
- manuálna synchronizácia pomocou API (možnosť nastavenia, ktoré stránky sa menia)
- automatická synchronizácia