Nástroje na spracovanie slovenského textu
Projekt NLP4SK poskytuje experimentalne NLP nástroje pre spracovanie slovenského jazyka (slovenčiny).
Základné úlohy: tokenizácia, identifikácia slov, extrakcia viet, lematizácia, určovanie slovných druhov a gramatických kategórií (POS), identifikácia názvoslovných entít (NER), obnova diakritiky, rekonštrukcia textu, analýza sentimentu, ...
Slovenské NLP nástroje online
Tu si môžete vyskúšať jednotlivé NLP nástroje cez webové rozhranie.
Úlohy a služby pre spracovanie textu (NLP)
Pod skratkou NLP (angl. Natural Language Processing) rozumieme spracovanie prirodzeného jazyka - teda jazyka, ktorým hovoria ľudia (napr. vo forme textu alebo reči). Nástroj NLP4SK slúži na analýzu textu napísaného v slovenskom jazyku. Pokrýva viacero služieb od identifikácie slov po určenie informácií o jednotlivých slovách.
Nástroj NLP4SK v súčasnosti poskytuje niekoľko služieb:
Predspracovanie textu: vyčistenie textu od netextových častí (napr. referencií).
Segmentácia textu na vety a slová: identifikáca slov a začiatku/konca vety
Lexikálna analýza: identifikácia slov v slovníku
Lematizácia (angl. lemmatization): určenie základných tvarov slov
Stemovanie (angl. stemming): určenie koreňov slov
Syntaktická analýza (angl. POS tagging): určenie významu slova vo vete, teda slovný druh a gramatické kategórie slov
Sémantická analýza: identifikácia a extrakcia názvoslovných entít (angl. Named Entity Recognition, NER), dátumov, časov, číselných údajov a pod.
Identifikácia a analýza sentimentu (angl. sentiment analysis, opinion mining): určovanie sentimentu slov/viet (či je text pozitívny alebo negatívny)
Analýza toxicity a slušnosti (angl. toxicity analysis): určovanie toxicity (neslušné a nevhodné vyjadrovanie), identifikácia vhodnosti textu
Rekonštrukcia textu: napríklad rekonštrukcia diakritiky, skratiek alebo nespisovných slov
Identifikácia vzťahov medzi slovami v texte: napr. odkazovanie na slová zámenami (angl. Corefererence resolution)
NLP - spracovanie slovenčiny
NLP ako služba, NLP as a Service, spracovanie textu, spracovanie slovenčiny...