NLP4SK: NLP as a Service

NLP nástroje pre spracovanie slovenského jazyka tokenizácia, identifikácia slov, udentifikácia viet, lematizácia, určovanie slovných druhov a gramatických kategórií (POS), identifikácia názvoslovných entít (NER), obnova diakritiky, rekonštrukcia textu, ...

Posledné aktualizácie

2019 - August (upgrade): API refaktoring nástrojov, aktualizovaná dokumentácia

Spracovanie slovenského textu


Pod skratkou NLP (angl. Natural Language Processing) rozumieme spracovanie prirodzeného jazyka - teda jazyka, ktorým hovoria ľudia (napr. vo forme textu alebo reči). Nástroj NLP4SK slúži na analýzu textu napísaného v slovenskom jazyku. Pokrýva viacero služieb od identifikácie slov po určenie informácií o jednotlivých slovách. Zoznam dostupných modulov nájdete nižšie v sekcii Spracovanie textu - moduly.

Nástroj NLP4SK v súčasnosti poskytuje niekoľko služieb:

  • Predspracovanie textu: vyčistenie textu od netextových častí (napr. referencií).

  • Segmentácia textu na vety a slová: identifikáca slov a začiatku/konca vety

  • Lexikálna analýza: identifikácia slov v slovníku

  • Lematizácia (angl. lemmatization): určenie základných tvarov slov

  • Stemovanie (angl. stemming): určenie koreňov slov

  • Syntaktická analýza (angl. POS tagging): určenie významu slova vo vete, teda slovný druh a gramatické kategórie slov

  • Sémantická analýza: identifikácia a extrakcia názvoslovných entít (angl. Named Entity Recognition, NER), dátumov, časov, číselných údajov a pod.

  • Identifikácia sentimentu (angl. sentiment analysis, opinion mining): určovanie sentimentu slov/viet (či je text pozitívny alebo negatívny)

  • Rekonšturkcia textu: napríklad rekonštrukcia diakritiky, skratiek alebo nespisovných slov

  • Identifikácia vzťahov medzi slovami v texte: napr. odkazovanie na slová zámenami (angl. Corefererence resolution)

Spracovanie textu - moduly


Text Preprocesing

Input cleaning

Characters sanitazion

...

Tokenization

WhitespaceTokenizer

WhitespaceAndPunctuationTokenizer

SmartRuleTokenizer

Restoration

DictionaryDiacriticRestorer

ProbabilisticDiacriticRestorer

AbbreviationRestorer


Lemmatization

DictionaryLemmatizer

ProbabilisticLemmatizer

 

Stemming

DictionaryStemmer

ProbabilisticStemmer

 

POS annotation

DictionaryPOSTagger

IntersectionPOSTagger

ProbabilisticPOSTagger


Semantic annotation

NER taggers: BasicNERTagger, ContextualNERTagger

SCR taggers: BasicSCRTagger

Number: NumberTagger, TemporalTagger

Relationship Tagger

Coreference Resolution

Appositions

...


Other

Sentiment analysis, Entity linking (Linked Open Data), ...