Nástroje na spracovanie slovenského textu

Projekt NLP4SK poskytuje experimentalne NLP nástroje pre spracovanie slovenského jazyka (slovenčiny).

Základné úlohy: tokenizácia, identifikácia slov, extrakcia viet, lematizácia, určovanie slovných druhov a gramatických kategórií (POS), identifikácia názvoslovných entít (NER), obnova diakritiky, rekonštrukcia textu, analýza sentimentu, ...

Slovenské NLP nástroje online

Tu si môžete vyskúšať jednotlivé NLP nástroje cez webové rozhranie.

Úlohy a služby pre spracovanie textu (NLP)


Pod skratkou NLP (angl. Natural Language Processing) rozumieme spracovanie prirodzeného jazyka - teda jazyka, ktorým hovoria ľudia (napr. vo forme textu alebo reči). Nástroj NLP4SK slúži na analýzu textu napísaného v slovenskom jazyku. Pokrýva viacero služieb od identifikácie slov po určenie informácií o jednotlivých slovách.

Nástroj NLP4SK v súčasnosti poskytuje niekoľko služieb:

  • Predspracovanie textu: vyčistenie textu od netextových častí (napr. referencií).

  • Segmentácia textu na vety a slová: identifikáca slov a začiatku/konca vety

  • Lexikálna analýza: identifikácia slov v slovníku

  • Lematizácia (angl. lemmatization): určenie základných tvarov slov

  • Stemovanie (angl. stemming): určenie koreňov slov

  • Syntaktická analýza (angl. POS tagging): určenie významu slova vo vete, teda slovný druh a gramatické kategórie slov

  • Sémantická analýza: identifikácia a extrakcia názvoslovných entít (angl. Named Entity Recognition, NER), dátumov, časov, číselných údajov a pod.

  • Identifikácia a analýza sentimentu (angl. sentiment analysis, opinion mining): určovanie sentimentu slov/viet (či je text pozitívny alebo negatívny)

  • Analýza toxicity a slušnosti (angl. toxicity analysis): určovanie toxicity (neslušné a nevhodné vyjadrovanie), identifikácia vhodnosti textu

  • Rekonštrukcia textu: napríklad rekonštrukcia diakritiky, skratiek alebo nespisovných slov

  • Identifikácia vzťahov medzi slovami v texte: napr. odkazovanie na slová zámenami (angl. Corefererence resolution)

NLP - spracovanie slovenčiny

NLP ako služba, NLP as a Service, spracovanie textu, spracovanie slovenčiny...