Spis treści

Marcin Kuta

Zaproszenie na obronę pracy doktorskiej

DZIEKAN i RADA WYDZIAŁU
ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI i ELEKTRONIKI
AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE
zapraszają na
publiczą dyskusję nad rozprawą doktorską

mgr inż. Marcina Kuty
Tagging and Corpus based Methods for improving
Natural Language Processing of Polish
Dyskusja odbędzie się 25 lutego 2011 roku o godz. 12:00, al. Mickiewicza 30, pawilon C-2, sala 429
PROMOTOR: Prof. dr hab. inż. Jacek Kitowski - Akademia Górniczo-Hutnicza
RECENZENCI: Dr hab. inż. Marek Skomorowski, prof. n. UJ - Uniwesytet Jagielloński
Prof. dr hab. Wiesław Lubaszewski - Akademia Górniczo-Hutnicza
Z rozprawą doktorską i opiniami recenzentów można się zapoznać
w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30



Streszczenie

Tagging and Corpus based Methods for improving Natural Language Processing of Polish

Metody tagowania oraz metody korpusowe w maszynowym przetwarzaniu języka polskiego

mgr inż. Marcin Kuta


Promotor: prof. dr hab. inż. Jacek Kitowski - Akademia Górniczo-Hutnicza
Dyscyplina: Informatyka

Przetwarzanie języka naturalnego to dziedzina zajmująca się takimi problemami jak tłumaczenie maszynowe, pozyskiwanie i ekstrakcja wiedzy, automatyczne rozumienie języka. Rosnące zainteresowanie przetwarzaniem języka naturalnego wynika z zapotrzebowania na coraz doskonalsze sposoby komunikacji na styku człowiek-komputer.

Praca dotyczy zastosowania metod tagowania częściami mowy oraz metod korpusowych do automatycznego przetwarzania języka polskiego. Algorytmy tagowania częściami mowy są ważnym elementem dla większości problemów przetwarzania języka naturalnego. Zasoby korpusowe są niezbędne w automatycznym przetwarzaniu języka naturalnego. W przypadku języka polskiego zarówno algorytmy tagowania jak i istniejące korpusy nie są tak doskonałe jak dla języka angielskiego.

W pracy zaproponowano nowe metody tagowania częściami mowy oraz wybrano najbardziej odpowiednie dla języka polskiego. Zaproponowano także metodę poprawy korpusów odpowiednią dla języków fleksyjnych oraz stworzono ulepszony korpus na bazie istniejącego korpusu języka polskiego. Algorytmy tagowania zastosowano do klasteryzacji dokumentów w języku polskim w modelu przestrzeni wektorowej a następnie zbadano wpływ Ukrytej Analizy Semantycznej na jakość klasteryzacji.



Autoreferat

Pełna wersja autoreferatu autoreferat_kuta.pdf.


Ważniejsze publikacje dokotoranta

  1. Kuta M., Chrząszcz P., Kitowski J.: Increasing quality of the Corpus of Frequency Dictionary of Contemporary Polish for morphosyntactic tagging of the Polish language, Computing and Informatics 28, 3 (2009), pp. 319-338
  2. Kuta M., Wójcik M., Wrzeszcz M., Kitowski J.: Application of stacked methods to part-of-speech tagging of Polish, In Proceedings of the 8th International Conference on Parallel Processing and Applied Mathematics (PPAM 2009), Wrocław, 2010, pp. 340-349
  3. Kuta M., Wójcik M., Wrzeszcz M., Kitowski J.: Application of weighted voting taggers to languages described with large tagsets, Computing and Informatics 29, 2 (2010), pp. 203-225
  4. Kuta M., Kitowski J.: Clustering Polish Texts with Latent Semantic Analysis, In Proceedings of the 10th International Conference on Artificial Intelligence and Soft Computing (ICAISC 2010), Zakopane, 2010, pp. 532-539
  5. Kuta M., Kitowski J.: Benchmarking high performance architectures with natural language processing algorithms, In Proceedings of the 3rd Conference of the High Performance Computers' Users, Zakopane, 2010, p. 32