| DZIEKAN i RADA WYDZIAŁU ELEKTROTECHNIKI, AUTOMATYKI, INFORMATYKI i ELEKTRONIKI AKADEMII GÓRNICZO-HUTNICZEJ im. ST. STASZICA W KRAKOWIE |
|---|
| zapraszają na publiczą dyskusję nad rozprawą doktorską mgr inż. Marcina Kuty |
| Tagging and Corpus based Methods for improving Natural Language Processing of Polish |
| Dyskusja odbędzie się 25 lutego 2011 roku o godz. 12:00, al. Mickiewicza 30, pawilon C-2, sala 429 |
| PROMOTOR: Prof. dr hab. inż. Jacek Kitowski - Akademia Górniczo-Hutnicza |
| RECENZENCI: Dr hab. inż. Marek Skomorowski, prof. n. UJ - Uniwesytet Jagielloński |
| Prof. dr hab. Wiesław Lubaszewski - Akademia Górniczo-Hutnicza |
| Z rozprawą doktorską i opiniami recenzentów można się zapoznać w Czytelni Biblioteki Głównej AGH, al. Mickiewicza 30 |
Tagging and Corpus based Methods for improving Natural Language Processing of Polish
Metody tagowania oraz metody korpusowe w maszynowym przetwarzaniu języka polskiego
mgr inż. Marcin Kuta
Promotor: prof. dr hab. inż. Jacek Kitowski - Akademia Górniczo-Hutnicza
Dyscyplina: Informatyka
Przetwarzanie języka naturalnego to dziedzina zajmująca się takimi problemami jak tłumaczenie maszynowe, pozyskiwanie i ekstrakcja wiedzy, automatyczne rozumienie języka. Rosnące zainteresowanie przetwarzaniem języka naturalnego wynika z zapotrzebowania na coraz doskonalsze sposoby komunikacji na styku człowiek-komputer.
Praca dotyczy zastosowania metod tagowania częściami mowy oraz metod korpusowych do automatycznego przetwarzania języka polskiego. Algorytmy tagowania częściami mowy są ważnym elementem dla większości problemów przetwarzania języka naturalnego. Zasoby korpusowe są niezbędne w automatycznym przetwarzaniu języka naturalnego. W przypadku języka polskiego zarówno algorytmy tagowania jak i istniejące korpusy nie są tak doskonałe jak dla języka angielskiego.
W pracy zaproponowano nowe metody tagowania częściami mowy oraz wybrano najbardziej odpowiednie dla języka polskiego. Zaproponowano także metodę poprawy korpusów odpowiednią dla języków fleksyjnych oraz stworzono ulepszony korpus na bazie istniejącego korpusu języka polskiego. Algorytmy tagowania zastosowano do klasteryzacji dokumentów w języku polskim w modelu przestrzeni wektorowej a następnie zbadano wpływ Ukrytej Analizy Semantycznej na jakość klasteryzacji.
Pełna wersja autoreferatu autoreferat_kuta.pdf.