Public:Tematy prac magisterskich

Z CeON Research


Poniżej znajdują się propozycje tematów prac magisterskich z informatyki, które można realizować pod opieką pracowników ICM UW na dowolnej warszawskiej uczelni. Gorąco zachęcamy studentów stojących przed wyborem tematu pracy magisterskiej do kontaktu z nami!

Jeśli masz pomysł na inną pracę magisterską związaną z naszą działalnością — super! — napisz maila do Łukasza Bolikowskiego (l.bolikowski@icm.edu.pl).

Analiza sentymentu odnośników bibliograficznych

Opis: Naukowcy są współcześnie oceniani między innymi na podstawie liczby cytowań ich prac, bazuje na tym na przykład indeks Hirscha. W obliczaniu tej wartości pomija się kontekst cytowania, można żartobliwie powiedzieć: "nieważne, czy mówią dobrze czy źle, ważne żeby nazwiska nie przekręcili". Celem pracy jest opracowanie metody, która pozwoliłaby klasyfikować "typ" cytowania:

  • czy cytuje, bo zastosowano metodę opisaną w cytowanej pracy?
  • czy cytuje, podważono wnioski opisane w cytowanej pracy?
  • a może osiągnięto lepszy wynik niż cytowana praca?

Celem pracy będzie zastosowanie analizy wydźwięku (ang. sentiment analysis) do klasyfikacji cytowań. W przyszłości można będzie zastosować opracowany algorytm do scjentometrycznej analizy sieci cytowań literatury naukowej.

Słowa kluczowe: analiza sentymentu, odnośniki bibliograficzne

Literatura:

  1. Small, Henry (2011) Interpreting maps of science using citation context sentiments: a preliminary investigation, Scientometrics 87:373-388
  2. Bertin & Atanassova (2012) Semantic Enrichment of Scientific Publications and Metadata: Citation Analysis Through Contextual and Cognitive Analysis

Opiekun: dr Łukasz Bolikowski (l.bolikowski@icm.edu.pl)

Automatyczne pozyskiwanie wiedzy na temat wielkości fizycznych z publikacji naukowych

Opis: Tematem pracy jest opracowanie algorytmu i prototypowego oprogramowania wydobywającego informacje na temat wielkości fizycznych i relacji między nimi z artykułów naukowych w dostępnych w formacie LaTeX. Pozyskiwana wiedza może obejmować:

  • symbole nadawane poszczególnym wielkościom opisanym w języku naturalnym,
  • wartości danej wielkości fizycznej wykorzystane w artykule,
  • wyszukiwanie publikacji zawierających równania/wykresy wiążące zadane wielkości fizyczne itp.

Praca będzie związana z analizą tekstów w języku angielskim i intensywnym wykorzystywaniem technik text mining.

Słowa kluczowe: uczenie maszynowe, przetwarzanie tekstu, automatyczne odkrywanie wiedzy w dokumentach

Opiekun: dr Michał Łopuszyński (m.lopuszynski@icm.edu.pl)

Automatyczne pozyskiwanie wiedzy z tabel zawartych w publikacjach naukowych

Opis: W literaturze można znaleźć interesujące badania dotyczące automatycznej analizy tabel dostępnych na na stronach WWW, zobacz np. [1,2]. Przykładowe zagadnienia obejmują:

  • analizę współwystępowania kluczy i atrybutów w tabelach,
  • opracowanie technik automatycznego łączenia danych z różnych tabel,
  • automatyczne podpowiadanie nazw nowych kolumn (tak żeby były zgodne z najczęstszą praktyką i żeby łatwiej poddawały się automatycznemu łączeniu) itp.

Dysponując dużym zbiorem tabel z artykułów w LaTeXu można pokusić się o opracowanie podobnej funkcjonalności zorientowanej na artykuły naukowe. Praca będzie związana z analizą tekstów w języku angielskim i intensywnym wykorzystywaniem technik text mining.

Słowa kluczowe: uczenie maszynowe, przetwarzanie tekstu, automatyczne odkrywanie wiedzy w dokumentach

Literatura

  1. Unreasonable Effectivness of Data by P. Norvig et al
  2. WebTables: exploring the power of tables on the web, M. J. Cafarella et al

Opiekun: dr Michał Łopuszyński (m.lopuszynski@icm.edu.pl)

Kompleksowy zbiór do uczenia algorytmów wydobywania metadanych

Opis: Istnieje kilka projektów stawiających sobie za cel wydobycie możliwie dużej ilości możliwie dokładnych metadanych (tytuł, autorzy, streszczenie, rok publikacji, itp.) z plików PDF zawierających publikacje naukowe. Zazwyczaj wydobywanie metadanych jest wynikiem ciągu kilku/kilkunastu kroków, z których każdy wykorzystuje techniki uczenia maszynowego. Celem pracy jest opracowanie zbiorów uczących, które pozwoliłyby na kalibrację algorytmów uczenia maszynowego stosowanych w poszczególnych krokach, oraz porównywanie jakości całych rozwiązań. W pracy wykorzystany zostanie pozdbiór Open Access kolekcji PubMed Central, zawierający ponad pół miliona publikacji naukowych w postaci plików PDF oraz bogate metadane w postaci plików XML.

Słowa kluczowe: ewaluacja, uczenie maszynowe, wydobywanie metadanych

Opiekun: dr Łukasz Bolikowski (l.bolikowski@icm.edu.pl)

Metody wizualizacji dynamicznych danych sieciowych

Opis: Analiza sieci społecznych jest względnie nowym interdyscyplinarnym obszarem badań, w którym struktury relacji pomiędzy ludźmi bądź organizacjami poddaje się rygorystycznej analizie metodami matematycznymi i statystycznymi. Wizualizacja sieci jest ważnym elementem eksplorowania danych sieciowych. Aktualne metody i algorytmy wizualizacji sieci pozwalają efektywnie wizualizować grafy różnych rozmiarów, mają jednak charakter czysto statyczny. W szczególności, trudno je zastosować do wizualizacji grafów, które zmieniają się w czasie (przybywanie i ubywanie węzłów i/lub relacji, zmiany atrybutów węzłów i/lub relacji). Tylko niektóre opracowane metody wizualizacji dynamicznych danych sieciowych (Brandes et al. 2012, Moody et al 2005) doczekały się implementacji. Z kolei istniejące implementacje nie pozwalają na łatwe modyfikacje algorytmów jak również integrację tych narzędzi z innym oprogramowaniem.

Celem pracy jest przegląd istniejących metod wizualizacji danych sieciowych oraz modyfikacja wybranego algorytmu (bądź algorytmów) do wizualizacji danych dynamicznych.

Język R stał się "lingua franca" statystycznej analizy i wizualizacji danych. W ciągu ostatnich lat powstało kilka rozszerzeń R (pakietów) umożliwiających analizę sieci społecznych ("Social Network Analysis", Wasserman & Faust 1994). Planowanym efektem ubocznym projektu (poza pracą dyplomową) będzie pakiet R implementujący wybrane algorytmy wizualizacji dynamicznych danych sieciowych.

Słowa kluczowe: sieci społeczne, wizualizacja, R

Literatura:

  1. Ulrik Brandes, Natalie Indlekofer and Martin Mader (2012) Visualization Methods for Longitudinal Social Networks and Stochastic Actor-Oriented Modeling. Social Networks 34(3):291-308
  2. J Moody, D McFarland, S Bender-deMoll (2005) Dynamic network visualization, American Journal of Sociology 110(4):1206-1241
  3. Wasserman S., Faust K. (1994) Social Network Analysis, Cambridge University Press.

Opiekun: dr Michał Bojanowski (m.bojanowski@icm.edu.pl)

Skalowalny algorytm klastrowania do analizy odnośników w Wikipedii

Opis: Odnośniki międzyjęzykowe (tzw. interwiki links) wskazują odpowiadające sobie strony w różnych wersjach językowych Wikipedii (np. pl:Warszawaen:Warsaw). Odnośniki te zawierają wiele błędów (wiążą artykuły o różnych tematach), a ponadto, ze względu na decentralizację poszczególnych wersji językowych czasami "nie trafiają w siebie". Celem pracy jest zaprojektowanie i zastosowanie wysoce skalowalnych algorytmów klastrowania do identyfikacji wątpliwych linków. Ze względu na rozmiar badanej sieci (dziesiątki milionów węzłów, setki milionów krawędzi, największa spójna składowa rzędu stu tysięcy węzłów) algorytmy klastrowania będą wykorzystywały paradygmat MapReduce.

Słowa kluczowe: algorytmy grafowe, Wikipedia, paradygmat MapReduce

Opiekun: dr Łukasz Bolikowski (l.bolikowski@icm.edu.pl)

Skuteczność stosowania tekstu wokół odnośników bibliograficzych do indeksowania cytowanych publikacji naukowych

Opis: Publikacje naukowe w bibliotekach cyfrowych zazwyczaj indeksowane są słowami występującymi w pełnym tekście dokumentu. W przypadku indeksowania stron internetowych stosuje się inne podejście: strona indeksowana jest przez tzw. "archor text" odnośników do niej. Celem pracy byłoby przeprowadzenie eksperymentu polegającego na zastosowaniu techniki stosowanej w indeksowaniu stron WWW (powiązanych linkami) do indeksowania publikacji naukowych (powiązanych odnośnikami bibliograficznymi), oraz oszacowanie skuteczności i zakresu stosowalności zaproponowanego alternatywnego podejścia.

Słowa kluczowe: indeksowanie dokumentów, indeksowanie stron internetowych, przetwarzanie tekstu

Literatura

  1. Brin, S. and Page, L. (1998) The Anatomy of a Large-Scale Hypertextual Web Search Engine. In: Seventh International World-Wide Web Conference (WWW 1998), April 14-18, 1998, Brisbane, Australia.

Opiekun: dr Łukasz Bolikowski (l.bolikowski@icm.edu.pl)