Spotkanie 2013.11.07

dr inż. Anna Zygmunt, mgr inż. Bogdan Gliwa, Dariusz Mydlarz

przetestowano crawlera od p. Gliwy
na podstawie tego kodu został stworzony nowy kod crawlera (zmieniono typ projektu na projekt maven-owy, usunięto zbędny kod - komentarze, nieużywane metody)
napisano sporo logiki odnośnie crawlowania pod kątem danych z meczów piłkarskich
https://github.com/dmydlarz/pracamgr/tree/master/twitter-crawler
utworzono schemat bazy danych w dwóch wariantach - uproszczonym i rozbudowanym (więcej)
zaczęto ściągać dane (więcej)
zastanowiono się co ściągamy
jako słowa kluczowe warto ściągać: nazwy drużyn, nazwiska menedżerów, nazwiska piłkarzy, miejsce meczu (stadion), nazwisko głównego arbitra, nazwy oficjalnych kont zespołów, menedżerów, piłkarzy, popularne określenia, przezwiska tychże
znaleziono angielski słownik do sentymentu (WordNet)

pobierać do bazy danych także wpisy bez geolokalizacji - będzie można pokazać procentowo ile takich wpisów jest
ograniczyć liczbę słów kluczowych per mecz a zwiększyć liczbę obserwowanych spotkań
ściągać zarówno mecze Premiership jak i Ligi Mistrzów -> będzie można pokazać zróżnicowanie wpisów
skupić się raczej na bardziej popularnych drużynach, spotkaniach
pokazać w jakich godzinach jest sens zacząć nasłuchiwać mecz (np. że nie ma sensu 6 godzin przed meczem bo wpisów jest i tak mało)

zrobić przegląd słowników angielskich do sentymentu -> stworzyć odpowiedni dokument na ten temat
sprawdzić jakie są wykorzystywane do badania wpisów na Twitterze
spróbować znaleźć słownik z emotikonami
spróbować znaleźć jakieś konferencje na ten temat

przygotować dane dotyczące użytkowników mających najwięcej wpisów: całościowo, z podziałami na mecze, itp.
ilu jest użytkowników na wszystkie wpisy
ile osób ma niewiele wpisów (1, 2, 3) - pokazać procentowo jakie to są wielkości

Provide feedback