-
Notifications
You must be signed in to change notification settings - Fork 1
Spotkanie 2013.11.07
dmydlarz edited this page Nov 7, 2013
·
7 revisions
dr inż. Anna Zygmunt, mgr inż. Bogdan Gliwa, Dariusz Mydlarz
- przetestowano crawlera od p. Gliwy
- na podstawie tego kodu został stworzony nowy kod crawlera (zmieniono typ projektu na projekt maven-owy, usunięto zbędny kod - komentarze, nieużywane metody)
- napisano sporo logiki odnośnie crawlowania pod kątem danych z meczów piłkarskich
- https://github.com/dmydlarz/pracamgr/tree/master/twitter-crawler
- utworzono schemat bazy danych w dwóch wariantach - uproszczonym i rozbudowanym (więcej)
- zaczęto ściągać dane (więcej)
- zastanowiono się co ściągamy
- jako słowa kluczowe warto ściągać: nazwy drużyn, nazwiska menedżerów, nazwiska piłkarzy, miejsce meczu (stadion), nazwisko głównego arbitra, nazwy oficjalnych kont zespołów, menedżerów, piłkarzy, popularne określenia, przezwiska tychże
- znaleziono angielski słownik do sentymentu (WordNet)
- pobierać do bazy danych także wpisy bez geolokalizacji - będzie można pokazać procentowo ile takich wpisów jest
- ograniczyć liczbę słów kluczowych per mecz a zwiększyć liczbę obserwowanych spotkań
- ściągać zarówno mecze Premiership jak i Ligi Mistrzów -> będzie można pokazać zróżnicowanie wpisów
- skupić się raczej na bardziej popularnych drużynach, spotkaniach
- pokazać w jakich godzinach jest sens zacząć nasłuchiwać mecz (np. że nie ma sensu 6 godzin przed meczem bo wpisów jest i tak mało)
- zrobić przegląd słowników angielskich do sentymentu -> stworzyć odpowiedni dokument na ten temat
- sprawdzić jakie są wykorzystywane do badania wpisów na Twitterze
- spróbować znaleźć słownik z emotikonami
- spróbować znaleźć jakieś konferencje na ten temat
- przygotować dane dotyczące użytkowników mających najwięcej wpisów: całościowo, z podziałami na mecze, itp.
- ilu jest użytkowników na wszystkie wpisy
- ile osób ma niewiele wpisów (1, 2, 3) - pokazać procentowo jakie to są wielkości