Skip to content

Spotkanie 2013.11.07

dmydlarz edited this page Nov 7, 2013 · 7 revisions

Obecni

dr inż. Anna Zygmunt, mgr inż. Bogdan Gliwa, Dariusz Mydlarz


Zrobiono

  • przetestowano crawlera od p. Gliwy
  • na podstawie tego kodu został stworzony nowy kod crawlera (zmieniono typ projektu na projekt maven-owy, usunięto zbędny kod - komentarze, nieużywane metody)
  • napisano sporo logiki odnośnie crawlowania pod kątem danych z meczów piłkarskich
  • https://github.com/dmydlarz/pracamgr/tree/master/twitter-crawler
  • utworzono schemat bazy danych w dwóch wariantach - uproszczonym i rozbudowanym (więcej)
  • zaczęto ściągać dane (więcej)
  • zastanowiono się co ściągamy
  • jako słowa kluczowe warto ściągać: nazwy drużyn, nazwiska menedżerów, nazwiska piłkarzy, miejsce meczu (stadion), nazwisko głównego arbitra, nazwy oficjalnych kont zespołów, menedżerów, piłkarzy, popularne określenia, przezwiska tychże
  • znaleziono angielski słownik do sentymentu (WordNet)

Na spotkaniu

Zbieranie danych

  • pobierać do bazy danych także wpisy bez geolokalizacji - będzie można pokazać procentowo ile takich wpisów jest
  • ograniczyć liczbę słów kluczowych per mecz a zwiększyć liczbę obserwowanych spotkań
  • ściągać zarówno mecze Premiership jak i Ligi Mistrzów -> będzie można pokazać zróżnicowanie wpisów
  • skupić się raczej na bardziej popularnych drużynach, spotkaniach
  • pokazać w jakich godzinach jest sens zacząć nasłuchiwać mecz (np. że nie ma sensu 6 godzin przed meczem bo wpisów jest i tak mało)

Analiza sentymentu

  • zrobić przegląd słowników angielskich do sentymentu -> stworzyć odpowiedni dokument na ten temat
  • sprawdzić jakie są wykorzystywane do badania wpisów na Twitterze
  • spróbować znaleźć słownik z emotikonami
  • spróbować znaleźć jakieś konferencje na ten temat

Statystyki

  • przygotować dane dotyczące użytkowników mających najwięcej wpisów: całościowo, z podziałami na mecze, itp.
  • ilu jest użytkowników na wszystkie wpisy
  • ile osób ma niewiele wpisów (1, 2, 3) - pokazać procentowo jakie to są wielkości