Skip to content

Latest commit

 

History

History
40 lines (36 loc) · 2.07 KB

README.md

File metadata and controls

40 lines (36 loc) · 2.07 KB

#CSUAcademicSpider This is a spider basd on Scrapy to crawl some academic informations from academies' offical websites.
这是一个基于Scrapy框架的爬虫,主要是为了一个基于地理位置信息匹配相关数据的Andriod端APP做数据收集处理工作。
爬虫具体用于爬取中南几个大院的学术会议、讲座信息(时间,地点,类型,学院名等),处理后保存到了MySql数据库。

##Academic Item Definition

  • url:爬取页面地址
  • title:讲座标题
  • time:实际举办时间
  • date_sort:处理后的用于排序的日期时间
  • location:举办地点
  • location_id:匹配地点 id(处理经纬度及地图标注) 
  • academy:学院名
  • type:讲座类型
  • html_content:详细内容的实际html代码,用于移动端WebView显示

##Location List

  • location_id 地点id
  • title 地点名字
  • longitude 经度
  • latitude 维度
  • match_string 匹配字符串组(用-隔开)

##csuspider数据库 ###academic 保存学术信息 academic.sql ###location表 保存位置信息 location.sql

##学院列表 ###Done