python_weiboSpider

本项目关于微博数据爬取/文本分析/词云展示文本分析主要用到了LDA主题模型

代码运行说明

1.weibopr.py是用来分析大V博主影响力的，同时会爬取博主微博数据保存在weibopr这个文件夹下。

2.userid.py是用来爬取博主粉丝uid的，保存在Weibo_list_p.txt和Weibo_list_jy.txt两个文档下。

3.wb_spider.py是根据粉丝uid来爬取粉丝微博的，爬取数据分别保存在weibo_p和weibo_jy两个文件夹下，这个耗时特别久，所以我又准备了一个简易的测试代码(没在图里显示出来)，名称为wb_spider_test.py ，可以爬取10条井越的粉丝微博保存在weibo_test文件夹下。

4.LDA.py是利用LDA主题模型进行文本分析的，输出为top_words.txt和top_words2.txt两个文档，前者为彭姐的，后者为井越的。

5.cloud.py是用来生成词云图的，词云形状是根据文件夹内的背景图片。

很重要！！！说明：涉及爬取数据的代码需要本人cookie，代码中有备注提醒，不然会爬取失败。同时，在运行wb_spider.py的时候，因为爬取数据太多了，所以有可能会出现报错，只要等一会再继续运行就可以了。

Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
__pycache__		__pycache__
weibo_jy		weibo_jy
weibo_p		weibo_p
weibo_test		weibo_test
weibopr		weibopr
LDA.py		LDA.py
README.md		README.md
SinaWeibo_List.txt		SinaWeibo_List.txt
Weibo_List_jy.txt		Weibo_List_jy.txt
Weibo_List_p.txt		Weibo_List_p.txt
camera.jpg		camera.jpg
cloud.py		cloud.py
stop_words.txt		stop_words.txt
top_words.txt		top_words.txt
top_words2.txt		top_words2.txt
userid.py		userid.py
wb_spider.py		wb_spider.py
wb_spider_test.py		wb_spider_test.py
weibo_img.jpg		weibo_img.jpg
weibopr.py		weibopr.py
wordcloud.jpg		wordcloud.jpg
wordcloud_jy.jpg		wordcloud_jy.jpg
xingkai.ttf		xingkai.ttf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

python_weiboSpider

About

Releases

Packages

Languages

heidimars/python_weiboSpider

Folders and files

Latest commit

History

Repository files navigation

python_weiboSpider

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages