Skip to content

一个基于朴素贝叶斯算法的新闻文本分类器

Notifications You must be signed in to change notification settings

Times125/ML--Native-Bayes

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

48 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

ML--Native-Bayes

描述:

  • 实现一个朴素贝叶斯分类器,用于新闻文本分类;
  • 利用了TF-IDF算法进行特征提取,并构建特征库;
  • 主要使用nltk自然语言处理工具包;
  • 数据集来自爬虫在国外新闻网站采集的各类新闻;
  • src-02 是新闻分类器,src是《机器学习实战》一书中提供的代码;
  • material 目录是挑选的各类新闻集合,用于构建特征库以及训练集和测试集;
  • test 目录是分类器训练集和测试集;
  • features 目录是提取的各类文本的特征库和保存的训练模型;
  • verify 目录是用来测试模型的各类新闻数据;
  • model 目录是存放的训练模型,解压使用;
  • 目前分类器可以对英语的文化,政治,环境,能源,科技,环境,经济进行分类,对法语的经济,互联网,政治,社会进行分类;
  • 分类准确率为86%;

About

一个基于朴素贝叶斯算法的新闻文本分类器

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages