Skip to content

bearbro/TextClusteringAnalysis

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

16 Commits
 
 
 
 
 
 
 
 

Repository files navigation

预处理
    分词、去停顿词、词干提取
    统计各文本预处理后的词数,根据文档词数的分布,筛选出单词数在【1000,8000】内的文档

特征工程
    向量空间模型(VSM)
    TF-IDF
    
特征降维
    单词贡献度(TC)
    主成分提取(PCA)
    
聚类算法
    k-medians(k-中值)
    DBSCAN

评价指标
    轮廓系数
    CH得分
    F值
    纯度
    
可视化
    将聚类结果映射到二维平面进行展示

可优化的地方:
    特征提取word2vet
    使用神经网络进行聚类

About

文本聚类分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages