用R进行文本挖掘与分析--软件分词统计词频
运用数据分析软件 ROSTCM6 , 通过点击相应的功能操作按钮,即可快速对文本文件进行分词,词频统计;
该软件还有其它各种分析功能,不必通过输入复杂的代码来实现,这对一些有短期直接需求的小伙伴特别友好!!!
想了解的小伙伴可以通过下面的链接下载:
ROSTCM的一些基本功能的使用:
注意:安装完之后如果程序显示无响应需要强行关闭,先把软件关闭,然后先 断网, 在打开软件,然后过一会等程序运行稳定后再打开软件就可以正常的使用该软件啦!!!
程序主界面
点击右边的... 输入文件目录路径,依次点击文本处理–一般性处理—处理条件选 “凡是重复的行只保留一行”与"把所有行中包含的英文字符全部删掉" 用来去掉英文和数字等字符。
(是要一步一步来着,就是上一步处理得到的文件再重新导入,运用到下一步再进行处理!)
接下来, 再进行分词处理. 点 功能分析 —-分词 (这里可以是该软件自带的分词词库,你可以导入其他下载好的词库比如搜狗词库,或者其他,不过好像只能是.txt文件)
接下来,我们进行专有名词,停用词过滤. 并统计词频.依次点击功能分析
—词频分析(中文)
一些参数选项可以按需要调整!
前后文本文件的对比:
分词前的原文件:
分词后:
词频统计:
在功能性分析下点情感分析,可以进行情感分析(主要是针对一些评论方面的数据,其它类型的数据没啥意义!?)
想制作云图的最后只需要利用R 语言的 wordcloud,或者wordcloud2 例如:
- 安装并装载画词云的工具包wordcloud:
library(wordcloud)
- 读取已经统计好词频的文件:
mydata<-read.table("已统计好词频的文本文件的完整路径",head=TRUE)
- 设置一个颜色系:
mycolors <- brewer.pal(8,"Dark2")
- 画图:
wordcloud(mydata$词汇,mydata$词频,random.order=FALSE,random.color=FALSE,colors=mycolors,family="myFont3")
注意:其中的“词汇”,和“词频”可以加在原来的文本文件的每列开头,方便识别即可!!!
然后制作wordcloud的各种详细参数,及其各种千奇百怪的玩法可以见百度上其他详细资料!!!