用Rwordseg和jiebaR制作词云



jiebaR包

*

library(RColorBrewer)
library(wordcloud2)
library(jiebaRD)
library(jiebaRD)
cutter=woker()
cutter[./2018年*工作报告全文.txt]

分词

f=scan(“./2018年*工作报告全文.segment.2018-05-17_17_51_44.txt”,sep=”\n”,what=” “,encoding=”UTF-8”)

读取分词好的文件

mydata=read.csv(“2018年*工作报告全文.txt”,stringsAsFactors=FALSE,header=FALSE)
seg=qseg[f]

过滤掉字长小于二的词语

seg=seg[nchar(seg)>1]

统计词频

seg=table(seg)

过滤掉数字

seg=seg[!grepl(‘[0-9]+’,names(seg))]
length(seg)

排序

seg=sort(seg,decreasing = T)[1:200]

生成词云

wordcloud2(seg)

Rwordseg包

library(rJava)
library(Rwordseg)
library(wordcloud2)

分词

text=segmentCN(“D:/学习/R/work2/2018年*工作报告全文.txt”,stringsAsFactors=FALSE,header=FALSE)

读入分词文件

text1=(“D:/学习/R/work2/2018年*工作报告全文.segment.txt”,stringsfactors=FALSE,header=FALSE)

正则表达式按空格把词汇分开

word=lapply(X=text1,FUN=strsplit,”\s”) #返回一个list
word1=unlist(word)

统计词频

df=table(word1)
df=sort(df,decreasing=T)

把词汇词频存入数据框

df1=data.frame(word=names(df),freq=df)
dd=df[,2:3]

生成词云

wordcloud(dd)
用Rwordseg和jiebaR制作词云