词云
最近要开始一个新项目,于是准备去把一个已经在进行的类似的项目的bugs 拿来分析分析。 然后想看看词云出来是什么样子的。
bug的信息是从JIRA导出来的,然后拿summary的信息来看。
from wordcloud import WordCloud import matplotlib.pyplot as plt import pandas as pd import en_core_web_sm from nltk.tokenize import word_tokenize
首先是读取csv文件
df_data = pd.read_csv("D:\\test\\bugs.csv")
然后把每一行都穿起来。
doc= " ".join(df_data["summary"])
在切词。
str = " ".join(word_tokenize(doc))
然后就调用wordcloud进行绘制。
wordcloud = WordCloud( background_color="white", width=1200, height=900, margin=10 ).generate(str) plt.imshow(wordcloud) plt.axis("off") plt.show() wordcloud.to_file('bugs.png') 出来如下效果,因为像 Error , page ,bug 这些不能看出什么信息,所以在切词之前进行了移除一些单词
def remove_stopwords( doc): doc = ' '.join([x for x in doc.split(' ') if x not in ['Error','page','bug','Bug','name','Page']]) return doc
删除了一些词之后在看到的效果
从词云可以大概上看到
常出现的问题: data save, business Rule, surface ....
常出现问题的模块: Vehicle / Strategy Request / Assets Account ....