词云

最近要开始一个新项目,于是准备去把一个已经在进行的类似的项目的bugs 拿来分析分析。 然后想看看词云出来是什么样子的。

bug的信息是从JIRA导出来的,然后拿summary的信息来看。

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import pandas as pd
import en_core_web_sm
from nltk.tokenize import word_tokenize

首先是读取csv文件

df_data = pd.read_csv("D:\\test\\bugs.csv")

然后把每一行都穿起来。

doc= " ".join(df_data["summary"])

在切词。

str = " ".join(word_tokenize(doc))

然后就调用wordcloud进行绘制。

wordcloud = WordCloud(
    background_color="white",
    width=1200,
    height=900,
    margin=10
).generate(str)
plt.imshow(wordcloud)
plt.axis("off")
plt.show()
wordcloud.to_file('bugs.png') 出来如下效果,因为像 Error , page ,bug 这些不能看出什么信息,所以在切词之前进行了移除一些单词

词云

 

def remove_stopwords( doc):
    doc = ' '.join([x for x in doc.split(' ') if x not in ['Error','page','bug','Bug','name','Page']])
    return doc

删除了一些词之后在看到的效果

词云

 

从词云可以大概上看到

常出现的问题: data save, business Rule, surface ....

常出现问题的模块: Vehicle / Strategy Request / Assets Account ....