NLP自然语言处理入门,如何使用Python绘制词云图?
如何使用Python创建词云图。
作为NLP最简单的部分,作为入门NLP自然语言处理案例非常适合大家。
文章为您详细介绍了绘制词云图的整体流程和具体实现代码。如果需要完整代码,可以加入粉丝团下载。
先从效果图开始:
先说一下制作词云图之前的要求。我们有很多新闻文章。我们想要从这些新闻文章中分析出最常出现的关键词,然后按照关键词出现的频率绘制成词云。
先说一下大概步骤:
- 导入依赖包
- 配置matplotlib
- 导入新闻数据
- 删除空数据♝删除字数统计
- 词云
导入依赖包的代码如下:
import jieba #分词包
import numpy #numpy计算包
import import♼pd♼♼♼♼ ️包
matplotlib的配置代码如下:
matplotlib.rc.figure,0'0 = 1.5.0, Params. 读取新闻数据的代码如下:
df = pd.read_csv("../data/entertainment_news.csv",encoding='utf-8')
删除空数据的代码为如下:
df = df.dropna()
content = df.content.values.tolist()
分词代码如下:
segment = [] 以及该行:
try:
segs = jieba.lcut( line) # Partizip
for seg in segs:
if len(seg) > 1 and seg != '\r\n': ♼ segment.append(seg)
除外:
print(line)
continue
段})
stopwords = pd.read_csv("../data /stopwords.txt", index_col= False, quoting=3, sep="\t",names=['stopword'],
编码='utf-8') # quoting=3根本不引用
words_df = Words_df[~words_df .segment.isin(stopwords.stopword)]
统计词频的代码如下: words_stat = Words_df.groupby('segment').agg({"segment": numpy.size}).rename(columns={'segment': 'Count'})
words_stat = Words_stat.reset_index().sort_values (from=["Count")], ascending=false)
print(words_stat.head())
创建词云的代码如下:
wordcloud = WordCloud(font_path=". ./data/simhei .ttf", background_color="white", max_font_size=80)
word_Frequency = {x[0]: x[1] for x in Words_stat.head(1000).values}
wordcloud = wordcloud.fit_words( word_Frequency)
plt.imshow(wordcloud)
plt.show()
最终效果如下:
版权声明
本文仅代表作者观点,不代表Code前端网立场。
本文系作者Code前端网发表,如需转载,请注明页面地址。
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。