自己动手生成词云

作者: baixiao 分类: python 发布时间: 2019-07-28 09:32

一、词云是什么和如何生成

词云这中图片格式挺流行的,分析一下文章出现的词语频次,将他们按照样例图片进行排列。

词云生成的话,现在有一些网站提供在线生成的功能,使用了一下,发现弊端也有不少的:套用的词云图片千篇一律,如果我想换不同的照片这个就受限制了。与其受制于人,不如自己动手。

词云其实需要技术含量挺高的。

1、文章的分词和计算频次。分词就是将长句子分成短的词语。这个其实是很复杂的算法,因为中文不像英文一样根据空格进行区分,而且要除去很多没必要的词语,比如说“的、得、了”这些无意义的词语。这就涉及到计算机科学里的自然语言处理这个方向了。幸运的是,网络上已经有jieba这个模块可以解决这个问题。

2、按照词语频次进行词云的生成和设置。套用不同的词语背景图片。在背景图片上怎么排列词语也是个问题。幸好网络上也提供了wordcloud模块进行使用。

二、Python的jieba和wordcloud模块使用

1、安装python3和导入jieba和wordcloud模块

pip install jieba

pip install wordcloud

2、程序流程:

(具体代码见后续压缩包)

三、公文词云分析





在网上随手找到某央企的两个1号文件。看看官样文章生成的词云如何

两个1号文件链接是:

党组1号文

公司1号文

生成的效果如下:

四、程序连接及使用方法:

(程序下载,后台回复 词云程序 。)

1、将需要进行的文档保存为report.txt

2、将需要生成的背景图片命名为mask.png

3、运行程序

4、生成的图片为Report_wordcloud.jpg

五、需要注意的地方

效果优化调整情况:

1、尽量选取背景单调的图片,而且单色块要尽量大

2、如果图片为很多文字,这样会导致生成的图片辨识度太低。

3、图片尽量分辨率较大。几百像素以上,尽量一千以上像素

4、中文的话需要指定字体路径,以免出现乱码情况。

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注