您所在的位置：中国新车评网 > 导购 >

手把手教你对文本文件进行分词、词频统计和可视化附源码

2021-12-19 17:04:40 来源：TechWeb 阅读量：16940

大家好!我是Python进阶者。

前言

前几天一个在校大学生问了一些关于词频，分词和可视化方面的问题，结合爬虫，确实可以做点东西出来，可以玩玩，还是蛮不错的，这里整理成一篇文章，分享给大家。

本文主要涉及的库有爬虫库requests，词频统计库collections，数据处理库numpy，结巴分词库jieba ，可视化库pyecharts等等。总核数统计涉及所有的业务，包括政务云，天翼云和定制行业云。

关于数据方面，这里直接是从新闻平台上进行获取的文本信息，其实这个文本文件可以拓展开来，你可以自定义文本，也可以是报告，商业报告，政治报告等，也可以是新闻平台，也可以是论文，也可以是微博热评，也可以是网易云音乐热评等等，只要涉及到大量文本的，都可月引用本文的代码，进行词频分词，统计，可视化等。在国脉大厦的平台主机运营现场，研发团队设计的主视图显示中国电信在无锡各区域云业务的发展情况，包括客户数，总核数以及云桌面的在用情况。

二，数据获取

数据获取十分简单，一个简单的爬虫和存储就可以搞定，这里以一篇新闻为例进行演示，代码如下:

代码运行之后，在本地会得到一个文件，文件内容就是网站上的文本信息如果你想获取其他网站上的文本，需要更改下链接和提取规则

三，词频统计

接下来就是词频统计了，代码如下所示。。

首先读取文本信息，之后对文本进行预处理，提取文字信息，并且可以自定义词库，作为停用词，之后将获取到的词频做词频统计，获取前30最高频的词，并进行打印，输出结果如下图所示。无锡电信研发工程师朱晓亮介绍，设计这一平台是基于传统通信应用平台在支持更多用户中需要更强的计算能力，更稳定安全的后台支撑，电信企业在为节约政企单位为此不断增加的人力，设施和运维成本而努力。

四，可视化

接下来就是可视化部分了，这里直接上代码，如下所示。

importpyechartsfrompyecharts.chartsimportLinefrompyechartsimportoptionsasopts#示例数据cate=foriinword_counts_top30)data1=(i(1)foriinword_counts_top30)line=(Line().add_xaxis(cate).add_yaxis('词频'，data1，markline_opts=opts.MarkLineOpts(data=(opts.MarkLineItem(type_="average")))).set_global_opts(title_opts=opts.TitleOpts(title="词频统计Top30"，subtitle="")，xaxis_opts=opts.AxisOpts(name_rotate=60，axislabel_opts="rotate":45)))line.render_notebook()

输出结果是一个线图，看上去还不错。

五，总结

本文基于Python网络爬虫获取到的文本文件，通过词频，分词和可视化等处理，完成一个较为简单的项目，欢迎大家积极尝试。在代码实现过程中，如果有遇到任何问题，请加我好友，我帮助解决哦!

。

声明：本网转发此文章，旨在为读者提供更多信息资讯，所涉内容不构成投资、消费建议。文章事实如有疑问，请与有关方核实，文章观点非本网观点，仅供读者参考。

猜你喜欢

弃用内燃机拥抱纯电动？德国汽车巨头各有自己“小算盘”...2021-12-19 17:04:08
光大期货：12月油价在将面临需求淡季与宏观政策的双重压力...2021-12-19 16:45:56
2021年全国粮食总产量13657亿斤同比增长2.0%...2021-12-19 16:30:46
中国重汽涨逾20%适度超前基建投资提法引发想象空间...2021-12-19 16:13:23
世茂集团股债双跌：“内部正了解情况，积极与投资人沟通”...2021-12-19 15:57:18

热点新闻

月排行周排行

汽车品牌

上汽乘用车9月份热销8.1万

近日，《证券日报》记者从上汽乘用车方面获悉，9月份，...[详情]

行业动态

动态	2023成都车展：海豹DM-i开启预...
动态	比老款贵2.8万，全新特斯拉Mode...
动态	Microchip推出新型10BAS...
动态	高德地图：就地过年趋势明显超8成酒店...
动态	斩单4189辆中国重汽中秋国庆双节钜...
动态	捷达VS5改装作业中的细节把控...
动态	“车圈史上最难高考”转战吐鲁番，第五...
动态	太平洋太享贷全国客服电话-太平洋太享...
动态	银河之光：有颜值、有内涵，量产车E8...
动态	10万公里真的算老车？别威朗Pro告...