需要注意的是《人民日报》中每篇文章的链接由两部分组成,但在每篇新闻页面的源代码中只有后半部分,所以需要我们将它与前半部分合在一起,所以代码中有url_base和url_org。

得到的样本如下:

这个样本里有大量的数字和英文字母,我们稍微处理一下,把里面的中文找出来

正则表达式中 \x80-\xff 是UTF-8编码中,汉字和标点的集

得到的结果是这样的:

2.把汉字转化为拼音字母:

在这感谢 "超江_"   大家请移步到  http://blog.csdn.net/g19920917/article/details/42963659

安装他的 xpinyin库 后,运行如下代码

得到的结果:

提取字母:

3.统计拼音字母使用频数和频率

运行结果:

得到的数据在excel中稍微整理一下就能得到文章开头的结果。


以上是不严谨的统计分析,仅供参考

在这个代码中,首先 使用 `input()` 函数从键盘输入英文文本。然后, 使用 一个空字典 `freq_dict` 来保存每个字符出现的次数。接下来, 使用 `for` 循环遍历文本中的每个字符,如果是英文 字母 ,则在 `freq_dict` 中进行 统计 。最后, 使用 `for` 循环遍历 `freq_dict` 中的每个元素,输出每个字符出现的 频率 。 注意,这个代码中没有考虑大小写,即大写 字母 和小写 字母 被视为不同的字符。如果需要考虑大小写,可以 使用 `lower()` 或 `upper()` 方法将所有字符转换为小写或大写 字母 CSDN-Ada助手: 非常感谢您的分享,这篇博客中关于各种图的介绍非常实用,我觉得可以进一步写一篇关于数据可视化的博客,介绍如何通过各种图表展示数据,为读者提供更直观的数据分析方式,相信会对其他用户产生很大的帮助和启发。期待您的下一篇博客! 为了方便博主创作,提高生产力,CSDN上线了AI写作助手功能,就在创作编辑器右侧哦~(https://mp.csdn.net/edit?utm_source=blog_comment_recall )诚邀您来加入测评,到此(https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall)发布测评文章即可获得「话题勋章」,同时还有机会拿定制奖牌。 均匀分布生成标准正态分布 python qq_48529381: 博主您好,关于Box-Muller方法我有个疑问想请教您。它用两个独立的均匀分布产生了两个独立的正态分布,如果是3个正态分布变量的话,要如何用这种方法产生呢?期待您的回复! 天池 IJCAI17《口碑商家客流量预测》回顾 数据在github链接里呀,大家去github里自取 天池 IJCAI17《口碑商家客流量预测》回顾 阿多诺码码: 请问博主大佬可以分享一下数据吗? 邮箱 [email protected] 谢谢您 均匀分布构造离散型随机变量(以泊松分布为例)python weixin_44510650: 为什么生成的随机数分布在4左右,而不是在5左右呢?