本文总结了使用Spark Streaming从Twitter获取数据,结合Spark MLlib进行情感分析的过程,以及如何利用Python的Basemap进行结果可视化,展示了如何分析美国网民对总统的看法。
摘要由CSDN通过智能技术生成
文章主要是学习实验楼《使用Spark MLlib进行情感分析》课程后的总结,这里只简单说明,没有具体操作步骤。代码和操作步骤可去课程实践获得,也可在我的资源下载中找到(资源中除课程介绍的随机森林模型训练数据方法,我还加入了自己学习使用朴素贝叶斯模型训练数据的方法)。项目实际利用推特上的数据结合Spark MLlib实现人们对美国这两位总统的情感分析,查看在美国不同地方的网民们对于他们的看法如何。
Spark Streaming获得持续而且无止境的数据源;
Spark MLlib情感分析;
Python 地图可视化工具Basemap;
学习分解:
第一步学习Spark Streaming如何获取Twitter数据,推荐阅读《实时分析社交媒体数据》,它后期使用的是k-means算法模型,如图:
第二步文本情感分析,先对数据分词处理;去除跟情感无关的符号、URL、停用词;再利用Word2Vec将单词转换成向量,最后读入预先训练好的文本向量化模型word2vecM,创建RDD对象,利用sp
这篇博客文章是我努力向同事展示如何通过使用Apache
Spark
的流功能和简洁的API获得所需见解的结果。 在此博客文章中,您将学习如何进行一些简单但非常有趣的分析,这些分析将通过分析社交网络的特定区域来帮助您解决实际问题。
在本演示中,使用Twitter流的子集是完美的选择,因为它具有我们所需的一切:无穷无尽的连续数据源,可供探索。
火花流最小化
在此处以及电子书“ Apache...
0 相关源码
将
结合
前述知识进行综合实战,以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联,使大家能够对
Spark
的具体应用有一个整体的感知与了解。
1 项目总体概况
2 数据集概述
3 数据预处理
4 文本特征提取
官方文档介绍
提取,转换和选择特征
本节介绍了使用特征的算法,大致分为以下几组:
提取:从“原始”数据中提取特征
转换:缩放,转...
在
Spark
Streaming
中,数据抽象是DStream(离散数据流)。底层是靠封装RDD
实现
,而
Spark
Mllib
是早期的机器学习库,主要也是基于RDD抽象数据集
实现
的算法。因此在
Spark
Streaming
上想要使用
Spark
Mllib
首先就要获取到DStream对应的RDD,而DStream中可以获取到RDD的方法有如下:
def foreachRDD(foreachFunc
关键字:
spark
mllib
、文本分类、朴素贝叶斯、naive bayes
文本分类是指将一篇文章归到事先定义好的某一类或者某几类,在数据平台的一个典型的应用场景是,通过爬取用户浏览过的页面内容,识别出用户的浏览偏好,从而丰富该用户的画像。
本文介绍使用
Spark
MLlib
提供的朴素贝叶斯(Naive Bayes)算法,完成对中文文本的分类过程。主要包括中文分词、文本表示(TF-IDF)、模型训练、分类预测等。
对于中文文本分类而言,需要先对文章进行分词,我使用的是IKAnalyzer中
本文讲解
Spark
流数据处理之
Spark
Streaming
。本文的写作时值
Spark
1.6.2发布之际,
Spark
2.0预览版也已发布,
Spark
发展如此迅速,请随时关注
Spark
Streaming
官方文档以了解最新信息。
文中对
Spark
Streaming
的讲解主要使用到Scala语言,其他语言请参考官方文档,这点请知晓。
Spark
Streaming
是
Spark
importorg.apache.
spark
.ml.Pipeline
importorg.apache.
spark
.ml.classification.MultilayerPerceptronClassifier
importorg.apache.
spark
.ml.evaluation.MulticlassClassificationEvaluator
importorg.apa...