Spark 架构原理 Spark RDD Spark DF Spark DAG Spark SQL 内存迭代 性能调优 任务调度 Pandas on Spark Spark on Hive Spark Shuffle Spark 3.x 新特性

阶段项目实战

* 工业项目实战 * 保险大数据实战

亚秒级实时计算 5

Flink Core 架构原理 批流一体 Window操作 State操作 DataStream Checkpoint Flink SQL 任务调度 负载均衡 状态管理 Runtime 执行计划 Flink性能监控与调优 Flink + Elasticsearch Flink + Kafka Flink + Pulsar Flink + ClickHouse Flink + Doris

阶段项目实战

* 车联网项目实战 * 金融证券项目实战

· Linux · 大数据基础和硬件介绍 · Zookeeper · HDFS · MapReduce · YARN · Hive基础 · Hive高阶

可解决的现实问题

熟悉Linux操作系统,以及各种Linux命令,能够解决企业级大数据集群搭建问题,为进阶大数据开发奠定基础。

可掌握的核心能力

1.掌握Linux常用命令,为数据开发后续学习打下的良好基础;
2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群;
3.掌握Hive的使用和调优;
4.具备Hadoop开发能力、离线数据仓库开发能力;
5.能够完成基本构建企业级数仓。

查看详细课程大纲> 千亿级离线数仓项目 课时:11天

· 大数据部署运维:Cloudera Manager · 分析决策需求:数据仓库 · 数据采集:sqoop · 数据分析:Hive · 历史数据快照:拉链表 · 数据更新后的统计分析:拉链表 · 数据调度:oozie+shell · OLAP系统存储:MySQL · FineBI数据展示

可解决的现实问题

能够解决企业级常见数据仓库搭建,从项目的需求、技术架构、业务架构、部署平台、ETL设计、作业调度等整套pipeline,完成大数据体系下的企业级数据仓库构建。

可掌握的核心能力

1.掌握零售行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
2.行业内首个深度使用Presto的项目;
3.包括海量数据场景下如何优化配置;
4.拉链表的具体应用;
5.新增数据和更新数据的抽取和分析;
6.提供新零售大型商超集团的数据存储分析以及服务监控方案。

查看详细课程大纲> 千亿级离线数仓项目实战 课时:5天

· 大数据部署运维:Cloudera Manager · 分析决策需求:数据仓库 · 数据采集:sqoop · 数据分析:Hive+presto · 历史数据快照:拉链表 · 数据更新后的统计分析:拉链表 · 数据调度:ds · OLAP系统存储:MySQL · FineBI数据展示

可解决的现实问题

按照企业级大数据开发流程,独立完成项目开发,掌握企业级多场景大数据离线数仓开发能力,从数仓分层,数仓建模,指标统计,指标展示完成完整的大数据项目。

可掌握的核心能力

1.掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程;
2.真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力;
3.包括海量数据场景下如何优化配置;
4.拉链表的具体应用;
5.新增数据和更新数据的抽取和分析;
6.Hive函数的具体应用;
7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能。

查看详细课程大纲> Python编程 课时:10天

· Python基础语法 · Python数据处理 · 函数 · 文件读写 · 异常处理 · 模块和包 · 面向对象 · 网络编程 · 多任务编程 · 高级语法 · Python编程综合项目

学Python有什么好处 可解决的现实问题

熟练掌握Python语言,建立编程思维,使学员能够熟练使用Python技术完成程序编写。
熟练使用Python面向对象程序设计思想,掌握数据开发必备Python高级语法,解决常见Python开发问题。

可掌握的核心能力

1.掌握Python开发环境基本配置;
2.掌握运算符、表达式、流程控制语句、数组等的使用;
3.掌握字符串的基本操作;
4.初步建立面向对象的编程思维;
5.熟悉异常捕获的基本流程及使用方式;
6.掌握类和对象的基本使用方式;
7.掌握网络编程技术,能够实现网络通讯;
8.知道多进程多线程的原理。

查看详细课程大纲> ETL实战 课时:5天

· ETL概念与工具 · Python ETL实战 · BI

可解决的现实问题

掌握Python完成数据ETL实战,能够解决中小型数据量数据处理相关任务。

可掌握的核心能力

1. 掌握ETL的相关概念;
2. 掌握基于Python语言完成ETL任务开发实战;
3. 基于ETL实战锻炼Python编程能力,包括(元数据管理、数据模型、项目配置、单元测试、工具方法抽取等);
4. 掌握BI数据分析实战。

查看详细课程大纲> Spark技术栈 课时:8天

· Spark基础 · Spark Core · Spark SQL · SparkSQL案例

可解决的现实问题

掌握全球热门的Spark技术栈,通过SparkCore和SparkSQL解决数据处理与统计分析工作,进阶高级大数据开发工程师。

可掌握的核心能力

1.掌握Spark的RDD、DAG、CheckPoint等设计思想;
2.掌握SparkSQL结构化数据处理,Spark On Hive;
3.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力。

查看详细课程大纲> 用户画像解决方案 课时:8天

· 1SparkSQL整合ES自定义数据源 · DS任务界面化调度 · 用户画像标签构建规则 · 用户画像规则类标签构建 · 用户画像统计类标签构建

可解决的现实问题

项目提供了全行业用户画像解决方案, 使用SparkSQL+ES+DS构建企业级用户画像,通过SparkSQL+MySQL构建通用行业用户画像标签体系。

可掌握的核心能力

1. SparkSQL整合ES自定义数据源;
2. DS任务界面化调度;
3. 用户画像标签构建规则;
4. 用户画像规则类标签构建;
5. 用户画像统计类标签构建。

查看详细课程大纲> PB级内存计算项目实战 课时:5天

项目核心架构和业务流程、Hive数仓建模 、Sqoop数据同步开发 DolphinScheduler任务调度、使用lag,sum等窗口函数 、使用UDAF函数计算有效保单数字段、计算现金价值、计算和准备金、分区表的使用 、指标汇总计算 、Shuffle优化。

可解决的现实问题

基于Spark全栈技术构建企业级大数据开发平台,学生分组独立完成项目实战,能够胜任常见大数据平台开发工作,助力企业实现数字化转型

可掌握的核心能力

1.快速搭建保险行业大数据平台;
2.基于Hive+Spark SQL搭建离线数据仓库;
3.基于SparkSQL应对轻松应对复杂的迭代计算;
4.完成基于国内头部保险公司大数据项目开发;
5.掌握基于Spark分析12亿报单表和8千万客户等数据;
6.对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。

查看详细课程大纲> 就业指导&就业加强 课时:5天

· SQL实战 · Hive数据分析与面试题加强 · Spark数据分析与面试题加强 · NoSQL数据分析与面试题加强 · 大数据多行业架构剖析

可解决的现实问题

对学习的内容进行整体回顾,并分析经典面试题,指导简历,面试和沟通技巧助力高薪offer。

可掌握的核心能力

1.强化面试就业核心面试题;
2.梳理大数据架构及解决方案;
3.剖析多行业大数据架构。

查看详细课程大纲> Java编程 课时:5天

· 开发环境基本配置 · 运算符/表达式/流程控制 · 变量及方法 · Lambda表达式 · 数组与集合 · 面向对象及常用类 · JDBC · 多线程 · Maven

可解决的现实问题

学习大数据所需的Java编程。

可掌握的核心能力

掌握大数据实时计算Flink开发所需要的Java编程能力。

查看详细课程大纲> Flink技术栈 课时:7天

· Flink Core · Flink DataStream · Flink SQL · Flink Runtime · Flink高级 · Flink电商案例实战

可解决的现实问题

掌握当下热门的流批一体化分布式计算框架Flink及其生态,解决实时计算经典场景问题,适应市场对Flink越发增长的需求。

可掌握的核心能力

1.掌握基于Flink进行实时和离线数据处理、分析;
2.掌握基于Flink的多流并行处理技术;
3.掌握千万级高速实时采集技术。

查看详细课程大纲> 亚秒级实时计算项目 课时:7天

· Flink · FlinkSQL · FlinkCDC · Doris · Hudi · Hudi on Hive FIneBI

可解决的现实问题

采集超过千万条在线视频的数据,实时高性能海量数据分析与存储业务数据实时大屏场景实现。

可掌握的核心能力

1.湖仓一体化解决方案基于Flink+Hudi湖仓一体技术架构;
2.基于FlinkCDC完成MySQL等数据源的数据采集;
3.FlinkSQL流批一体架构实现实时数据计算;
4.使用Apache Doris进行海量多维分析;
5.掌握数据报表分析;
6.掌握业务数据实时大屏场景实现。

项目介绍: 该项目基于国内大型新零售巨头开发的大数据平台,基于高性能解决方案构建离线数仓,包括销售、会员、商品等主题,每个主题涵盖大量真实的业务场景。项目采用Hive+Presto架构构建高性能的离线处理方案,包括CM自动部署与配置、数据仓库建模、数仓架构分层、Hive的使用和调优、Presto使用与调优、拉链表历史快照、更新数据的增量计算、Python-ETL自研系统、主流ETL开源系统、Shell脚本、Python脚本、Dolphinscheduler调度、全量增量完整流程实现等。

核心解决方案: 数据仓库分层设计方案、数据仓库建模方案、异构数据源间的关联分析、即席查询解决方案、历史快照的存储、更新和查询方案、增量数据的优化方案

300 + 指标数量
1000 数据量
20 解决方案
10 课程天数
进入项目体验

项目介绍: 该项目基于垂直电商平台构建的用户全方位画像,完整抽取出一个用户的信息全貌业务围绕商品、订单、用户基础信息及行为信息等数据,实现用户和商品基础标签、组合标签、微观画像、标签查询等业务场景,提供了企业级多方位业务决策分析。标签体系中包涵了基础类标签,规则类标签,挖掘类标签及组合类标签,为企业数据决策及推荐系统提供支持。项目拥有完备的标签管理平台,数据接入平台,标签计算平台和调度平台等。

核心解决方案: 用户分群画像解决方案、Lambda架构流批方案、Spark+ES+Hadoop生态圈技术栈

200 指标数量
3000 数据量
10 解决方案
9 课程天数
进入项目体验

项目介绍: 湖仓一体化项目基于在线教育行业实时数据处理和分析。项目采用流处理计算引擎Flink,实时处理千万数据量的视频流数据,基于FlinkCDC完成MySQL等数据源的数据采集,通过Hudi On Hive构建湖仓一体架构,结合数据湖和数据仓库优势,建立湖仓一体化,进而解决了数据湖的局限性。直接在用于数据湖的低成本存储上实现与数据仓库中类似的数据结构和数据管理功能。项目采用Hive实现离线数据计算,采用FlinkSQL实现实时数据计算,使用流行OLAP的Doris进行海量多维分析,最终实现在在线教育行业实时分析指标体系构建。

核心解决方案: 数据仓库运维方案、数据仓库建模方案、历史快照的存储、更新和查询方案、增量数据的优化方案

110 指标数量
1500 数据量
15 解决方案
8 课程天数
进入项目体验

项目介绍: 车联网项目涵盖完整车联网业务场景,包含驾驶行程、电子围栏、远程诊断等真实业务,通过 QBOX 车辆终端数据收集,并解析为 QSP 数据、QCS 数据、充电数据、HU 数据,提供实时计算服务与离线计算服务,并通过 API 接口以报表和大屏展示分析结果数据。

核心解决方案: 车联网行业解决方案、Flink+Kafka实时数仓(ODS/DWD/DWS/ADS)、CK(Clickhouse)即席查询

161 指标数量
1800 万/15分钟 数据量
15 解决方案
8 课程天数
进入项目体验

项目介绍: 保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效变快,增强保险公司的商业信誉。项目将多部门的业务数据库同步到hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。

核心解决方案: 保险项目核心解决方案、SparkSQL一站式解决迭代计算、基于SparkSQL的离线数仓分层(ODS/DW/APP)

120 指标数量
10 亿 数据量
10 解决方案
8 课程天数
进入项目体验

百万级课程环境配置 大规模真数据体验

学习大数据,你见过真的海量数据吗?你操作过真的【大规模集群】吗?你接触过真的【云服务】吗?这一切,在黑马程序员都将实现真接触!

黑马程序员与知名云平台厂商—UCloud达成深度合作。为学生提供大规模服务器
集群进行实战,硬件规模达到:

*以上资源,年成本近百万,但黑马完全免费提供给每位学生使用
真正让每个学生都能接触【真·大规模集群】和【真·大规模数据】

Python+大数据课程体系V3.2

聚集多位Apache 社区贡献者及大厂技术讲师,联合推出行业重磅Python大数据V3.2课程,通过5-6个月学习进阶数据开发工程师,获取3-4年开发经验,对标高级数据开发工程师

Python+大数据V3.2学习路线概览

第一阶段 第二阶段 第三阶段 第四阶段

SQL基础 Hadoop技术栈 项目一 千亿级离线数仓项目 项目二 千亿级离线数仓项目实战

第五阶段 第六阶段 第七阶段 第八阶段 第九阶段

Python编程 项目三 ETL实战 Spark技术栈 项目四 用户画像解决方案 项目五 PB级内存计算项目实战

第十阶段 第十一阶段 第十二阶段 第十三阶段 第十四阶段

就业指导&就业加强 Java编程 Flink技术栈 项目六 亚秒级实时计算项目 亚秒级实时进阶课

升级V3.2课程亮点:

  • 六项目制,40+天项目占比 对标企业实际招聘需求,采用六个不同行业大数据项目,覆盖从离线到实时计算场景,更好的匹配学员能力
  • 大厂级技术解决方案,Apache贡献者领衔授课 课程覆盖了数字化转型企业主流的技术和业务解决方案。
    6个技术解决方案:包括ETL、离线数仓、用户画像、Lambda架构、Kappa架构、湖仓一体等;
    多个业务解决方案:包括国内大型商超新零售、金融保险、金融证券、物流仓储、航空、电商、出行、教育、物联网等领域
  • 敢以班级为单位公开就业信息的机构,只有黑马程序员!通过数千班级实施和就业结果显示,黑马程序员Python+大数据开发的课程,有效大幅提升就业薪资水平!

    2. Kettle与BI工具 使用Kettle做数据迁移,通过BI工具展示excel、MySQL中的数据,包含了以下技术点:

    01_Kettle基本操作 | 02_Kettle数据转换 | 03_Kettle使用SQL脚本组件 | 04_kettle Job开发 | 05_FineBI基本操作 | 06_FineBI常用图表 | 07_FineBI仪表板 | 08_综合案例

    1.掌握Linux常用命令,为数据开发后续学习打下的良好基础 | 2.掌握大数据的核心框架Hadoop以及其生态体系,完成HDFS、MapReduce及Yarn机制基本理解与使用;能顾搭建Hadoop高可用HA集群 | 3.掌握Hive的使用和调优 | 4.具备Hadoop开发能力、离线数据仓库开发能力 | 5.能够完成基本构建企业级数仓

    03_Block块存储、RF拷贝因子、机架感知 | 04_Block拷贝策略、读写流程 | 05_HDFS Federation、HDFS Snapshots、NameNode HA架构和原理 | 06_HDFS管理员常用操作、HDFS权限控制 | 07_HDFS普通集群以及HA集群搭建

    5. MapReduce 分布式计算系统,解决海量数据的计算,包含了以下技术点:

    01_MapReduce架构和原理 | 02_Split机制 | 03_MapReduce并行度 | 04_Combiner机制 | 05_Partition机制、自定义Partition | 06_MapReduce序列化、自定义排序、数据压缩

    6. YARN 分布式资源调度管理器,管理服务器软件资源,包含了以下技术点:

    01_Yarn原理和架构 | 02_Yarn高可用 | 03_Container资源的封装(CPU、内存和IO) | 04_资源调度策略(FIFO、Fair和Capacity) | 05_YARN高可用模式搭建

    7. Hive基础 数据仓库Hive,实现企业级数仓必备工具,包含以下知识点:

    01_HQL操作 | 02_数据类型 | 03_分区、分桶、临时表 | 04_explain执行计划详解

    8. Hive高阶 数据仓库Hive高阶原理和架构深入,实现企业级数仓优化,包含以下知识点:

    01_Hive原理和架构 | 02_Meta Store服务 | 03_HiveServer内置函数 | 04_自定义UDF和UDAF | 05_数据压缩、存储格式、自动化脚本、常见性能优化

    本项目基于一家大型连锁超市研发的大数据分析平台。黑马深度使用Presto的项目,为后续Presto相关课程的研发打下了坚实的基础,也为学员的就业拓宽了道路;真实的数据结构,复杂的SQL实现过程,学生学习以后可以达到离线数仓的高级开发水平。

    进入项目体验
    主讲解决方案

    掌握离线数仓的分层与建模、大数据量场景下如何优化配置,拉链表的具体应用,新增数据的抽取和分析,更新数据的抽取和分析,以及Hive函数的具体应用等。ClouderaManager可视化、自动部署和配置、Git的CodeReview功能保证项目高质量 离线数仓的分层与建模 项目涉及20多个主题,100多个指标场景 帆软BI企业级报表展示

    主讲知识点

    1.大数据部署运维:Cloudera Manager | 2.分析决策需求:数据仓库 | 3.数据采集:sqoop | 4.数据分析:Hive | 5.历史数据快照:拉链表 | 6.数据更新后的统计分析:拉链表 | 7.数据调度:oozie+shell | 8.OLAP系统存储:MySQL | 9.FineBI数据展示

    1.掌握教育行业离线数仓的分层与建模,从需求、设计、研发、测试到落地上线的完整项目流程 | 2.真实业务逻辑,共涉及20多个主题,100多个指标,提升学员在教育行业中的核心竞争力 | 3.包括海量数据场景下如何优化配置 | 4.拉链表的具体应用 | 5.新增数据和更新数据的抽取和分析 | 6.Hive函数的具体应用 | 7.ClouderaManager可视化、自动部署和配置、Git、CodeReview功能

    1、建立集团数据仓库,统一集团数据中心,把分散的业务数据集中存储和处理 2、项目从需求调研、设计、版本控制、研发、测试到落地上线,涵盖了项目的完整工序 3、挖掘分析海量用户行为数据,定制多维数据集合,形成数据集市,供各个场景主题使用。

    进入项目体验

    1. 掌握ETL的相关概念 | 2. 掌握基于Python语言完成ETL任务开发实战 | 3. 基于ETL实战锻炼Python编程能力,包括(元数据管理、数据模型、项目配置、单元测试、工具方法抽取等) | 4. 掌握BI数据分析实战

    1.掌握Spark的RDD、DAG、CheckPoint等设计思想 | 2.掌握SparkSQL结构化数据处理,Spark On Hive | 3.掌握Structured Streaming整合多数据源完成实时数据处理 | 4.具备Spark全栈开发能力,满足大数据行业多场景统一技术栈的数据开发,提供就业核心竞争力

    2. Spark Core 整个spark框架核心部分,掌握框架内部设计思想,数据流转步骤,是学习spark的基础模块,包含了以下技术点:

    01_Spark架构和原理(运行机制、Driver和Executor、spark任务提交流程) | 02_RDD开发和原理(Partition、Task、RDD的依赖关系、RDD的容错机制、RDD的存储级别、RDD的缓存机制)广播变量 | 03_DAG原理(DAG思想、DAG的生成、DAG的处理过程)

    3. Spark SQL 学习spark框架的SQL操作,spark与Hive等外部数据源的整合操作,包含了以下技术点:

    01_Spark SQL架构和原理 | 02_DataFrame、DataSet DSL和SQL开发 | 03_Spark多数据源整合(txt、CSV、Json、parquet、JDBC、Hive) | 04_Spark SQL执行计划原理 | 05_Spark SQL性能调优

    4. SparkSQL案例 践行场景式教学,运用了Spark阶段知识点,使用lambda加解决数据分析的应用,包含了以下技术点:

    01_Spark多场景案例实战

    4.完成基于国内头部保险公司大数据项目开发 | 5.掌握基于Spark分析12亿报单表和8千万客户等数据 | 6.对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示 | 7.离线数仓项目实战 | 8.用户画像项目实战

    保险精算项目需要计算海量明细保单数据,以便生成财务报表。项目使用SparkSQL来计算,时效大大提高,增强保险公司的商业信誉。项目将多部门的业务数据库同步到Hive数据集市,使用SparkSQL加载源数据表(保单表12亿保单,客户表8千万客户等),计算保单的保费、现金价值、准备金等明细,提供给财务部门收费或支出,最后对保单汇总计算(业务发展类指标,成本费用类指标等),并向业务人员做数据展示。

    进入项目体验

    1.湖仓一体化解决方案基于Flink+Hudi湖仓一体技术架构 | 2.基于FlinkCDC完成MySQL等数据源的数据采集 | 3.FlinkSQL流批一体架构实现实时数据计算 | 4.使用Apache Doris进行海量多维分析 | 5.掌握数据报表分析 | 6.掌握业务数据实时大屏场景实现

    10. 基于DataWorks全链路数据开发 掌握智慧出行实时项目业务数据实时场景,覆盖全网所有DataWorks平台大数据。

    1_智慧出行实时项目业务数据实时场景异构数据源采集 | 2_基于DataWorks的大数据平台设计 | 3_出行行业可视化完整架构,涵盖全生命周期项目

    11. 湖仓一体化解决方案 掌握基于湖仓一体的在线视频实时分析项目,助力大数据新技术企业应用。

    1_湖仓一体完整解决方案 | 2_基于Flink的在线视频数据处理与分析 | 3_基于Hidi的在线视频数据数据湖构建

    12. Flink源码剖析 全网Flink源码课程大全,从原理到源码,深挖技术底层,助力Flink性能调优,大数据架构师必备技能。

    1_Apache Flink设计理念与基本架构 | 2_Flink DataStream的设计与实现源码分析 | 3_Flink 运行时的核心原理与实现 | 4_Flink 任务提交与执行 | 5_状态管理与容错 | 6_网络通信 | 7_内存管理

    13. Flink二次开发 掌握Flink二次开发流程,个性化解决企业大数据平台技术选型,助力在职的你持续高薪,大数据架构师必备技能。

    1_基于PyFlink的PR提交 | 2_Flink的源码二次开发流程 | 3_Flink的源码二次开发需求分析 | 4_Flink的源码二次开发实现过程 | 5_PyFlink相关功能二次开发

    课程更新日志 按周更新热点/前沿技术

    • 新增 2023-06-21

      · 量化机制的介绍 · 图优化方法的使用

    • 新增 2023-06-15

      · yoloV8的架构解析 · 双流FPN结构的设计

    • 新增 2023-06-08

      · FlinkSQL表参数 · FlinkSQL解析器

    • 新增 2023-06-02

      · FlinkSQL的Split分桶 · FlinkSQL执行计划翻译器参数

    • 新增 2023-05-26

      · FlinkSQL的上游CDC去重 · FlinkSQL多阶段聚合

    • 新增 2023-05-18

      · FlinkSQL参数优化 · FlinkSQL异步IO容量 · FlinkSQL并行度设置

    • 新增 2023-05-12

      · FlinkSQL语法 · FlinKSQL UDF

    • 新增 2023-05-06

      · Barrier(栅栏)机制

      升级

      · PyFlink

    • 新增 2023-04-27

      · Flink状态后端 · Flink重启策略

    • 新增 2023-04-19

      · 窗口计算中时间的流逝问题 · 窗口的开始和结束范围

    • 新增 2023-04-12

      · Window TVF 方案 · Group Window Aggregation方案

    • 新增 2023-04-07

      · 动态表和连续查询 · Flink中的时间属性

    • 新增 2023-03-31

      · sql-client和Flink JobManager的连接 · sql-client结果的显示模式

    • 新增 2023-03-23

      · TableEnvironment · sql-client 工具

      升级

      · Flink Table & SQL API

    • 新增 2023-03-14

      · Oracle的备份恢复 · Oracle的OEM · Oracle的冷热备份 · Oracle的备份恢复

    • 新增 2023-03-09

      · Oracle的权限管理 · Oracle的审计

    • 新增 2023-03-01

      · Oracle的进程结构和内存结构 · Oracle的监听器

    • 新增 2023-02-22

      · Oracle数据库管理 · Oracle存储结构

    • 新增 2023-02-16

      · Oracle的存储函数 · Oracle的存储过程 · Oracle的触发器

    • 新增 2023-02-08

      · Oracle的PLSQL编程 · Oracle的游标

    • 新增 2023-02-03

      · Oracle索引 · Oracle事务 · Oracle常用工具

    • 新增 2023-01-29

      · Oracle序列 · Oracle同义词

    • 新增 2023-01-18

      · Oracle视图 · Oracle物化视图

    • 新增 2023-01-10

      · Oracle数据定义语言 · Oracle常见对象

    • 新增 2023-01-04

      · Oracle基础 · Oracle的查询语法及综合案例

    • 新增 2022-12-27

      · Hive的explain执行计划详解 · Hive数据压缩、存储格式、自动化脚本、常见性能优化内容优化

    • 新增 2022-12-21

      · PSM价格敏感度模型开发 · Presto对接多数据源实现指标统计分析

    • 新增 2022-12-13

      · RFM用户价值度模型开发 · RFE用户或月底模型开发

    • 新增 2022-12-07

      · 用户画像解决方案项目BI可视化实时统计结果数据 · 用户画像解决方案项目BI可视化流程

    • 新增 2022-12-01

      · 用户行为埋点日志etl · 用户行为埋点日志聚合统计 · 用户行为埋点日志统计结果入库

    • 新增 2022-11-24

      · 用户行为埋点日志产生流程与漏斗模型

    • 新增 2022-11-17

      · nginx日志ip定位,uv、pv、ua、access_time解析 · nginx日志入库mysql · 实时分析任务基类开发

    • 新增 2022-11-08

      · nginx日志介绍与产生的流程 · nginx日志解析etl · nginx日志聚合统计

    • 新增 2022-11-03

      · 操作采集nginx日志到kafka中 · 结构化流实现消费nginx日志数据案例

    • 新增 2022-10-26

      · flume实现采集数据到hdfs · flume实现数据采集到kafka · 实时基础与kafka要点回顾

    • 新增 2022-10-20

      · flume与实时数据采集流程 · flume概述与核心要素 · 标签类型与总结

    • 新增 2022-10-13

      · 购买周期标签思路与实现 · 支付方式标签思路与实现 · 标签类型与总结

    • 新增 2022-10-07

      · 作业讲解,实现2个匹配标签开发 · 统计类标签开发

    • 新增 2022-09-26

      · 基于标签开发基类重写统计类标签和规则类标签

    • 新增 2022-09-20

      · spark实现统计类标签开发 · spark实现规则类标签开发

    • 新增 2022-09-14

      · spark与mysql整合 · spark与es整合

    • 新增 2022-09-06

      · 用户画像数据检验的三种方式 · 从hive导入数据到es实现 · es元数据对象解析

    • 新增 2022-08-29

      · es集成hadoop生态圈 · es-hive支持 · es-hive案例与参数

    • 新增 2022-08-23

      · es核心原理与关键概念 · es的resultful api · python代码操作es

    • 新增 2022-08-17

      · es基础 · 使用es的原因 · es的架构

    • 新增 2022-08-09

      · 核心业务流程 · sparksql分析引擎 · 数仓六层模型

    • 新增 2022-08-01

      · 自动导入oracle数据 · 自动创建文件目录 · 记录自动化过程日志

    • 新增 2022-08-01

      · 自动导入oracle数据 · 自动创建文件目录 · 记录自动化过程日志

    • 新增 2022-07-25

      · 自动创建hive表 · 自动创建hive分区 · 自动关联hdfs数据

    • 新增 2022-07-18

      · 数仓建模方法论 · 日期维度程序生成 · 维度模型选型

    • 新增 2022-07-11

      · docker虚拟网桥与网卡 · 宿主机与docker容器 · 创建大数据组件容器

    • 新增 2022-07-04

      · 行程地理区域维度 · 组织机构维度 · 服务网点维度

    • 新增 2022-06-28

      · 加油站维度 · 服务属性维度 · 物流公司维度 · 故障维度

    • 新增 2022-06-28

      · 加油站维度 · 服务属性维度 · 物流公司维度 · 故障维度

    • 新增 2022-06-21

      · 数仓整体设计图 · 技术选型设计图 · 项目原始数据库结构图

    • 新增 2022-06-14

      · ODS建模后,使用SQOOP导入数据 · DWD根据业务使用全量表、增量表、拉链表等不同的方式实现 · DWB层的订单明细表关联了订单表、订单副表、订单组表、店铺表、地区表、订单商品快照表等 · 商品明细表关联了商品表、商品分类表(三层分类)、商品品牌表等

    • 升级 2022-06-07

      · 使用新版数据库,包含完整的订单、商品、用户、配送及支付、退款等数据 · 实战提取订单相关的指标和维度 · Flink多语言开发 · Flink监控调优

    • 新增 2022-05-31

      · Flink背压机制 · Flink内存管理 · Python语言操作Flink

    • 新增 2022-05-24

      · FlinkSink新特性 · FlinkSQL整合Hive · 分层规范,通过对数据业务的分析,将数仓分为ODS, DWD, DWB, DM, APP五层

    • 新增 2022-05-17

      · FlinkSQL&Table理论部分比重,移除过期API,使用新版API · FlinkSQL整合Kafka案例 · 双流Join知识点和案例分层规范,通过对数据业务的分析,将数仓分为OD · S, DWD, DWB, DM, APP五层

    • 新增 2022-05-10

      · Flink版本为1.14 · 弱化DataSetAPI讲解,加强DataStreamAPI-流批一体新特性的讲解 · 移除过期API,增加DataStream、Window、Watermaker新版API使用讲解

    • 新增 2022-05-03

      · 实时业务-实时统计Top10热点题 · 实时业务-实时统计答题最活跃的Top10年级 · 实时业务-实时统计Top10热点题及所属科目

    • 新增 2022-04-26

      · 数据模拟程序写入到Kafka · 实时分析学生答题情况 · StructuredStreaming实时分析入口程序 · python完成电商行业ETL实战 · ETL基础概念 · ETL完成的Pipeline构建流程

    • 新增 2022-04-19

      · 结构化流更新,删除Rate数据源-文件数据源 · 删除企业不常用SparkStreaming

    • 新增 2022-04-12

      · Spark中Continuous Processing · Spark3.2新特性 · Spark性能调优九项原则、数据倾斜、shuffle优化 · 新增Spark教育行业案例,方便学员掌握RDD和DataFrame的使用

    • 新增 2022-04-05

      · StructuredStreaming 处理延迟数据和水印 · StructuredStreaming 结构化流数据和静态数据Join · StructuredStreaming 结构化流数据和结构化路数据Join

    • 新增 2022-03-29

      · 离线业务分析-各科目热点题分析 · 离线业务分析-各科目推荐题分析

    • 新增 2022-03-22

      · StructuredStreaming 物联网设备数据分析案例 · StructuredStreaming 基于事件时间的窗口

    • 新增 2022-03-15

      · SparkSQL底层执行原理 · StructedStream结构化流内容 · Pandas的教育案例数仓实战

    • 升级 2022-03-08

      · 升级Spark版本到3.2 · 升级Spark的主流开发语言为Python · 优化Spark的Standalone方式安装,使用local和yarn模式 · Spark3.2整合Hive3.1.2版本兼容问题

    • 新增 2022-03-01

      · MySQL的教育案例数仓实战 · Pandas基础使用,作为理解Spark数据类型的基础 · Pandas的Series数据结构 · 增加在线教育案例

    • 新增 2022-02-25

      · Python版本Hbase的API调用 · Python的教育案例数仓实战 · StructuredStreaming Sink内容 · StructuredStreaming 整合Kafka

    • 新增 2022-02-18

      · Flume采集MoMo数据集场景 · 实时和离线方式处理数据场景 · Python版本Kafka的调用 · NoSQL阶段多场景项目实战

    • 新增 2022-02-11

      · Flume1.9数据采集方式 · Hbase2.x新特性

      升级

      · Hbase的BulkLoader全量数据加载方式

    • 新增 2022-02-04

      · Python版本MapReduce写法

    • 新增 2022-01-28

      · python脚本实现增量从oracle导入数据到hdfs中 · python脚本实现全量从oracle导入数据到hdfs中 · python脚本实现上传avro文件到hdfs上

    • 新增 2022-01-21

      · python脚本实现压缩表的avro文件为tar.gz文件 · python脚本实现avro压缩文件上传hdfs · python实现读取oracle表原始数据 · python实现创建hive表 · python实现创建hive表

    • 新增 2022-01-14

      · python实现自定义记录日志 · python实现读取一行行文本文件工具类 · python读取表信息转对象方法 · python实现sparksql创建数据库和表 · python实现sparksql创建分区关联表对应的hdfs数据方法

    • 新增 2022-01-07

      · python实现sparksql查询ods层明细数据并加载到dwd层方法 · python实现sparksql查询ods层明细数据并加载到dwd层方法 · 造数据平台 · 新特殊字段类型

    • 新增 2021-12-24

      · 字段类型 · flink源码前置基础 · 源码的编译和部署 · flink启动脚本的解读 · yarn-per-job模式解析

    • 新增 2021-12-17

      · flink任务调度机制 · flink内存模型 · HIve3新特性 · Hive3数据压缩,存储格式等内容 · Hadoop3新特性

    • 新增 2021-12-10

      · 概念和通用api介绍 · sqlclient工具的使用 · catalogs知识点的学习 · 流处理中的概念介绍

    • 新增 2021-12-03

      · flinksql中的窗口使用(Application Mode) · FlinkSQL函数操作 · Flinksql连接到外部系统 · flinksql的原理和调优 · sql操作参考

    • 新增 2021-11-26

      · flink on yarn的第三种部署方式(Application Mode) · 自定义source · transformation算子minby和maxby · transformation算子minby和maxby · flink的global window的操作

    • 新增 2021-11-19

      · flink内置水印函数的操作 · flink的window的ReduceFunction · flink的window的AggregateFunction · flink的window的ProcessWindowFunction · flink的window的具有增量聚合的ProcessWindowFunction

    • 新增 2021-11-12

      · flink的window的在 ProcessWindowFunction 中使用每个窗口状态 · flink的state的ttl机制 · flink的state的数据结构的api升级例 · flink的Queryable State知识点 · 异步io的vertx框架实现

    • 新增 2021-11-05

      · flink的join操作 · Streaming File Sink连接器的小文件操作 · 数据类型及序列化的原理和实现案例 · 热门销售排行TopN的使用案例 · 布隆过滤器结合TTL的使用案例

    • 新增 2021-10-29

      · PySpark的安装 · PySpark任务提交方式 · PySpark多种模式spark-submit · PySpark多种模式spark-submit

    • 新增 2021-10-22

      · Anaconda安装使用 · Python实现RDD的基础的Transformation操作 · Python实现RDD的Action操作 · Python实现Sougou分词案例 · Python实现IP热度分析案例

    • 新增 2021-10-15

      · Python实现PV-UV-TOPK案例 · Python实现累加器及案例优化 · Python实现广播变量案例及优化 · Python实现缓存案例及优化实现 · PySparkSQL实现基础统计操作

    • 新增 2021-10-08

      · PySpark实现DataFrame的基础操作 · PySpark实现DataFrame的wordcount操作 · PySpark实现DataFrame和RDD的转换操作 · PySpark实现电影评分数据集分析

    • 新增 2021-09-24

      · PySpark的底层Dataframe如何转化为RDD的原理操作 · PySparkSQL的优化方式 · PySparkSQL分布式引擎实现 · PySparkSQL与HIve整合 · PySpark离线教育案例

    • 新增 2021-09-17

      · PySpark新零售分析案例 · ETL、ELT区别 · Hive CTE表达式、更新union联合查询 · 大数据5V特点 · 大数据多个应用场景

    • 更新 2021-09-10

      · pandas及可视化课程迭代至v2.01 · 数据分析多场景项目迭代至v1.81 · 最新版Python基础编程v2.01 · 最新版Python编程进阶更新迭代至v2.01 · 制定v2.0版本课程大纲

    • 升级 2021-09-03

      · 完善flink的运行架构内容 · 完善flink与kafka连接器的操作 · 完善flink的window操作的讲义 · 完善ODS层,新增和更新抽取方式,画图错误

    • 更新 2021-08-27

      · Flink版本为1.13最新版 · Flink table sql的整体概述 · 项目开发语言为spark官方使用最多的python语言

    • 更新 2021-08-20

      · Spark语言为官方使用最多的Python语言 · Spark版本为3.1.2发行版,Hive3.1.2版本

    • 优化 2021-08-13

      · 升级HDFS读写流程原理图 · 升级Hadoop为最新3.3.0版本 · 升级编排Linux2天讲义升级编排Linux2天讲义 · 升级Mysql RPM安装方式以支持hive3

    • 优化 2021-08-06

      · 优化Hive知识点案例 同步为Hive3版本 · 优化Linux基础命令,删除了不常用命令 · 优化使用Python实现MR原理机制

    • 优化 2021-08-03

      · 优化OLAP、OLTP区别 · 优化Hadoop版本安装及注意事项 · 优化Hadoop版本安装及注意事项 · 优化Hive版本为最新的3.1.2版本

    • 优化 2021-07-27

      · 优化HIve3.x架构 · 优化PySpark执行流程,引入Py4J技术 · 优化车联网Web展示部分 · 优化车联网离线Hive数仓构建部分

    • 新增 2021-07-20

      · 新增数仓整体设计图 · 新增技术选型设计图 · 新增项目原始数据库结构图

    • 新增 2021-07-13

      · 新增油站维度 · 新增服务属性维度 · 新增物流公司维度 · 新增故障维度

    • 新增 2021-07-06

      · 新增行程地理区域维度 · 新增组织机构维度 · 新增服务网点维度 · 新增数仓建模方法论 · 新增日期维度程序生成

    • 新增 2021-06-29

      · 新增维度模型选型 · 新增自动创建hive表 · 新增自动创建hive分区 · 新增自动关联hdfs数据 · 新增自动导入oracle数据

    • 新增 2021-06-22

      · 新增自动创建文件目录 · 新增记录自动化过程日志 · 新增java和数据结构大数据题目4个 · 新增算法题目4个 · 新增Hadoop题目6个

    • 新增 2021-06-15

      · 新增hive题目3个 · 新增spark题目7个 · 新增flink题目4个 · 新增其他大数据组件题目4个 · 新增美团大数据架构

    • 新增 2021-06-08

      · 新增平安大数据架构解决方案 · 新增小米大数据架构解决方案 · 新增百度广告业务场景大数据架构解决方案

    • 新增 2021-06-01

      · 新增Flume1.9数据采集方式 · 新增Flume采集MoMo数据集场景 · 新增实时和离线方式处理数据场景 · 新增SparkWebUI功能解释

    • 新增 2021-05-25

      · 新增SparkSQL比重 · 新增StructedStream双流Join知识点 · 新增Spark多语言开发-JavaSpark和PySpark

    • 新增 2021-05-18

      · 新增SparkMlLib-ALS推荐算法案例和原理 · 新增SparkMlLib-线性回归算法案例和原理 · 新增SparkMlLib-决策树算法案例和原理

    • 新增 2021-05-11

      · 新增Spark3.0新特性 · 新增Spark性能调优九项原则、N多配置参数、数据倾斜、shuffle优化 · 新增IP查询案例

    • 新增 2021-05-04

      · 新增教师案例Spark案例 · 新增DataStream、Window、Watermaker新版API使用讲解 · 新增FlinkSQL&Table理论部分比重,使用新版API · 新增FlinkSQL整合Kafka案例 · 新增双流Join知识点和案例

    • 新增 2021-04-26

      · 新增Execl数据分析,整合Execl图标、透视表等使用 · 新增Execl分析项目 · 数据仪表板展示 · 新增Tableau的BI分析工具及项目实战

    • 新增 2021-04-19

      · 新增数据分析的Python语言 · 新增Python基础语法与高级特性 · 新增Python整合SQL的操作及案例 · 新增网络爬虫数据采集基础及案例

    • 新增 2021-04-12

      · 新增Python高阶语法支持 · 新增Selenium自动化工具开发 · 新增多场景爬虫项目实战 · 新增Python的Numpy及Pandas数据分析框架

    • 新增 2021-04-05

      · 新增Pandas数据清洗,数据整理及案例实战 · 新增Matplotlib等数据可视化操作及案例实战 · 新增Python机器学习原理理解,增加回归、分类及聚类 · 算法原理

    • 新增 2021-03-29

      · 新增Python机器学习库Sklearn多任务实战 · 新增零售行业数据分析及挖掘项目案例 · 新增电商行业数据分析及挖掘项目案例

    • 新增 2021-03-15

      · 腾讯聊天机器人 · 腾讯文字识别 · python操作mycat · 小程序开发

    • 新增 2021-03-08

      · django_extensions使用 · axios网易案例 · 阿里云方案 · django-channels使用

    • 新增 2021-03-01

      · pytest自定义插件使用 · pytest异步调用 · pytest定时执行 · pytest标记使用

    • 升级 2021-02-22

      · Cookie和Session使用 · Django类装饰器 · Django多对多查询 · Django关联查询

    • 升级 2021-02-15

      · 推荐算法 · 数据可视化 · sql数据查询 · H5语法

    • 升级 2021-02-08

      · 美多状态保持 · Django框架请求对象获取数据 · Django模版 · Django拓展类

    • 新增 2021-02-01

      · asyncio编程 · RabbitMQ的Confirm机制 · RocketMQ使用 · Celery定时任务

    • 增加 2021-01-25

      · Angular管道 · Angular路由 · Angular使用HTTP · Angular表单

    • 增加 2021-01-18

      · Ant Design · TypeScript类型断言制 · TypeScript内置对象 · TypeScript代码检查

    • 升级 2021-01-11

      · Django认证 · Django权限控制 · 美多商城发送短信 · 美多商场QQ登录

    • 优化 2021-01-04

      · SQL查询 · 数据仓库 · 业务报表 · Pandas

    • 新增 2020-12-28

      · 机器学习排序算法 · 购物篮分析 · RFM模型 · K均值聚类算法

    • 新增 2020-12-21

      · 物品画像 · 用户画像 · 召回算法 · 漏斗分析

    • 升级 2020-12-14

      · 状态保持 · 权限管理 · 页面静态化 · xpath工具

    • 升级 2020-12-07

      · 极验验证 · jieba分词 · shell代码发布 · 对象存储

    • 新增 2020-11-30

      · ES集群搭建 · IK中文分词 · ES聚合查询 · ES冻结解冻索引

    • 新增 2020-11-23

      · Kafka Broker集群 · Topic模型 · kafka数据备份 · kafka消息持久化

    • 升级 2020-11-16

      · pandas的apply方法 · pandas的transform方法 · pandas的to_numeric函数 · Pandas内置聚合方法

    • 升级 2020-11-09

      · elk日志监控 · shell代码发布 · ubuntu版本20.04 · 移动端测试

    • 优化 2020-11-02

      · mysql读写分离 · reids哨兵 · redis安全限制 · Keepalived非抢占模式

    • 新增 2020-10-26

      · VIP脑裂 · MyCAT使用 · WA配置使用 · redis持久化

    • 新增 2020-10-19

      · HA Cluster高可用集群 · Keepalived使用 · VRRP协议 · nginx服务切换

    • 升级 2020-10-12

      · fastDFS使用 · shell使用 · docker使用 · nginx使用

    • 升级 2020-10-05

      · cookie和session案例 · mysql主从 · mysql集群 · redis主从

    • 升级 2020-09-28

      · Django用户权鉴 · Django表单 · Django-froms · Django站点管理

    • 新增 2020-09-07

      · Ansible使用 · AWX使用 · ceph使用 · zabbix使用

    • 升级 2020-08-31

      · 登录判断中间件 · cache缓存使用 · 购物车数据存储 · git冲突解决

    • 新增 2020-08-24

      · pyautogui使用 · uiautomator使用 · PO模式 · mock测试

    • 新增 2020-08-17

      · Django转换器 · Django用户认证拓展类 · Django权限认证拓展类 · Haystack搜索类

    • 升级 2020-08-10

      · python操作reids · redis高可用 · redis集群搭建 · redis持久化

    • 升级 2020-08-03

      · mysql事务使用 · mysql主从搭建 · mysql客户端使用 · mysql外键操作

    • 新增 2020-07-27

      · mongodb聚合 · mongodb索引 · mongodb权限 · 常见反爬手段

    • 新增 2020-07-20

      · 缓存击穿 · 缓存雪崩 · 雪花算法

    • 升级 2020-07-13

      · Locust 性能测试 shell编程 · msyql数据库 · redis缓存 ·

    • 升级 2020-07-06

      · redis集群 · gitfollow工作流 · 定时爬虫 · elk

    • 升级 2020-06-29

      · 响应对象的处理 · 细化Cookie及Session的处理 · 链接失效的爬虫案例 · 美后台权限控制

    • 新增 2020-06-22

      · 高性能爬虫 · 多线程爬虫案例 · Flask-Migrate 数据模型设计 · 智慧大屏案例

    • 升级 2020-06-15

      · UnitTest断言: 比较断言,复杂断言 · 路由系统全线升级 · 数据图片化反爬 · redis缓存

    • 新增 2020-06-08

      · Jmter 图形监视器扩展插件 · 警告断言 · 异常断言 · Jmter性能调试

    • 新增 2020-06-01

      · 性能测试报告分析 · 新增分库访问 · 优化Fixtures的参数化 · protometheus使用

    • 新增 2020-05-25

      · flask-sqlalchemy二次开发 · 数据解析-BeautifulSoup4 · Jmeter分布式并发测试的配置 · zabbix使用

    • 新增 2020-05-18

      · Jmeter实现参数化 · 数据库测试 · 实现跨线程组传值 · lua基础

    • 新增 2020-05-11

      · 自定义读写分离 · 认证体系 · 访问劫持 · 安全策略

    • 新增 2020-05-04

      · Redis悲观锁 · 布隆过滤器 · 文件安全 · WAF实践

    • 升级 2020-04-27

      · 搜索接口结构 · elsticsearch使用 · celerybug处理 · rabbitMQ使用

    • 升级 2020-04-20

      · Locust关联 · Locust断言 · Locust各种业务场景下的参数化 · pipeline使用

    • 升级 2020-04-13

      · 更改Scrapy以及Scrapy-redis项目 · Selenium知识点演示案例 · redis哨兵机制 · mysql主从搭建

    • 升级 2020-04-06

      · 时间戳/页码/偏移量分页 · gitflow工作流 · sentry使用 · xss安全

    • 新增 2020-03-30

      · Pytest.mark · flask缓存工具类 · 多级缓存 · mysql注入攻击

    • 新增 2020-03-23

      · 禅道的不同角色使用 · Mysql垂直拆分 · Flask-SQLAlchemy的读写分离 · Mysql水平拆分

    • 升级 2020-03-16

      · 性能测试分类 · 性能监控指标 · 性能测试流程 · celery使用

    • 新增 2020-03-09

      · 定时抓取数据爬虫 · Appium对APP数据的抓取 · 常见性能测试工具优化 · Filebeat详解

    • 升级 2020-03-02

      · 禅道的部署方式 · django框架升级为2.25版本 · 美多详情页静态化 · 商品spu表结构

    • 新增 2020-01-16

      · 美多商城缓存 · elk日志监控 · docker部署美多商城 · shell代码发布

    • 升级 2020-01-09

      · 等价类划分法演示案例 · 边界值法的演示案例 · 容联云发送短信 · fastDFS图片上传

    • 新增 2020-01-02

      · 测试用例的设计方法 · 获取用户信息模块的单元测试 · 登录注册模块的单元测试 · jenkins使用

    • 升级 2019-12-26

      · Django自带单元测试模块 · Mysql数据库教法调整 · 黑马头条缓存使用 · dockerfile使用

    • 新增 2019-12-19

      · Locust 性能测试 · HttpLocust和Locust · TaskSet TaskSequence · seq_task

    • 升级 2019-11-28

      · 异常案例的讲解 · 代码健壮性提升方式 · 登录状态判断 · 异常处理

    • 升级 2019-11-21

      · 商品模块代码进行了调整 · Redis事务型管道 · 反爬案例 · 搜索方法优化

    • 新增 2019-11-14

      · 新增字体反爬 · Charles/fiddler抓包工具讲解 · Redis非事务型管道 · 新增shell编程

    • 升级 2019-11-07

      · PO模型 · Requests模块的使用 · Get/Post等Http请求 · 试用例的设计方法

    • 新增 2019-10-31

      · Flask项目搭建Flask-CORS · Fixtures实现SetUp和TearDown · 美多商城登录功能自动化测试 · Redis缓存数据集合

    • 升级 2019-10-24

      · 黑马头条前端代码 · 分布式事务 · 美多商城前台改为前后端分离模式 · admin后端管理站点讲解

    • 新增 2019-10-17

      · 美多商城支付模块单元测试 · Jmeter 性能测试报告 · TestCase Client FactoryRequest Mock · 美多商城下单模块性能测试

    • 新增 2019-10-10

      · 黑马头条业务逻辑: 用户认证 、修改头像 · 黑马头条业务逻辑: 频道管理 · 黑马头条业务逻辑: 文章列表/详情 · 黑马头条业务逻辑: 关注用户 评论回复

    2023.01.01 升级版本3.2

    课程名称

    Python+大数据开发课程

    课程推出时间

    2023.01.01

    课程版本号

    3.2

    主要使用开发工具

    PyCharm,IDEA,DataGrip,FinalShell

    课程介绍

    ● 优势1:课程升级深度调研市场需求,针对行业解决方案:离线数仓解决方案、用户画像解决方案、湖仓一体解决方案,打造多行业多场景大数据开发工程师。

    ● 优势2:6项目制,2大项目实战,新增PB级内存计算项目实战,应对企业级大数据开发工程师需求。

    ● 优势3:研究院精心研发基于实时技术栈全新架构的出行行业和电商行业大数据项目,让学生具备更强项目经验要求。

    ● 优势4:最短路径教会企业最实用的技术,案例练习促进吸收;每日作业夯实学习成果;阶段项目实战,学以致用。

    1

    新增 基于Flink的悠游出行大数据平台

    1

    新增 基于Flink的优购电商优选项目

    1

    新增 用户画像解决方案项目,包含了新零售、电商、金融保险等多行业画像解决方案

    1

    升级 Spark内存计算阶段项目实战

    1

    新增 大数据Java语言基础,为Flink技术栈提供语言支持

    1

    新增 SQL大厂面试题,贯穿课堂每日一练,提升SQL技术能力

    1

    新增 Hudi数据湖,Hudi on Hive构建湖仓一体架构

    1

    新增 Python版NoSQL课程,达到企业级万亿级数据存储目标

    1

    新增 Doris、ClickHouse多维数据分析

    1

    优化 亿品新零售项目中数仓建模理论基础,强化数仓建模工具使用

    1

    优化 车联网项目全新架构升级

    1

    优化 Flink技术课程版本更新至1.16,丰富实时计算新特性

    1

    优化 Spark技术课程版本更新至3.3.0,增加Spark新特性讲解

    1

    优化 优化Hadoop模块,增强Hive模块

    1

    优化 优化Python编程内容,为Spark提供语言支持

    1

    优化 ETL项目增加从HDFS到Hive的数据抽取、转换、加载方式

    1

    优化 ETL项目增加DataX数据采集

    1

    优化 ETL项目增加Apache DolphinScheduler调度全流程数据处理过程

    1

    优化 Flink技术栈突出以FlinkSQL为主核心技术

    点击加载更多>>
    2022.06.01 升级版本3.0

    课程名称

    Python+大数据开发课程

    课程推出时间

    2022.06.01

    课程版本号

    3.0

    主要针对

    技术课程:ETL开发、NoSQL中间件课程、新版Flink课程

    主要使用开发工具

    PyCharm、DataGrip、FinalShell

    课程介绍

    ● Python大数据V3.0课程全新升级,紧贴各类企业招聘需求,采用六项目制驱动技术学习,助力国家数字化转型对数字人才的大量需求

    ● 多位Apache社区贡献者联袂授课,从原理、实战到源码,带你迈入高级开发工程师行列

    ● 课程覆盖企业级大数据四大主流解决方案,包括离线数仓解决方案、用户画像解决方案、流批一体解决方案和湖仓一体解决方案,再现公司中真实的开发场景,目标不止于就业,而是成为各类企业争抢的大数据开发工程师。

    ● 课程升级主流大数据技术栈,全新Hadoop3.2,Spark3.2,Flink1.15技术剖析和新特性使用,推出Python全栈ETL开发课程,不仅可以学习到完整的基础ETL流程、工具,更能胜任千亿级、亚秒级等复杂数据源情况下的工作。

    ● 新增基于Python和SQL的Flink课程,满足就业市场中,大数据开发岗位更多的依赖SQL、Python的需求变化。

    ● 新增 基于Python的Kafka、Elasticsearch等全新课程,夯实实时计算开发基础能力,帮助学员掌握数据开发工程师重要技能。

    ● 新增 新版面试加强课,内容集成了大厂架构解析、SQL专项面试宝典,以及不断滚动更新的全网大数据岗位面试题讲解,助力学员高起点就业。

    1

    新增 基于Python的全栈ETL开发课程,助力学员胜任ETL中高级开发岗位

    1

    新增 全网基于PySpark技术栈的用户画像项目,替换原有旧项目,提升简历含金量

    1

    新增 知行教育项目实战,学习完整企业级项目实战流程,让学生真正掌握大数据开发精髓

    1

    升级 Spark技术课程为20223.2版本、Flink技术课程为20221.15版本,全网率先加入Pandas on Spark数据开发内容

    1

    新增 FlinkSQL湖仓一体项目、FlinkSQL流批一体课程,进阶Flink高阶工程师,助力突破年薪50W

    1

    新增 SparkSQL底层执行原理,StructuredStreaming结构化流内容

    1

    升级 Spark3.2整合Hive3.1.2版本兼容问题

    1

    新增 Pandas_udf函数,通过Apache Arrow框架优化数据处理速度;Pandas技术栈,能够处理中小型数据量

    1

    新增 Python版NoSQL课程,达到企业级万亿级数据存储目标

    1

    新增 Kafka-Python完成企业级消息队列流量削峰, 异步通信等任务

    1

    新增 ElasticSearch技术栈,达到企业级大数据搜索工程师目标

    1

    升级 PySpark的DataFrame操作、Flink任务调度机制以及Flink内存模型、Flink table&sql的整体概述

    1

    新增 FlinkSQL的原理和调优、Flink on Yarn的多种部署方式、Flink transformation的八大物理分区的原理和实现、Flink的window窗口操作,以及内置水印函数的操作

    1

    新增 Hadoop3.x新特性、Hive3.x新特性,以及数据压缩、存储格式等内容

    1

    升级 Python基础,增加PyEcharts等BI内容,实现可视化大屏

    1

    新增 Presto对接多数据源实现企业级大数据OLAP分析、Presto加速对Hive数仓之上数据构建大数据分析引擎,实现多维指标计算

    1

    新增 企业级BI工具FineBI,适用于多行业项目BI大屏展示,助力企业数字决策

    1

    新增 Flink table&sql概念和通用api介绍、sqlclient工具的使用、catalogs知识点的学习、流处理中的概念介绍

    1

    新增 FlinkSQL中的窗口使用、FlinkSQL函数操作、Flinksql连接到外部系统

    1

    新增 Flink源码前置基础、源码的编译和部署、Flink启动脚本的解读、yarn-per-job模式解析

    1

    升级 车联网Web展示部分、车联网离线Hive数仓构建部分

    2021.06.01 升级版本2.0

    课程名称

    Python+大数据开发课程

    课程推出时间

    2021.06.01

    课程版本号

    2.0

    主要针对

    新零售数仓项目、云上服务器集群

    主要使用开发工具

    新零售数仓项目、云上服务器集群

    课程介绍

    ● 经过不断的版本迭代,正式推出新零售数仓项目课程,替换原有的旧项目,打造过硬的项目实战经验

    ● 新增价值百万的UCcloud云上集群生产环境用于学习,完全云服务开发环境体验

    ● 新增项目实战环节,再现企业中真实工作场景,夯实开发实战能力

    1

    升级 PySpark执行流程

    1

    新增 Spark3.x新特性以及性能调优九项原则

    1

    升级 Hive版本为新的3.x版本

    1

    新增 自动导入oracle数据,自动创建hive表,自动创建hive分区,自动关联hdfs数据,自动创建文件目录,并记录自动化过程日志

    1

    升级 Flink版本为新版

    1

    新增 FlinkSQL&Table理论部分比重,使用新版API,使用新增FlinkSQL整合Kafka案例

    1

    新增 美团、平安、小米大数据架构,以及百度广告业务场景大数据架构解决方案

    1

    新增 flink的global window的操作、内置水印函数的操作

    1

    升级 flink的window的ReduceFunction、AggregateFunction、ProcessWindowFunction、具有增量聚合的ProcessWindowFunction、在 ProcessWindowFunction 中使用每个窗口状态

    1

    新增 flink的state的ttl机制、state的数据结构的api升级、Queryable State知识点

    1

    新增 Flink异步io的vertx框架实现、flink的join操作(Tumbling Window Join、Sliding Window Join、Session Window Join)

    1

    新增 Streaming File Sink连接器的小文件操作

    1

    新增 数据类型及序列化的原理和实现案例

    1

    新增 Flink Action综合练习:热门销售排行TopN的使用案例、布隆过滤器结合TTL的使用案例

    2021.01.01 升级版本1.6

    课程名称

    Python+大数据开发课程

    课程推出时间

    2021.01.01

    课程版本号

    1.6

    主要针对

    Spark3.x

    主要使用开发工具

    Pycharm、Idea、Datagrip、FinalShell

    课程介绍

    ● 针对Spark3.x版本的重大更新,应对就业岗位需求的快速变化,大数据课程推出基于Python的Spark课程

    ● 新增大数据工程师必备的SQL面试进阶强化内容,提升大数据开发工程师核心SQL能力

    ● 新增大厂数仓架构专题内容,提升数据仓库建设能力

    1

    升级 Hadoop为3.3.0版本、Hive版本为3.1.2版本、HIve3.x架构

    1

    新增 使用Python实现MR原理机制、OLAP、OLTP区别

    1

    新增 MapReduce计算PI原理、MapReduce Python接口调用、Hadoop Streaming提交程序、ETL、ELT区别

    1

    新增 HIve3新特性、Hive3数据压缩,存储格式、Hive CTE表达式

    1

    升级 union联合查询、Hive知识点案例 同步为Hive3版本、Linux课程、Mysql RPM安装方式以支持hive3

    1

    升级 Spark语言为官方推荐使用的Python语言、版本更新为Spark3.1.2发行版、adoop3.3.0、Hive3.1.2版本

    1

    新增 PySpark的安装、任务提交方式、多种模式spark-submit、实现wordcount案例实战

    1

    新增 Python实现RDD操作、DataFrame操作、实现Sougou分词案例、IP热度分析案例、PV-UV-TOPK案例

    1

    新增 PySparkSQL实现基础统计操作、底层Dataframe转化RDD原理操作、实现电影评分数据集分析、离线教育案例、新零售分析案例

    1

    新增 PySparkSQL的优化方式、分布式引擎实现、与HIve整合

    2020.06.01 重磅推出 新版1.0

    课程名称

    Python+大数据开发课程

    课程推出时间

    2020.06.01

    课程版本号

    1.0

    主要针对

    大数据引入Python语言、Pandas数据分析

    主要使用开发工具

    Pycharm、Idea、Datagrip

    课程介绍

    ● 8.1版本以前的数据开发课程,需要一定Java基础和工作经验,为了帮助进入数据开发行业的零基础学员找到适宜的入门途径,大数据引入Python语言,全新升级为Python+大数据开发1.0版本。

    ● 学习Python大数据开发,以Python技术栈处理中小型数据集,以大数据技术栈处理海量大规模数据,成为全能企业级数据开发人才。

    ● 其特点适合零基础学员,从完全没有编程经验开始;课程内容宽并且深,技术大牛亲自授课;面向市场,学即可用,能让学员高薪就业。

    1

    新增 Python基础语言课程

    1

    新增 Python高级语言进阶课程

    1

    新增 Python爬虫课程

    1

    新增 Pandas数据分析课程

    1

    新增 多场景案例分析,应对中小型数据统计分析

    2020.01.01 升级版本8.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2020.01.01

    课程版本号

    8.0

    主要针对系统

    Windows、Linux、MacOS

    主要使用开发工具

    DataGrip、IDEA

    课程介绍

    ● 根据大量的行业调研分析,本次课程更新以大数据开发为主线,在7.0基础上再次缩减Java课程占比,弱化各类组件安装。

    ● 针对大数据技术深度和广度进行升级,例如新增Spark内存管理、Flink性能优化及反压、背压原理等同时为提高学员的就业薪资,推出多行业项目解决方案,例如证券、物流等。

    ● 以周为单位进行课程更新升级,新增Elastic Stack、 出行、电商、视频、社交等领域大数据解决方案、 一线大厂技术架构、 新零售大数据项目实战,离线实时全覆盖。

    1

    新增 数据仓库、ETL、BI开发

    1

    新增 Oracle及PLSQL编程、数据微服务开发

    1

    新增 Spark的内存管理、avro序列化数据源

    1

    新增 continuous processing、偏移量管理机制

    1

    新增 KafkaStreams编程、exactly-once、Kafka事务、metrics监控

    1

    新增 Hbase的协处理器和phoneix的二级索引实现、布隆过滤器、LSM树、StoreFiles结构剖析

    1

    新增 FLink性能优化及反压、背压指标计算原理、FlinkSQL On Hive、Flink HistoryServer、Flink的UDF、UDAF、UDTF的实现

    1

    新增 在线教育行业、物流行业、物联网行业、证券行业项目

    1

    升级 分布式缓存系统, 万亿级NoSQL海量数据存储, 分布式流处理平台、电商行业项目

    1

    删除 删减 JavaWeb

    2019.07.22 升级版本7.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2019.07.22

    课程版本号

    7.0

    主要针对版本

    CDH5.14、Spark2.2.0、Flink1.8、Kafka0.11.0.2、ELK6.0

    主要使用开发工具

    IntelliJ IDEAA

    课程介绍

    ● 大数据技术目前在企业里面使用的越来越广泛,对大数据人才的需求越来越多,大数据的整个课程体系是由来自大型互联网、外企等具有5年以上的一线大数据高级工程师、架构师和高级机器学习工程师设计出来的,内容含金量非常高。

    ● 课程体系涉及的技术以企业需求为导向,课程涉及的项目也是企业里面真实的项目,通过理论、实践和真实的项目相结合,让学员能够快速、深刻的掌握大数据常用的核心技术和开发应用,同时可以满足企业对中、高端大数据人才的需求。

    ● 大数据课程体系除了包含常用的Hadoop、Hive、Hbase、ELK、Sqoop、Flume、Kafka、Spark等技术和项目,还新增了目前互联网比较流行的Flink、Druid、Kylin等技术和项目,同时引入了机器学习和深度学习Spark Mllib和Tensorflow等技术和项目实战。

    1

    新增 Impala即席查询组件、Kudu列存储服务、Structured Streaming结构化数据流处理

    1

    新增 spark MLlib数据挖掘、spark graphX图计算

    1

    升级 Flink的基础课程和案例实战

    1

    新增 Flink高级特性CEP、Kylin数据OLAP分析、Druid时序数据实时分析、Kettle数据ETL工具

    1

    新增 深度学习框架Tensorflow

    1

    新增 用户画像、数据仓库大型企业实战型项目

    2018.09.10 升级版本6.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2018.09.10

    课程版本号

    6.0

    主要针对版本

    JDK1.8\CDH2.7.4\Storm1.1.1\Spark 2.1

    主要使用开发工具

    IntelliJ IDEA

    课程介绍

    ● 本课程是基于V5.0的一次重大更新,汇总并收集了大数据学科一年以来15个零基础班级的授课信息、学习信息、就业信息。

    ● 重新调整了课程的分布情况,新增了大数据综合项目,新增了第四代大数据处理框架FLink,新增了数据库优化,新增了JVM基础及原理,新增了Spark性能调优等内容。

    ● 课程升级方面,主要对机器学习课程进行了升级,推荐系统项目后置变成7天的丰富课程,提升学员进入机器学习的竞争力,从而更好的从事人工智能领域相关的工作。

    ● 整体而言,课程在培养中高级大数据工程师的方向上又前进了一大步。

    1

    新增 Hadoop 2.7.2\Storm1.1.1\Spark 2.1

    1

    新增 Java virtual machine原理分析、Java高并发核心知识

    1

    新增 数据库优化及调优、第四代大数据处理框架Apache Flink、Spark原理深入剖析及生产调优

    1

    新增 互联网反欺诈项目实战、广告系统业务模型及CTR预估

    1

    新增 用户画像、数据仓库大型企业实战型项目

    1

    升级 用户画像概述/数据/建模/算法实战、推荐系统协同过滤算法实战、基于内容的推荐系统实战、基于关联规则推荐系统实战

    1

    升级 混合推荐与CTR点击预估

    1

    升级 Hadoop版本为CDH

    2017.07.01 升级版本5.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2017.07.01

    课程版本号

    5.0

    主要针对版本

    JDK1.8\Hadoop 2.7.2\Storm1.1.1\Spark 2.1

    主要使用开发工具

    Eclipse、IDEA

    课程介绍

    ● Java基础、JavaWeb核心编程、JavaWeb三大框架、网络爬虫、分布式电商网站开发等课程模块。培养学生编程能力,让零基础学员能够更好的学习大数据项目。

    ● 大数据方面方面,新增点击流日志收集系统、用户日志分析报表系统、用户画像系统等案例。让学员不仅仅学习到大数据技术点,能够使用大数据解决实际问题。

    ● 扩充机器学习课程为10天。该课程历时一年研发,深入浅出,能够让学员更好的入门机器学习,成为人工智能开发的初级工程师。

    1

    升级 Hadoop 2.7.2\Storm1.1.1\Spark 2.1

    1

    新增 网络爬虫开发

    1

    新增 三大框架开发

    1

    新增 JavaWeb核心

    1

    新增 Java语言基础

    2016.03.01 升级版本4.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2016.03.01

    课程版本号

    4.0

    主要针对版本

    JDK7.x

    主要使用开发工具

    Eclipse、IDEA

    课程介绍

    ● 对比原有课程,本次课程做了重大更新,将大数据的核心技术hadoop及其生态圈技术完美的融入到了课程中。

    ● 课程分阶段的进行案例实战和项目实战,在大数据方面知识体系更加完整,课程更加深度有深度,更加贴近实战。

    ● 分阶段的进行大数据生态圈的学习,将生态圈分为离线处理,实时流计算和实现火热的spark内存计算,完美的将生态圈进行了抽离和归类,让学习变得更便捷。

    1

    升级 Spark1.6版本

    1

    新增 Linux操作系统和shell脚本学习

    1

    新增 JVM内存模型分析、NIO、Netty、自定义RPC框架

    1

    新增 电商点击流日志分析、电商实时日志告警平台、交易风控风控平台、流量日志分析分析

    1

    新增 Spark游戏日志分析项目

    1

    删除 KVM虚拟化技术、网络基础和OpenvSwitch技术、Ceph存储技术

    1

    删除 CloudStack云管理平台、混合云管理平台项目

    2015.05.15 升级版本3.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2015.05.15

    课程版本号

    3.0

    主要针对版本

    JDK7.x

    主要使用开发工具

    Eclipse、IDEA

    课程介绍

    ● 本次更新将大数据和虚拟化这两大热门技术加入到课程体系中,在大数据方面知识体系更加完整,课程更加深度有深度,更加贴近实战。

    ● 在虚拟化方面,选择了在云计算领域常用的虚拟化、网络、存储等技术,并通过Apache CloudStack技术整合,在此基础上开发混合云管理平台。

    1

    升级 Hadoop2.0版本、Hive优化课程

    1

    新增 电信流量运营分析项目、混合云管理平台项目

    1

    新增 Scala函数式编程、Spark内存计算、KVM虚拟化技术

    1

    新增 网络基础和OpenvSwitch技术

    1

    新增 Ceph存储技术、CloudStack云管理平台

    2014.02.15 升级版本2.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2014.02.15

    课程版本号

    2.0

    主要针对版本

    JDK6.x

    主要使用开发工具

    Eclipse

    课程介绍

    ● 随着近年来云计算大数据的大力发展,市场对相关人才需求急增,所以本版课程在原有的云计算课程进行了颠覆性的改革,把原来只有1天的课程扩展为7天,加入了Hadoop生态圈的相关技术。

    1

    升级 云计算课程、Hadoop集群部署、优化HDSF、MapReduce案例

    1

    新增 Hadoop生态圈相关技术:Zookeeper、Hive、Hbase、Sqoop、Flume

    1

    新增 Storm实时计算技术和案例

    1

    新增 黑马论坛日志分析项目

    2012.02.15 升级版本1.0

    课程名称

    云计算大数据实战班

    课程推出时间

    2012.02.15

    课程版本号

    1.0

    主要针对版本

    JDK6.0

    主要使用开发工具

    Eclipse

    课程介绍

    ● 近期云计算概念火爆异常,传智教育敏锐的嗅探到大数据技术的悄然兴起,并预测大数据技术将会像雨后春笋一样快速发展,所以传智教育与时俱进在课程中引入了1天的云计算课程,作为拥有大数据课程的培训机构,传智教育大数据实战班助力学员可以掌握新的技术,拓宽学员的就业方向,增强就业竞争力。

    1

    新增 云计算课程:云计算和大数据相关概念

    1

    新增 Hadoop 1.0伪分布式环境部署

    1

    新增 HDFS、MapReduce应用案例