1. 1. 第一章·导论(摘自南财MOOC)
    1. 1.1. 1.统计数据及其分类
      1. 1.1.1. 1.1数据类型一
      2. 1.1.2. 1.2数据类型二
      3. 1.1.3. 1.3数据类型三
      4. 1.1.4. 1.4数据类型四(变量)
    2. 1.2. 2.总体,样本,参数与统计量
  2. 2. 第二章·数据的搜集
    1. 2.1. 1.数据的来源
      1. 2.1.1. 1.1间接来源(二手数据)
      2. 2.1.2. 1.2直接来源(一手资料)
    2. 2.2. 2.数据调查
      1. 2.2.1. 2.1概率抽样与非概率抽样
        1. 2.2.1.1. 概率抽样
        2. 2.2.1.2. 非概率抽样
      2. 2.2.2. 2.2搜集数据的基本方法
      3. 2.2.3. 2.3实验数据
      4. 2.2.4. 2.4数据的误差
        1. 2.2.4.1. 抽样误差
        2. 2.2.4.2. 非抽样误差
        3. 2.2.4.3. 误差的控制
    3. 2.3. 3.本章知识框架
  3. 3. 第三章:数据的图表展示
    1. 3.1. 1.数据的预处理
    2. 3.2. 2.品质数据的整理与显示
      1. 3.2.1. 2.1分类数据的整理和图示
      2. 3.2.2. 2.2顺序数据的整理和图示
    3. 3.3. 3.数值型数据的整理与显示
      1. 3.3.1. 3.1数据分组
        1. 3.3.1.1. 单变量值分组
        2. 3.3.1.2. 组距分组
      2. 3.3.2. 3.2分组数据的图表
      3. 3.3.3. 3.3未分组数据的图表
      4. 3.3.4. 3.4时间序列数据:线图
      5. 3.3.5. 3.5多变量数据的图表
      6. 3.3.6. 3.6本节主要图表
    4. 3.4. 4.合理使用图表
      1. 3.4.1. 4.1鉴别图形优劣的准则
    5. 3.5. 5.本章知识框架
  4. 4. 第四章·数据的概括性度量
    1. 4.1. 1.集中趋势的度量
      1. 4.1.1. 1.1分类数据:众数(M0)
      2. 4.1.2. 1.2顺序数据:中位数(Me)和分位数(QL/QU)
        1. 4.1.2.1. 中位数
        2. 4.1.2.2. 分位数
      3. 4.1.3. 1.3数值型数据:平均数(X)
      4. 4.1.4. 1.5三数的关系
    2. 4.2. 2.离散程度的度量
      1. 4.2.1. 2.1分类数据:异众比率(Vr)
      2. 4.2.2. 2.2顺序数据:四分位差(Qd)
      3. 4.2.3. 2.3数值型数据:方差和标准差
      4. 4.2.4. 2.4相对位置的度量
        1. 4.2.4.1. 标准分数(Z分数)
        2. 4.2.4.2. 经验法则
        3. 4.2.4.3. 切比雪夫不等式
      5. 4.2.5. 2.5相对离散程度:离散系数(VS)
      6. 4.2.6. 2.6本节知识归纳
    3. 4.3. 3.偏态和峰态的度量
      1. 4.3.1. 3.1偏态及其测度
        1. 4.3.1.1. 偏态
        2. 4.3.1.2. 峰态
  5. 5. 第十三章·时间序列分析及预测
    1. 5.1. 1.时间序列及其分解原理
      1. 5.1.1. 1.1概念
      2. 5.1.2. 1.2分类
        1. 5.1.2.1. 平稳序列
        2. 5.1.2.2. 非平稳序列
      3. 5.1.3. 1.3时间序列的成分
        1. 5.1.3.1. 趋势(T)
        2. 5.1.3.2. 季节性(S)
        3. 5.1.3.3. 周期性(C)
        4. 5.1.3.4. 随机性(I)
    2. 5.2. 2.时间序列的描述性分析
      1. 5.2.1. 2.1图形描述
      2. 5.2.2. 2.2增长率分析
    3. 5.3. 3.时间序列中的预测程序
      1. 5.3.1. 3.1确定时间序列的成分
        1. 5.3.1.1. 确定趋势成分
        2. 5.3.1.2. 确定季节成分
      2. 5.3.2. 3.2选择预测方法
      3. 5.3.3. 3.3预测方法的评估
        1. 5.3.3.1. 平均误差(ME)
        2. 5.3.3.2. 平均绝对误差(MAD)
        3. 5.3.3.3. 均方误差(MSE)
        4. 5.3.3.4. 平均百分比误差(MPE)和平均绝对百分比(MAPE)误差
    4. 5.4. 4.平稳序列的预测
      1. 5.4.1. 4.1简单平均法
      2. 5.4.2. 4.2移动平均法
      3. 5.4.3. 4.3指数平滑法
        1. 5.4.3.1. 一次指数平滑
    5. 5.5. 5.趋势型序列的预测
      1. 5.5.1. 5.1线性趋势预测
      2. 5.5.2. 5.2非线性趋势预测
        1. 5.5.2.1. 指数曲线
        2. 5.5.2.2. 多阶曲线
    6. 5.6. 6.复合型序列的分解预测
      1. 5.6.1. 6.1复合型序列及其分解
      2. 5.6.2. 6.2确定并分离季节指数
        1. 5.6.2.1. 1.计算季节指数
        2. 5.6.2.2. 2.分离季节成分
  6. 6. 第十四章·指数(本章大多直接引用PPT内容)
    1. 6.1. 1.指数的基本问题
      1. 6.1.1. 1.1概念
      2. 6.1.2. 1.2分类
      3. 6.1.3. 1.3指数编制中的问题
    2. 6.2. 2.总指数编制方法
      1. 6.2.1. 2.1简单指数
        1. 6.2.1.1. 简单综合指数
        2. 6.2.1.2. 简单平均指数
      2. 6.2.2. 2.2加权综合指数
        1. 6.2.2.1. 拉式指数
        2. 6.2.2.2. 帕氏指数
      3. 6.2.3. 2.3加权平均指数
    3. 6.3. 3.指数体系
      1. 6.3.1. 3.1总量指数体系分析
      2. 6.3.2. 3.2平均数变动因素分析
    4. 6.4. 4.综合评价指数
  7. 7. 写在后面
  • 顺序数据(变量):优良及格,ABCD等。以 定序尺度 衡量。

  • 数值型数据(变量):产品产量,零件尺寸等。有两种尺度衡量: 定距尺度 定比尺度 。区别是 定距尺度 零点 ,而 定比尺度 零点 则意义不大。

    (注:分类数据与顺序数据也被统称为 品质数据 定性数据 )

    1.3数据类型三

    1. 相对数:绝对数一定有单位,相对数可能没有单位,常用相对数包括: 结构相对数 (以总体的总量作为比较标准), 动态相对数 (不同时期同类事物的水平作为比较标准), 比较相对数 (不同单位的同类现象对比得到的相对数), 计划完成相对数 (将计划完成数作为比较标准)。
    2. 1.4数据类型四(变量)

      分类一:

    3. 离散型变量:企业数,产品数量等
    4. 连续型变量:年龄,温度,零件的尺寸误差等
    5. 确定性变量:由确定性因素影响
    6. 随机变量:受各种不确定,偶然因素影响
    7. 2.总体,样本,参数与统计量

      总体:包含所研究的全部个体(数据)的集合

      样本:从总体中抽取的一部分元素的集合,抽取原则分为 随机 非随机

      参数:描述 总体 特征的概括性数字度量,例如: 总体平均数 总体标准差 总体比例 等等。

      统计量:描述 样本 特征的概括性数字度量,例如: 样本平均数 样本标准差 样本比例 等等。

      详细关系见图1-2:

      第二章·数据的搜集

      1.数据的来源

      1.1间接来源(二手数据)

      概念:与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。(如各类统计年鉴,专业期刊,报纸等提供的资料,图书馆查询到的资料。)

    8. 搜集容易,采集成本低。
    9. 所用广泛。
    10. 搜集二手资料在研究中应优先考虑。
    11. 局限性:资料相关性不够,口径不一致,数据不准确,时效性不同。
    12. 1.2直接来源(一手资料)

      1. 调查数据:通过 调查方法 获得的数据,通常对 社会现象 而言,通常取自有限总体。
      2. 实验数据:通过 实验方法 获得的数据,通常对于 自然现象 而言,也被广泛运用到心理学,教育学,社会学,经济学,管理学等领域。
      3. 2.数据调查

        2.1概率抽样与非概率抽样

        概率抽样

        概念:也称之为 随机抽样 ,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。

      4. 抽样时是按照一定的概率以随机原则抽取样本。
      5. 每个单位被抽中的概率是 已知 的,或是 可以被计算出
      6. 当用样本对总体目标量进行估计的时候,要考虑到每个样本单位被抽中的概率。也就是说估计量不仅与样本单位的观测值有关,也与其入样概率有关。(例如研究彩票能能否中奖的概率)。
      7. 1. 简单随机抽样 :从包括总体N个单位的抽样框中随机地一个一个的抽取n个单位作为样本,每个单位的入样概率是相等。(例如:调查南京市家庭的收入情况)

        优点:简单,直观,计量方便

        局限性:①要求将包含所有总体单位的名单作为抽样框,当N很大时,构造这样的抽样框并不容易。

        ②抽出的单位很分散,给实施调查增加了困难。

        ③没有利用其他辅助信息以提高估计的效率。

        2. 分层抽样 :将抽样单位按照某种特征或某种规则划分为不同的层,然后从不同的层中独立, 随机地抽取样本 。(例如:调查某学校大学生的身高,按不同年级进行分层,再各自抽样)

        优点:①保证了样本中包括有各种特征的抽样单位,样本结构与总体结构比较相近,有效提高估计的精度。

        ②在一定条件下为组织实施调查提供了方便。

        ③既可以对总体参数进行估计,也可以对各层的目标量进行估计。

        3. 整群抽样 :将总体中若干单位合并为组,这样的组称为 ,抽样时直接抽取 ,然后对选中群中的所有单位 全部实施 调查。(例如:调查南京市大学生的身高,理论上应该以南京全体大学生作为总体,但这会调查起来会很麻烦,这个时候采用整群抽样就会比较简单:在南京地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查)

        优点:①抽样时只需要 的抽样框,而不必要求具有所有单位的抽样框,大大简化了编制抽样框的工作量。

        ②调查地点相对集中,节省调查费用,方便调查实施。

        局限性:估计的精度较差,要得到与简单随机抽样相同的精度,需要增加基本调查单位。

        4. 等距抽样(系统抽样) :将总体中的所有单位按 一定顺序 排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按照事先规定好的规则确定其他样本单位。

        优点:操作简单,若有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。

        局限性:对估计量的方差的估计比较困难(了解即可)。

        5. 多阶段抽样 :采用类似整群抽样的方法,首先抽取群,然后再进一步抽样,从选中的群中取若干个单位进行调查,即 二阶段调查 是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多。

        优点:①保证样本相对集中,节约调查费用。

        ②不需要包含所有低阶段抽样单位的抽样框,同时由于实行了再抽样,使调查单位在更广泛的范围内展开。

        ③在较大规模的抽样调查中是经常被采用的方法。

        非概率抽样

        概念:指抽取样本是不是依据随机原则,二是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。

        1. 方便抽样 :由调查员依据方便原则,自行确定入抽样本的单位。(例如:厂家在出售产品的柜台前对路过的顾客进行调查,这个时候如果选择在养老院进行调查,就显得可笑了。)

        优点:容易实施,调查成本低。

        局限性:样本单位的确定带有随意性。

        2. 判断抽样 :研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有: 重点抽样 典型抽样 代表抽样 等方式。

      8. 重点抽样:从调查对象的全部单位中选择少数 重点 单位,对其实施调查
      9. 典型抽样:从整体中选择若干个 典型 的单位进行深入调研,目的是通过典型单位来描述或解释所研究问题的本质。
      10. 代表抽样:通过分析选择具有 代表性 的单位作为样本,在某种程度上也具有典型抽样的含义。
      11. (上面三种其实差不多,判断题中出现“选xx作为重点/典型/代表”,会判断属于判断抽样就行就行)

        优点:成本较低,容易操作

        局限性:主观性强,样本的好坏取决于调研者的判断、经验、专业程度和创造性,且调查结果不能用于对总体有关参数的估计

        3. 自愿抽样 :被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息,可反映某类人群的一般看法(例如一些书籍的末页,一般都会有相关的小问卷)

        4. 滚雪球抽样 :往往用于对 稀少的群体 的调查,适合对特定群体进行研究的资源调查。在滚雪球调研中,首先选择一组调查对象,对其实施调查之后,在请他们提供另外一些属于研究总体的调查对象,掉哈人员根据所提供的线索,进行此后的调查,这个过程持续下去,就会形成滚雪球效应。

        优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低。

        5. 配额抽样 :类似概率抽样中的 分层抽样 ,首先将总体中所有单位按一定的标志(变量)分为若干类,然后在每个类中采用 方便抽样 判断抽样 的方式(非概率抽样)选取样本单位。

        优点:操作简单,而且可以保证总体中不同类别的单位都能包括在所抽样本之中,使得样本结构和总体结构类似。

        小结 (概率抽样与非概率抽样的比较):

        ①概率抽样遵循随机原则,对估计的精度要求较高。非概率则不遵循随机原则,无法使用样本的结果对总体相应的参数进行推断。

        ②概率抽样技术含量较高,要求有较高统计学专业知识,非概率抽样则不需要。

        ③概率抽样用来进行 参数及区间估计 ,非概率抽样用于 探索性研究 ,为更深入的数量分析提供准备

        ④概率抽样比非概率抽样成本高。

        2.2搜集数据的基本方法

        1. 自填式 :指在没有调查员协助的情况下由被调查者自己填写完成的问卷

        优点:管理相对简单;成本低;可以进行大范围的调查;作答时间方便;同时可以避免被调查者回答 敏感性问题 的压力。

        局限性:问卷回收率比较 ,不适合结构复杂的问卷。调查周期比较 ;数据搜集过程中出现的问题难于及时采取调改措施。

        2. 面访式 :指现场调查员与被调查者面对面,调查员提问。被调查者回答这种调查方式。

        优点:调查的回答率 ;调查数据质量高;能对数据搜集进展的速度进行调节。

        弱点:是对调查的 成本较高 ;在对调查过程的质量控制方面有一定难度;敏感性问题回答的可能性较小

        3. 电话式 :是指调查人员通过打电话的方式向被调查者实施调查。

        优点:速度快,数据收集成本小,适合于样本单位十分 分散 的情况。

        局限性:如果被调查者没有电话,调查将无法实施(相对较少);访问时间不能太长(电话费也是钱啊);使用的问卷需要比较简单;被访者不愿意接受调查时难以说服。

        4. 观察式 :调查人员通过直接观察的方法获取信息。

        以上三种主要搜集数据方法的特点比较如下图:

        2.3实验数据

        实验数据指在实验中控制实验对象而搜集到的数据。

        2.4数据的误差

        抽样误差

        概念:由抽样的随机性引起,要注意抽样误差 不是 针对某个具体样本检测结果与总体真实结果的差异,抽样误差描述的是所有样本可能的结果与总体针织之间的 平均差异 。(比如你在一批零件中挑一个,看有没有达标,这不叫抽样误差,抽样误差是指比如你在一批零件中每次挑100个零件,每组的100个零件中的达标率与所有零件的达标率都会有差异,这些差异的平均差异才是由抽样误差引起的)

        影响因素:

      12. 样本量大小 :样本量越大,误差越小;样本量大到等于总体单位时,抽样调查变为普查,抽样误差为零。
      13. 总体变异性 :总体变异性越大(即各单位之间的差异越大),抽样误差越大;如果所有单位完全一样,调查一个就可以精确无误的推断总体,抽样误差就不存在。
      14. 抽样方法 :一般而言 不重复抽样 的误差小于 重复抽样 的误差。
      15. 抽样的组织方式 :一般而言 分层抽样 误差最小, 整群抽样 误差最大。(不是方便抽样,因为方便抽样是非概率抽样,不属于抽样误差考虑的范围)
      16. 非抽样误差

        相对于抽样误差而言,是除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。

        主要类型:

        1. 抽样框误差 :由于抽样框不完善造成(例如统计小区人员姓名,假设这个小区在建成的时候有一份业主名单,现在10年过去了,因为种种原因导致业主的变动,此时的这份名单作为抽样框就是不完善的)

        2. 回答误差 :被调查者在接受调查时给出的回答与真实情况不符,具体包括:

      17. 有意识误差

        3. 无回答误差 :被调查者拒绝接受调查。无回答误差可以是 随机性 的也可以是 系统性 的。

      18. 当无回答误差是 随机性 的时候,可以通过增大样本量的方式解决(你不想接受统计调查我们可以多问问别人嘛)
      19. 当无回答误差是 系统性 的时候,一方面是 预防 ,即在调查之前做好各方面的准备工作。另一方面,当无回答误差出现后,分析原因, 采取补救措施 。(例如考虑问卷的题目设置是否得当,事先通知被访问者,加强与被访问者的沟通,给予适当的物质奖励,多次访问等)
      20. (注:抽样误差只存在于概率抽样中,但是非抽样误差不只存在于非概率抽样中)

        4. 调查员误差

        5. 测量误差

        误差的控制

  •