3. 整群抽样 ：将总体中若干单位合并为组，这样的组称为群，抽样时直接抽取群，然后对选中群中的所有单位 全部实施 调查。（例如：调查南京市大学生的身高，理论上应该以南京全体大学生作为总体，但这会调查起来会很麻烦，这个时候采用整群抽样就会比较简单：在南京地区按学校抽样，在抽得的几所学校中对该校所有中学生进行普遍调查）

优点：①抽样时只需要群的抽样框，而不必要求具有所有单位的抽样框，大大简化了编制抽样框的工作量。

②调查地点相对集中，节省调查费用，方便调查实施。

局限性：估计的精度较差，要得到与简单随机抽样相同的精度，需要增加基本调查单位。

4. 等距抽样（系统抽样） ：将总体中的所有单位按 一定顺序 排列，在规定的范围内随机的抽取一个单位作为初始单位，然后按照事先规定好的规则确定其他样本单位。

优点：操作简单，若有辅助信息，对总体内的单位进行有组织的排列，可以有效地提高估计的精度。

局限性：对估计量的方差的估计比较困难（了解即可）。

5. 多阶段抽样 ：采用类似整群抽样的方法，首先抽取群，然后再进一步抽样，从选中的群中取若干个单位进行调查，即 二阶段调查 ，群是初级抽样单位，第二阶段抽取的是最终抽样单位。将这种方法推广，使抽样的段数增多。

优点：①保证样本相对集中，节约调查费用。

②不需要包含所有低阶段抽样单位的抽样框，同时由于实行了再抽样，使调查单位在更广泛的范围内展开。

③在较大规模的抽样调查中是经常被采用的方法。

非概率抽样

概念：指抽取样本是不是依据随机原则，二是根据研究目的对数据的要求，采用某种方式从总体中抽取部分单位对其实施调查。

1. 方便抽样 ：由调查员依据方便原则，自行确定入抽样本的单位。（例如：厂家在出售产品的柜台前对路过的顾客进行调查，这个时候如果选择在养老院进行调查，就显得可笑了。）

优点：容易实施，调查成本低。

局限性：样本单位的确定带有随意性。

2. 判断抽样 ：研究人员根据经验、判断和对研究对象的了解，有目的地选择一些单位作为样本，实施时根据不同的目的有： 重点抽样 ， 典型抽样 ， 代表抽样 等方式。

重点抽样：从调查对象的全部单位中选择少数重点单位，对其实施调查

典型抽样：从整体中选择若干个典型的单位进行深入调研，目的是通过典型单位来描述或解释所研究问题的本质。

代表抽样：通过分析选择具有 代表性 的单位作为样本，在某种程度上也具有典型抽样的含义。

（上面三种其实差不多，判断题中出现“选xx作为重点/典型/代表”，会判断属于判断抽样就行就行）

优点：成本较低，容易操作

局限性：主观性强，样本的好坏取决于调研者的判断、经验、专业程度和创造性，且调查结果不能用于对总体有关参数的估计

3. 自愿抽样 ：被调查者自愿参加，成为样本中的一分子，向调查人员提供有关信息，可反映某类人群的一般看法（例如一些书籍的末页，一般都会有相关的小问卷）

4. 滚雪球抽样 ：往往用于对 稀少的群体 的调查，适合对特定群体进行研究的资源调查。在滚雪球调研中，首先选择一组调查对象，对其实施调查之后，在请他们提供另外一些属于研究总体的调查对象，掉哈人员根据所提供的线索，进行此后的调查，这个过程持续下去，就会形成滚雪球效应。

优点：容易找到那些属于特定群体的被调查者，调查的成本也比较低。

5. 配额抽样 ：类似概率抽样中的 分层抽样 ，首先将总体中所有单位按一定的标志（变量）分为若干类，然后在每个类中采用 方便抽样 或 判断抽样 的方式（非概率抽样）选取样本单位。

优点：操作简单，而且可以保证总体中不同类别的单位都能包括在所抽样本之中，使得样本结构和总体结构类似。

小结（概率抽样与非概率抽样的比较）：

①概率抽样遵循随机原则，对估计的精度要求较高。非概率则不遵循随机原则，无法使用样本的结果对总体相应的参数进行推断。

②概率抽样技术含量较高，要求有较高统计学专业知识，非概率抽样则不需要。

③概率抽样用来进行 参数及区间估计 ，非概率抽样用于 探索性研究 ，为更深入的数量分析提供准备

④概率抽样比非概率抽样成本高。

2.2搜集数据的基本方法

1. 自填式 ：指在没有调查员协助的情况下由被调查者自己填写完成的问卷

优点：管理相对简单；成本低；可以进行大范围的调查；作答时间方便；同时可以避免被调查者回答 敏感性问题 的压力。

局限性：问卷回收率比较低，不适合结构复杂的问卷。调查周期比较长；数据搜集过程中出现的问题难于及时采取调改措施。

2. 面访式 ：指现场调查员与被调查者面对面，调查员提问。被调查者回答这种调查方式。

优点：调查的回答率高；调查数据质量高；能对数据搜集进展的速度进行调节。

弱点：是对调查的 成本较高 ；在对调查过程的质量控制方面有一定难度；敏感性问题回答的可能性较小

3. 电话式 ：是指调查人员通过打电话的方式向被调查者实施调查。

优点：速度快，数据收集成本小，适合于样本单位十分分散的情况。

局限性：如果被调查者没有电话，调查将无法实施（相对较少）；访问时间不能太长（电话费也是钱啊）；使用的问卷需要比较简单；被访者不愿意接受调查时难以说服。

4. 观察式 ：调查人员通过直接观察的方法获取信息。

以上三种主要搜集数据方法的特点比较如下图：

2.3实验数据

实验数据指在实验中控制实验对象而搜集到的数据。

2.4数据的误差

抽样误差

概念：由抽样的随机性引起，要注意抽样误差不是针对某个具体样本检测结果与总体真实结果的差异，抽样误差描述的是所有样本可能的结果与总体针织之间的 平均差异 。（比如你在一批零件中挑一个，看有没有达标，这不叫抽样误差，抽样误差是指比如你在一批零件中每次挑100个零件，每组的100个零件中的达标率与所有零件的达标率都会有差异，这些差异的平均差异才是由抽样误差引起的）

影响因素：

样本量大小 ：样本量越大，误差越小；样本量大到等于总体单位时，抽样调查变为普查，抽样误差为零。

总体变异性 ：总体变异性越大（即各单位之间的差异越大），抽样误差越大；如果所有单位完全一样，调查一个就可以精确无误的推断总体，抽样误差就不存在。

抽样方法 ：一般而言 不重复抽样 的误差小于 重复抽样 的误差。

抽样的组织方式 ：一般而言 分层抽样 误差最小， 整群抽样 误差最大。（不是方便抽样，因为方便抽样是非概率抽样，不属于抽样误差考虑的范围）

非抽样误差

相对于抽样误差而言，是除抽样误差之外的，由于其他原因引起的样本观察结果与总体真值之间的差异。

主要类型：

1. 抽样框误差 ：由于抽样框不完善造成（例如统计小区人员姓名，假设这个小区在建成的时候有一份业主名单，现在10年过去了，因为种种原因导致业主的变动，此时的这份名单作为抽样框就是不完善的）

2. 回答误差 ：被调查者在接受调查时给出的回答与真实情况不符，具体包括：

有意识误差

3. 无回答误差 ：被调查者拒绝接受调查。无回答误差可以是 随机性 的也可以是 系统性 的。

当无回答误差是 随机性 的时候，可以通过增大样本量的方式解决（你不想接受统计调查我们可以多问问别人嘛）

当无回答误差是 系统性 的时候，一方面是预防，即在调查之前做好各方面的准备工作。另一方面，当无回答误差出现后，分析原因， 采取补救措施 。（例如考虑问卷的题目设置是否得当，事先通知被访问者，加强与被访问者的沟通，给予适当的物质奖励，多次访问等）

（注：抽样误差只存在于概率抽样中，但是非抽样误差不只存在于非概率抽样中）

4. 调查员误差

5. 测量误差

误差的控制

抽样误差：由抽样的随机性带来，只要采用概率抽样，抽样误差就不可避免。但抽样误差是 可以计算 的。主要的控制方法是增加样本量。

非抽样误差：与样本的随机性无关，引起的原因比较多，控制起来也比较困难。主要的控制方法有：加强调查员的挑选与培训，对调查结果进行检验评估等。

3.本章知识框架

第三章：数据的图表展示

1.数据的预处理

包括以下内容

1. 数据审查 ：检查数据中的错误

2. 数据筛选 ：找出符合条件的数据

3. 数据排序 ：

升序和降序

寻找数据的基本特征

排序之后的数据称之为： 顺序统计量

（还有助于数据检查纠错）

4. 数据透视 ：按需要汇总

2.品质数据的整理与显示

2.1分类数据的整理和图示

几个常见概念如下：

频数：落在某一特定类别或组中的数据个数。

比例：也称构成比，是一个样本或总体中各个部分的数据与全部数据之比，通常用于反映样本或总体的构成或结构。

百分比 ：将比例乘以100得到的数值，用%表示。

比率：样本或总体中不同类别的数据之间的比值，该比值可能大于1。

几种常见图示如下：

1. 条形图（柱形图/柱状图） ：

比较常见，直接上图。

2. 帕累托图 ：

左侧纵轴给出频数，右侧纵轴给出 累计百分比 。

3. 饼图：

圆心角的计算按各部分百分比乘以360°决定

还有一种复式饼图，需要与环形图进行区分：

4. 环形图 ：

与饼图类似，但饼图只能显示一个总体各部分所占比例，环形图则可以同时绘制多个样本或总体的数据系列为一个环，用于展示分类和顺序数据。

2.2顺序数据的整理和图示

几个常见概念如下：

累积频数 ：将各有序类别或组的频数逐级累加起来得到的频数。

向上累积 ：从类别顺序的开始一方向类别顺序的最后一方累加频数；数值型分组数据则是从变量值小的一方向变量值大的一方累加频数。

向下累积 ：向上累积的反向操作

几种常见图示如下：

1. 频数分布表

2. 累积分布图

3.数值型数据的整理与显示

3.1数据分组

单变量值分组

把每个变量值作为一组，该方法只适用于变量值较少的 离散型变量 。

将变量值划分成一个个区间 作为一组

适合于连续变量

适用于变量值较多的情况

需要遵循“ 不重不漏 ”的原则（上限不在内）

可采取等距，也可采取不等距分组

具体操作：

第一步：确定组数（一般来说组数不少于5组且不多于15组）

第二步：确定各组组距（组距=（最大值-最小值）/组数）

第三步：根据分组数据整理成频数分布表（如下图）

几个概念：

3.2分组数据的图表

直方图

注意：直方图中的横轴与纵轴均有数值意义，因此 直方图 中面积表示频数分布，而上文提到的 条形图 则用长度表示频数分布（因为其横轴没有数值意义）。直方图虽然能很好的显示数据的分布，但 不能保留原始的数值

3.3未分组数据的图表

1. 茎叶图

通过茎叶图可以看出数据的分布形状及数据的离散情况，同时 保留了原始数据的信息

2. 箱线图

由一组数据的 最大值 ， 最小值 ， 中位数 ， 两个四分位数 这五个特征值绘制而成。

通过箱线图的形状可以看出数据分布的特征：

下面给出例子：

上图的○4表示这是4号学生在计算机应用基础课程中的最高分，属于 离群点 ，一般不计入箱线图中

上图的●经济数学表示这是11号学生8门课程成绩的考试最低分，属于 离群点 ，一般不计入箱线图中

3.4时间序列数据：线图

3.5多变量数据的图表

1. 散点图

用于表示两个变量之间的关系，横坐标代表变量x，纵坐标代表变量y。

2. 气泡图

用于表示三个变量之间的关系，横坐标代表变量x，纵坐标代表变量y，气泡面积代表变量z。

3. 雷达图（蜘蛛图）

用于表示多个变量之间的关系。

3.6本节主要图表

4.合理使用图表

4.1鉴别图形优劣的准则

好图表的基本特征 ：（背一下）

让读者的注意力集中到图表而不是制作图形的程序上

鉴别图表优劣的准则 ：

在最短的时间以最少的笔墨给读者提供最大量的信息

应当是多维的

应当表述数据的真实情况

统计表的组成部分 ：

表头，行标题，列标题，数据资料

设计和使用统计表时要注意 ：

合理安排统计表的结构，比如行标题、列标题、数据资料的位置应合理安排。

表头应包括标号、总标题和表中数据的单位等内容。总标题应简明确切的概括出统计表的内容，一般需要说明统计数据的时间（When）、地点（Where）、以及 何种数据 （What），即标题内容满足 3W要求 。

例：2002~2003年|城镇居民家庭|抽样调查资料

好表分享：

5.本章知识框架

第四章·数据的概括性度量

1.集中趋势的度量

集中趋势 ：一组数据向某一中心值靠拢的程度，反映了一组数据中心点的位置所在。

1.1分类数据：众数（ M ₀ ）

概念：

一组数据中出现次数最多的 变量值 ，用 M ₀ 表示（注意：众数不是一个数字，而是一个变量值，例如在统计消费者喜欢的饮料这一调查中，选择“碳酸饮料”的人最多，为15人，那么众数应该是“碳酸饮料，即M ₀ =碳酸饮料，而不是15）。主要用于 分类数据 ，也适用于 顺序数据 和 数值型数据 。在数据量较大的情况下，众数才有意义。

众数 不受数据中极端值的影响，可能不存在，也可能有两个 （双众数） 或多个众数 。

1.2顺序数据：中位数( M _e )和分位数( Q _L /Q _U )

中位数

概念：

一组数据排序后处于中间位置上的 变量值 用 M _e 表示。中位数主要用于测度 顺序数据 的集中趋势，也适用于 数值型数据 ，不适用于分类数据。

中位数 不受数据中极端值的影响 ，中位数位置的确定公式为：

中位数位置=(n+1)/2

在 分组数据 中，中位数有以下计算公式，理解了这个以后，下面在分组数据的情况下计算四分位数的公式也就不再给出（将总次数的分母换为4即可）：

1.5三数的关系

数据是对称分布： M ₀ = M _e = x

数据是左偏分布（存在害群之马把曲线整体向左拉）： M ₀ > M _e > x

数据是右偏分布（存在强者把曲线整体向右拉）： M ₀ < M _e < x

小结：中位数永远在中间，众数永远在顶点，偏态决定三数大小。

2.离散程度的度量

2.1分类数据：异众比率（V _r ）

概念：

非众数组的频数 占总频数的比率，用 V _r 表示。异众比率适合测度 分类数据 的离散程度，也可以计算 顺序数据 以及 数值型数据 的异众比率。

异众比率越大，众数的代表性越差。

异众比率越小，众数的代表性越好。

2.2顺序数据：四分位差（Q _d )

概念：

上四分位数与下四分位数之差，用 Q _d 表示。主要用于测度 顺序数据 的离散程度，也可以计算 数值型数据 的离散程度，但不适合分类数据。

公式为： Q _d = Q _U -Q _L

反映了中间50%的数据的离散程度。

四分位差越小，说明中间的数据越集中。

四分位差越大，说明中间的数据越分散。

2.3数值型数据：方差和标准差

1. 极差：

数据中 最大值 与 最小值 的差，用 R 表示。

2. 平均差 ：

各变量值与其 平均数离差绝对值 的平均数，用 M _d 表示。

未分组数据计算平均差的公式为：

（M _i 为组中值，f _i 为频数）

平均差越大，说明数据的离散程度越大

平均差越小，说明数据的离散程度越小。

3. 方差（S ² ） 和 标准差(S) ：

方差：各变量值与其 平均数离差平方 的平均数， 没有量纲 。

标准差：方差的 算术平方根 ， 有量纲 ，与变量值的计量单位相同。

同样的，对于分组数据和未分组数据，都有对应的公式：

其中的 n-1 被称之为 自由度 。

（自由度就是变量中可以自由变动的个数，我们可以看到在方差和标准差的计算中引入了平均值这个量，平均值既然是确定的，那么当前 n-1 个变量自由确定了以后，最后一个变量为了满足平均值的限制将无法自由确定，因此方差和标准差的自由度为 n-1 。例如：样本中有4个数，平均数是5，其中3个数已经给出是：2,3,5，那最后一个数只能是10。也就是自由度为n-1=4-1=3）