|
|
高大的麦片 · 社会统计学-哔哩哔哩_Bilibili· 2 年前 · |
|
|
高大的麦片 · 人大统计学笔记| 观测的博客· 2 年前 · |
|
|
高大的麦片 · 社会统计学第一讲课堂笔记- 知乎· 2 年前 · |
|
|
高大的麦片 · 社会统计学笔记02——关于概率论的基础知识这 ...· 2 年前 · |
|
|
高大的麦片 · 广东自考《社会统计学》练习题及答案_管理类_ ...· 2 年前 · |
顺序数据(变量):优良及格,ABCD等。以 定序尺度 衡量。
数值型数据(变量):产品产量,零件尺寸等。有两种尺度衡量: 定距尺度 和 定比尺度 。区别是 定距尺度 有 零点 ,而 定比尺度 中 零点 则意义不大。
(注:分类数据与顺序数据也被统称为 品质数据 或 定性数据 )
样本:从总体中抽取的一部分元素的集合,抽取原则分为 随机 与 非随机 。
参数:描述 总体 特征的概括性数字度量,例如: 总体平均数 , 总体标准差 , 总体比例 等等。
统计量:描述 样本 特征的概括性数字度量,例如: 样本平均数 , 样本标准差 , 样本比例 等等。
详细关系见图1-2:
概念:与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。(如各类统计年鉴,专业期刊,报纸等提供的资料,图书馆查询到的资料。)
概念:也称之为 随机抽样 ,是指遵循随机原则进行的抽样,总体中每个单位都有一定的机会被选入样本。
1. 简单随机抽样 :从包括总体N个单位的抽样框中随机地一个一个的抽取n个单位作为样本,每个单位的入样概率是相等。(例如:调查南京市家庭的收入情况)
优点:简单,直观,计量方便
局限性:①要求将包含所有总体单位的名单作为抽样框,当N很大时,构造这样的抽样框并不容易。
②抽出的单位很分散,给实施调查增加了困难。
③没有利用其他辅助信息以提高估计的效率。
2. 分层抽样 :将抽样单位按照某种特征或某种规则划分为不同的层,然后从不同的层中独立, 随机地抽取样本 。(例如:调查某学校大学生的身高,按不同年级进行分层,再各自抽样)
优点:①保证了样本中包括有各种特征的抽样单位,样本结构与总体结构比较相近,有效提高估计的精度。
②在一定条件下为组织实施调查提供了方便。
③既可以对总体参数进行估计,也可以对各层的目标量进行估计。
3. 整群抽样 :将总体中若干单位合并为组,这样的组称为 群 ,抽样时直接抽取 群 ,然后对选中群中的所有单位 全部实施 调查。(例如:调查南京市大学生的身高,理论上应该以南京全体大学生作为总体,但这会调查起来会很麻烦,这个时候采用整群抽样就会比较简单:在南京地区按学校抽样,在抽得的几所学校中对该校所有中学生进行普遍调查)
优点:①抽样时只需要 群 的抽样框,而不必要求具有所有单位的抽样框,大大简化了编制抽样框的工作量。
②调查地点相对集中,节省调查费用,方便调查实施。
局限性:估计的精度较差,要得到与简单随机抽样相同的精度,需要增加基本调查单位。
4. 等距抽样(系统抽样) :将总体中的所有单位按 一定顺序 排列,在规定的范围内随机的抽取一个单位作为初始单位,然后按照事先规定好的规则确定其他样本单位。
优点:操作简单,若有辅助信息,对总体内的单位进行有组织的排列,可以有效地提高估计的精度。
局限性:对估计量的方差的估计比较困难(了解即可)。
5. 多阶段抽样 :采用类似整群抽样的方法,首先抽取群,然后再进一步抽样,从选中的群中取若干个单位进行调查,即 二阶段调查 , 群 是初级抽样单位,第二阶段抽取的是最终抽样单位。将这种方法推广,使抽样的段数增多。
优点:①保证样本相对集中,节约调查费用。
②不需要包含所有低阶段抽样单位的抽样框,同时由于实行了再抽样,使调查单位在更广泛的范围内展开。
③在较大规模的抽样调查中是经常被采用的方法。
概念:指抽取样本是不是依据随机原则,二是根据研究目的对数据的要求,采用某种方式从总体中抽取部分单位对其实施调查。
1. 方便抽样 :由调查员依据方便原则,自行确定入抽样本的单位。(例如:厂家在出售产品的柜台前对路过的顾客进行调查,这个时候如果选择在养老院进行调查,就显得可笑了。)
优点:容易实施,调查成本低。
局限性:样本单位的确定带有随意性。
2. 判断抽样 :研究人员根据经验、判断和对研究对象的了解,有目的地选择一些单位作为样本,实施时根据不同的目的有: 重点抽样 , 典型抽样 , 代表抽样 等方式。
(上面三种其实差不多,判断题中出现“选xx作为重点/典型/代表”,会判断属于判断抽样就行就行)
优点:成本较低,容易操作
局限性:主观性强,样本的好坏取决于调研者的判断、经验、专业程度和创造性,且调查结果不能用于对总体有关参数的估计
3. 自愿抽样 :被调查者自愿参加,成为样本中的一分子,向调查人员提供有关信息,可反映某类人群的一般看法(例如一些书籍的末页,一般都会有相关的小问卷)
4. 滚雪球抽样 :往往用于对 稀少的群体 的调查,适合对特定群体进行研究的资源调查。在滚雪球调研中,首先选择一组调查对象,对其实施调查之后,在请他们提供另外一些属于研究总体的调查对象,掉哈人员根据所提供的线索,进行此后的调查,这个过程持续下去,就会形成滚雪球效应。
优点:容易找到那些属于特定群体的被调查者,调查的成本也比较低。
5. 配额抽样 :类似概率抽样中的 分层抽样 ,首先将总体中所有单位按一定的标志(变量)分为若干类,然后在每个类中采用 方便抽样 或 判断抽样 的方式(非概率抽样)选取样本单位。
优点:操作简单,而且可以保证总体中不同类别的单位都能包括在所抽样本之中,使得样本结构和总体结构类似。
小结 (概率抽样与非概率抽样的比较):
①概率抽样遵循随机原则,对估计的精度要求较高。非概率则不遵循随机原则,无法使用样本的结果对总体相应的参数进行推断。
②概率抽样技术含量较高,要求有较高统计学专业知识,非概率抽样则不需要。
③概率抽样用来进行 参数及区间估计 ,非概率抽样用于 探索性研究 ,为更深入的数量分析提供准备
④概率抽样比非概率抽样成本高。
1. 自填式 :指在没有调查员协助的情况下由被调查者自己填写完成的问卷
优点:管理相对简单;成本低;可以进行大范围的调查;作答时间方便;同时可以避免被调查者回答 敏感性问题 的压力。
局限性:问卷回收率比较 低 ,不适合结构复杂的问卷。调查周期比较 长 ;数据搜集过程中出现的问题难于及时采取调改措施。
2. 面访式 :指现场调查员与被调查者面对面,调查员提问。被调查者回答这种调查方式。
优点:调查的回答率 高 ;调查数据质量高;能对数据搜集进展的速度进行调节。
弱点:是对调查的 成本较高 ;在对调查过程的质量控制方面有一定难度;敏感性问题回答的可能性较小
3. 电话式 :是指调查人员通过打电话的方式向被调查者实施调查。
优点:速度快,数据收集成本小,适合于样本单位十分 分散 的情况。
局限性:如果被调查者没有电话,调查将无法实施(相对较少);访问时间不能太长(电话费也是钱啊);使用的问卷需要比较简单;被访者不愿意接受调查时难以说服。
4. 观察式 :调查人员通过直接观察的方法获取信息。
以上三种主要搜集数据方法的特点比较如下图:
影响因素:
相对于抽样误差而言,是除抽样误差之外的,由于其他原因引起的样本观察结果与总体真值之间的差异。
主要类型:
1. 抽样框误差 :由于抽样框不完善造成(例如统计小区人员姓名,假设这个小区在建成的时候有一份业主名单,现在10年过去了,因为种种原因导致业主的变动,此时的这份名单作为抽样框就是不完善的)
2. 回答误差 :被调查者在接受调查时给出的回答与真实情况不符,具体包括:
有意识误差
3. 无回答误差 :被调查者拒绝接受调查。无回答误差可以是 随机性 的也可以是 系统性 的。
(注:抽样误差只存在于概率抽样中,但是非抽样误差不只存在于非概率抽样中)
4. 调查员误差
5. 测量误差
1. 数据审查 :检查数据中的错误
2. 数据筛选 :找出符合条件的数据
3. 数据排序 :
4. 数据透视 :按需要汇总
几种常见图示如下:
1. 条形图(柱形图/柱状图) :
比较常见,直接上图。
2. 帕累托图 :
左侧纵轴给出 频数 ,右侧纵轴给出 累计百分比 。
3. 饼图 :
圆心角的计算按各部分百分比乘以360°决定
还有一种复式饼图,需要与环形图进行区分:
4. 环形图 :
与饼图类似,但饼图只能显示一个总体各部分所占比例,环形图则可以同时绘制多个样本或总体的数据系列为一个环,用于展示分类和顺序数据。
几种常见图示如下:
1. 频数分布表
2. 累积分布图
把每个变量值作为一组,该方法只适用于变量值较少的 离散型变量 。
具体操作:
第一步:确定组数(一般来说组数不少于5组且不多于15组)
第二步:确定各组组距(组距=(最大值-最小值)/组数)
第三步:根据分组数据整理成频数分布表(如下图)
几个概念:
注意:直方图中的横轴与纵轴均有数值意义,因此 直方图 中 面积 表示频数分布,而上文提到的 条形图 则用 长度 表示频数分布(因为其横轴没有数值意义)。直方图虽然能很好的显示数据的分布,但 不能保留原始的数值
通过茎叶图可以看出数据的分布形状及数据的离散情况,同时 保留了原始数据的信息
2. 箱线图
由一组数据的 最大值 , 最小值 , 中位数 , 两个四分位数 这五个特征值绘制而成。
通过箱线图的形状可以看出数据分布的特征:
下面给出例子:
上图的○4表示这是4号学生在计算机应用基础课程中的最高分,属于 离群点 ,一般不计入箱线图中
上图的●经济数学表示这是11号学生8门课程成绩的考试最低分,属于 离群点 ,一般不计入箱线图中
用于表示 两个 变量之间的关系,横坐标代表变量x,纵坐标代表变量y。
2. 气泡图
用于表示 三个 变量之间的关系,横坐标代表变量x,纵坐标代表变量y,气泡面积代表变量z。
3. 雷达图(蜘蛛图)
用于表示 多个 变量之间的关系。
鉴别图表优劣的准则 :
统计表的组成部分 :
表头,行标题,列标题,数据资料
设计和使用统计表时要注意 :
例:2002~2003年|城镇居民家庭|抽样调查资料
好表分享:
集中趋势 :一组数据向某一中心值靠拢的程度,反映了一组数据中心点的位置所在。
一组数据中出现次数 最多 的 变量值 ,用 M 0 表示(注意:众数不是一个数字,而是一个变量值,例如在统计消费者喜欢的饮料这一调查中,选择“碳酸饮料”的人最多,为15人,那么众数应该是“碳酸饮料,即M 0 =碳酸饮料,而不是15)。主要用于 分类数据 ,也适用于 顺序数据 和 数值型数据 。在数据量较大的情况下,众数才有意义。
众数 不受数据中极端值的影响,可能不存在,也可能有两个 (双众数) 或多个众数 。
一组数据排序后处于中间位置上的 变量值 用 M e 表示。中位数主要用于测度 顺序数据 的集中趋势,也适用于 数值型数据 ,不适用于分类数据。
中位数 不受数据中极端值的影响 ,中位数位置的确定公式为:
中位数位置=(n+1)/2
在 分组数据 中,中位数有以下计算公式,理解了这个以后,下面在分组数据的情况下计算四分位数的公式也就不再给出(将总次数的分母换为4即可):
数据是左偏分布(存在害群之马把曲线整体向左拉): M 0 > M e > x
数据是右偏分布(存在强者把曲线整体向右拉): M 0 < M e < x
小结:中位数永远在中间,众数永远在顶点,偏态决定三数大小。
非众数组的频数 占总频数的比率,用 V r 表示。异众比率适合测度 分类数据 的离散程度,也可以计算 顺序数据 以及 数值型数据 的异众比率。
异众比率越 大 ,众数的代表性越 差 。
异众比率越 小 ,众数的代表性越 好 。
上四分位数与下四分位数之差,用 Q d 表示。主要用于测度 顺序数据 的离散程度,也可以计算 数值型数据 的离散程度,但不适合分类数据。
公式为: Q d = Q U -Q L
反映了中间50%的数据的离散程度。
四分位差越 小 ,说明中间的数据越 集中 。
四分位差越 大 ,说明中间的数据越 分散 。
数据中 最大值 与 最小值 的差,用 R 表示。
2. 平均差 :
各变量值与其 平均数离差绝对值 的平均数,用 M d 表示。
未分组数据计算平均差的公式为:
(M i 为组中值,f i 为频数)
平均差越 大 ,说明数据的离散程度越 大
平均差越 小 ,说明数据的离散程度越 小 。
3. 方差(S 2 ) 和 标准差(S) :
方差:各变量值与其 平均数离差平方 的平均数, 没有量纲 。
标准差:方差的 算术平方根 , 有量纲 ,与变量值的计量单位相同。
同样的,对于分组数据和未分组数据,都有对应的公式:
其中的
n-1
被称之为
自由度
。
(自由度就是变量中可以自由变动的个数,我们可以看到在方差和标准差的计算中引入了平均值这个量,平均值既然是确定的,那么当前
n-1
个变量自由确定了以后,最后一个变量为了满足平均值的限制将无法自由确定,因此方差和标准差的自由度为
n-1
。例如:样本中有4个数,平均数是5,其中3个数已经给出是:2,3,5,那最后一个数只能是10。也就是自由度为n-1=4-1=3)
变量值 与其 平均数的离差 除以 标准差 后的值,也被称为 Z分数 。通过它可以测度每个数据在样本中的相对位置,也可以判断样本中是否有离群数据。
标准分数的 平均数为0,标准差为1 。
简单举例如下:
再次强调: 标准差有单位
对于 任何 分布形状都适用,它提供的是“下界”,也就是“ 所占比例至少是多少 ”。
根据切比雪夫不等式,至少有(1-1/k 2 ) 的数据落在±k个标准差之内(其中k是大于1的任意值,不一定是整数)
对于k=2,3,4,该不等式的含义是:
标准差 与其 平均数 之比,用 V S 表示。主要用于比较 不同样本数据 的离散程度。
V S = s/x
离散系数越 大 ,说明数据的离散程度越 大 。
离散系数越 小 ,说明数据的离散程度越 小 。
例题如下:
这说明该产品的在这8加企业的销售额更稳定,而利润相对不稳定。
基本不存在趋势的序列,各观察值基本在某个固定的水平上波动或虽有波动,但并不存在某种规律,而其波动可以看成是 随机 的。
包含趋势,季节性或周期性的序列,可能只含有一种成分,也可能是几种成分的组合。可分为: 有趋势的序列 , 有趋势和季节性的序列 , 几种成分混合而成的复合型序列 。
时间序列在长期内呈现出来的某种 持续上升或持续下降 的变动,也称长期趋势。时间序列中的趋势 可以是线性的也可以是非线性的(例如指数型) 。
也称 季节变动 ,是时间序列在一年内反复出现的周期性波动。比如商业活动中的”销售旺季“或”销售淡季“这类术语。
也称 循环波动 ,是时间序列中呈现出围绕长期趋势的一种波浪形或振荡式变动, 通常由经济环境引起 。
也称 不规则波动 ,时间序列中除去趋势,周期性和季节性之后的偶然性波动。
增长率:也称 增长速度 。 报告期 观察值与 基期 观察值之比减一,也用百分比(%)表示。
关于其中的第二点,为了更好地描述模型,我们使用 增长1%的绝对值 。
增长1%的绝对值 :表示增长率每增加一个百分点而增加的绝对数量,用于克服增长率分析中的局限性。(前期数量/100)
其余形式的拟合曲线方程也可以通过最小二乘法推导得出。关于最小二乘法用于拟合曲线的形象理解请 点击此处 。
本图可以看出啤酒的销量数据中既含有 季节成分 ,也含有 上升趋势 。
(注: 指数型 的趋势实际上是一种趋势,因此不能用指数平滑法,而应该用 趋势预测法 中的方法)
上述三种误差只有在比较不同模型的对同一数据的预测才有意义,而MPE和MAPE消除了时间序列数据的水平和计量单位的影响。
通过上文我们可以知道,对于平稳序列(不存在趋势成分和季节成分),我们应该使用 平滑预测法 。
根据过去已有的t期观察值来预测下一期的数值。设时间序列已有的t期观察值为Y1、Y2……,则第t+1期的预测值F t+1 为:
将最近k期数据的平均作为下一期的预计值。设移动间隔为k(1<k<t),则t期的移动平均值为:
通过对过去的观察值加权平均进行预测的一种方法,该方法使t+1期的预测值等于t期的实际观察值与t期的预测值的加权平均值。
是加权平均的一种特殊形式,观察到时间越远,其权重也跟着呈现指数下降;有 一次指数平滑 、 二次指数平滑 、 三次指数平滑 等。
两边取对数后,可以将原本的乘法运算变为加法,这样就可以使用最小二乘法计算lgb 0 和lgb 1 了(从而也就知道了b 0 和b 1 )。
(简单来说就是一开始先把季节成分剥离出去,最后再把它乘回来)
通过加权来测定一组项目的综合变动
因权数不同,有不同的计算公式
有
拉氏价格指数(
Laspeyres index)和
帕氏价格指数
(Paasche Laspeyres index)
两种拉式指数的分母都是q 0 p 0 ,也就是都是基期的指标。在分子上,拉氏数量指标将选择数量的报告期(q 1 ),拉式质量指标选择质量的报告期(p 1 )
帕氏指数的分子都是q 1 p 1 ,也就是都是报告期的指标。在分子上,帕氏数量指标将选择数量的基期(q 0 ),帕式质量指标选择质量的基期(p 0 )
记忆方法:拉式分母相同都为基期0,另一方是什么指标就选用该指标的报告期1;帕式分子相同都为报告期1,另一方是什么指标就选用该指标的基期0。
根据权期的不同,会产生不同的结果,与之前的拉氏和帕式也有呼应的地方:
一个总量往往可以分解为若干个构成因素(例如销售额指数=销售量指数*销售价格指数)
概念有点难懂,但是做题比较好理解,建议直接看书P.330开始的内容
这一部分也建议直接看书orz(因为实在是难以和实例结合起来划分,就算考研也不是重点,而且PPT上也没有这一部分的内容讲解)
这份笔记是按照考研的要求记录的,可能和老师的要求与重点不同,如果有重点和老师不同的地方,请以老师的标准为主,再到PPT与教材的相应位置上寻找。
缺失模块。| 众数(M 0 ) | 异众比率(V r ) | 分位数(M e 、Q L 、Q U ) | 四分位差(Q d ) | 数值型数据 | 平均数(X) | 极差(R)、平均差(M d )、方差(S 2 )、标准差(S)、标准系数(Z分数)与离散系数(V s ) |
|
|
高大的麦片 · 社会统计学-哔哩哔哩_Bilibili 2 年前 |
|
|
高大的麦片 · 人大统计学笔记| 观测的博客 2 年前 |
|
|
高大的麦片 · 社会统计学第一讲课堂笔记- 知乎 2 年前 |
|
|
高大的麦片 · 广东自考《社会统计学》练习题及答案_管理类_广东自考网 2 年前 |