人民大学应用统计真题解析(2011年)


人民大学应用统计真题解析(2011年)

一、(10 分)

给出若干数据:32 34 32 39 44 45 38 ……(共 30 个数值型数据) (1)这些数据可以用哪些图表来表示? (2)这些数据可以用哪些统计量描述?

参考答案

(1)可知这是一组数值型数据。我们可以从描述统计方法和推断统计方法来进行数据分析。

首先可以从图表来展示数据

1 当这组数值型数据未分组时,我们可以画出茎叶图,反映原始数据的分布。 从中可以看出数据的分布形状及数据的离散状况,如分布是否对称,数据是否集中, 是否有离群点。
也可以作出箱线图,从中可以看出原始数据分布的特征,如分布是否对称、
是否存在离群点,还可以进行多组数据分布特征的比较。

2 我们可对这组数据进行分组,作出频率分布表,并作出直方图,从中看出
数据分布的特征。

3 此外,适用于定性数据的图表也都适用于数值型数据,如条形图、饼图、
环形图、帕累托图。

(2)计算该组数值型数据的各种描述统计量: 1集中趋势的度量:平均数 2离散趋势的度量:极差、平均差、方差或标准差 3偏态与峰态的度量:偏态系数与峰态系数

此外,适用于描述定性数据特征的统计量如众数、中位数、四分位数、异众比率、
四分位差也适用于数值型数据。

(3)利用这组样本数据来推断总体特征 如进行参数估计,用样本的均值去估计总体的均值,用样本方差估计总体方差,

求出总体参数的区间估计等。 也可进行假设检验,先对总体参数提出一个假设,然后利用样本信息,构造统计量,检验假设是否成立。

学长倾情解读:

本题属于《专题一:数据的图表展示与概括性度量》的“数值 型数据的图表展示与概括性度量”部分,每年 432 都会出一道专题一的题,基本上 就是第一大题,像 11 年是数值型数据、12 年是分类数据统计图表分析、13 年也是 分类数据统计图表分析、14 年也是考察了数值型数据、15 年 16 年都是这部分知识 的综合运用,考查你对数据的敏感度、图表展示类型和概括性度量的准确把握,要 答好这个题,必须要对每一个图表和统计量的特点和应用场合有很清楚的了解,学 弟学妹可以按照专题一的框架反复背诵,然后找书上的例题练笔,将各种类型数据 的情况遍历一遍,无论怎么出题,大家都可以轻松应对,拿到大部分的分数是没有问题的。到考场上要注意列点答题,阅卷老师都希望看到条理清晰、重点分明的答
题卷。

二、(20 分)

t 分布,卡方分布,F 分布在统计学中有哪些应用?三种分布的假设 条件是什么?

参考答案

这三个分布的知识点在专题笔记已有整理,假设条件和应用场合都有说明,详细请 参照专题整理page18。

学长倾情解读

本题属于《专题二:统计量与抽样分布》的内容,全靠平时的背诵 和整理,在学习数学三概率论的时候也会涉及到,三个分布应用场合需要自己整合 不同专题的内容,比如卡方分布就涉及到了《专题三:参数估计和假设检验》《专题 四:分类数据分析》。平时注重整理的话就可以答好这道题,这种纯属记忆的题要在 平时做足功夫,还有一点,学硕在 10 年考察过卡方分布,所以,学硕的历年真题也 是我们要关注的,很有可能 432 的题是从学硕那边变形过来的或者直接拿过来考, 比如 16 年的时间序列那题就是学硕一模一样的在 11 年考察过的,整理背诵过学硕 的真题再来答这题就没什么问题了。还有专题二的内容虽然近两年初试没有考察到, 但大家一定要重视,因为统计量在统计学中具有极其重要的地位,是统计推断的基 础,它在统计学中的地位相当于随机变量在概率论中的地位。

三、(20 分)

给出一些数据和背景: (1)写出原假设和备择假设 (2)95%置信区间的含义 (3)p 值的含义

参考答案

这几个知识点在《专题三:参数估计与假设检验》中有准确的表述整理, 详情请参照专题整理 page30 原假设与备择假设、page24 置信区间的理解、page32 P 值的含义。

学长倾情解析

本题属于《专题三:参数估计与假设检验》的内容,复习到后期, 这样的题就是很基础的题了,相信大家已经非常熟练了。这个专题每年都会考,把 专题三里面整理的知识点理解清楚再加以反复背诵,注意一定要把每句话都理解清 楚,如果自己理解不了可以请教老师或者谷歌,应该可以得到通俗易懂的解释。纵 观历年真题,12 年考察了拒绝原假设和不拒绝原假设的含义、置信区间的理解以及 P 值的真实含义;13 年考察了假设检验中的原假设与备择假设、拒绝域与非拒绝域, 还有对置信区间的理解和使用;14 年考察了假设检验中两类错误的相关概念;15 年考察了原假设的提法、拒绝原假设和不拒绝原假设的含义。两类错误的实质,置 信区间的理解。所以,其实一些知识点都在反复的考查,这都是有迹可循的,大家 对于重点知识要很熟悉,同时也不能把一些边边角角的知识落下,像 16 年考察了中各个字符的含义以及这个公式的应用,这就需要你做到全面扫荡知识点,不
留死角,以防考场上出现类似的比较偏的。不容易注意到的知识点在专题里都有相
应的整理。

四、(20 分)

对影响试验数据的一个因子进行单因素方差分析,给出:

(1)简述模型中各参数的含义
(2)简述该模型的假设条件
(3)写出原假设和备择假设?
(4)问好像是要写出检验统计量。

参考答案

这个题属于《专题五:方差分析与实验设计》,在专题五中已有详细的介 绍,详情可参照专题整理 page46 参数的含义和基本假设、page47 分析步骤中的原假 设与备择假设及计算检验统计量。

学长倾情分析

《专题五:方差分析与实验设计》的内容也是考查的重点,11 年考 的题都相对来说比较简单,毕竟是专硕第一年招生。到后来就越来越考查综合知识 运用的能力了,需要你可以将各个专题的知识整合到一起,串联起来,在脑海里搭 建一个知识网络,一旦涉及到一个点,相关的知识点就可以涌现出来,这就需要借 助思维导图,它就像一个繁茂的知识树,上下级之间的关联,各层级之间的嫁接, 知识点的的串联,都可以有很好的呈现,建议学弟学妹把八个专题的思维导图全都 背诵,印到大脑里,然后将各个知识点具体的细节不断添加上去,逐渐形成一棵繁 茂的知识树。到后期,希望可以达到这样的程度:可以自己手绘思维导图,然后看 着思维导图背诵每个知识点,从而形成一个整体。这样,像这种题目就完全不在话 下了,就算是综合性的题,也可以很清晰的作答。

五、(20 分)

给出了一个二元回归分析的 EXCEL 表格。
(1)简述各个回归系数的含义
(2)计算 ,并解释其含义
(3)计算 ,并解释其含义 (4)通过给出的 EXCEL 结果,对这个回归模型进行 评价

参考答案

回归系数的含义比较简单,见专题整理 page63 回归系数的实际意义。其 他三个小问涉及到 Excel 输出的回归分析结果,表格如下

这张回归分析表中的每一个概念含义和数量关系都要搞清楚,计算和与具体含 义是重点,还有 432 考察了好几年的问题:回归分析的综合评价可以参考以下解析: 回归分析的综合评价:

1 回归统计
判定系数 = X,说明在X的变差中,有s%可以由XX与XX的线性关
系来解释,可见回归方程的拟合程度XX

估计标准误差 Se=XX,表示当用XX来预测XX时,平均的预测误差为X,表明预测误差XX

2 方差分析表
由方差分析表可知,Significance F=XX <α,表明回归方程的线性关系显著。

3 回归参数估计
由表的结果可知,XX与XX之间的线性回归方程为。

回归系数表示,当X2····Xk不变的条件下,X1每变动一个单位,因变量y
的平均变动量、

回归系数检验的 P-Value=0.000<0.05,表明回归系数显著,即XX是否为影响XX的显著性因素

由方差扩大因子 VIF= XX,可知该回归方程是否存在多重共线性。

学长倾情解析

《专题六:相关分析与回归分析》的内容在专硕 432 历年真题来看, 反复得在考察几个知识点,12 年回归模型的综合评价、13年多元回归模型的建立步 骤与评价、14 年多重共线性的影响及处理方法、15 年多元线性回归建模的步骤、16 年回归模型的假定和综合分析。这些知识点都是再熟悉不过的内容,作答起来相当 容易。但我们还是要打好防疫针,在复习的时候把其他的知识点整理背诵,比如“异方差性的影响、诊断及处理方法”、“自相关性的影响、诊断及处理方法”、“残差分析的作用和具体内容”、“向前选择法、向后剔除法、逐步回归法的内容”等等等,这些都是很容易考查的知识点,在专题整理上都有相应的参考,大家一定要用好这 个专题整理笔记。

六、(15 分)

一个含有各种要素时间序列的预测步骤。

参考答案

1、Winter 指数平滑(趋势+季节)

holt 指数平滑模型适用于含有趋势成分但不含季节成分序列的预测。若 序列中既含有趋势成分又含有季节成分,则可以用 winter 指数平滑模型 进行预测。

Winter 指数平滑模型包含三个平滑参数,即 α,γ,δ,以及以下三个方程。

  • L为季节周期的长度,I为季节调整因子
  • ①用于求平滑值, $\frac{Y_{t}}{I_{t-L}}$是用季节调整因子$I_{t-L}$去除观测值$Y_{t}$,以消除季节变动。
  • ②是对趋势项的修正,γ加权趋势增量,1-γ加权前期趋势项。
  • ③中$\frac{Y_{t}}{S_t}$是根据季节变动来调整实际值,用δ加权,而 1-δ加权前一季度数据$I_{t-L}$,结果为 t 期的季节调整因子。
  • ④为预测模型
  • 要求数据至少是按季度或月份收集,需要有 4 个以上的季节周期。

2、引入季节哑变量的多元回归预测

若序列含有趋势和季节等多种成分,在考虑趋势的同时,还可以将季节 因素作为哑变量引入回归模型,用多元回归方程进行预测。

B0是常数项;b1是趋势成分的系数,表示趋势对时序的影响;Q2、 Q3、Q4 分别表示三个季度的哑变量;系数 b2、b3、b4 分别表示每 一季度与参照的第一季度的平均差值。

3、分解模型


4、ARIMA 模型(求和自回归移动平均模型)

学长倾情解析

这是属于《专题七:时间序列分析》的内容,这个专题在历年都会 有一道题的设置,而且都是重点反复考,像 12 年考察了多成分时间序列的预测分析 模型和基本原理;13 年考察了同样的内容;14 年比较特殊,考察了时间序列的差分 处理;15 年考察了三个指数模型(简单指数平滑模型、Holt 双参数指数平滑模型、 Winter 指数平滑模型)的构造与适用场合,都在专题整理笔记里面有呈现,真题的 重要性是强调上万次都不为过,大家在复习的时候一定要好好的利用真题,通过分 析会考察的知识块,来自己预测来年的考题设置点,可以稍微覆盖的广泛一些,但 是一定要学会自己预测,这样做会事半功倍,今年考试之前学长给自己预测了 10 道题,其中第二题各参数的解释、第五题多成分时间序列的预测模型结构、第六题 方差分析的判定系数的解释、第七题回归分析的综合评价都几乎预测到了原题,在 考场上答题就很轻松,所以建议学弟学妹一定自己去预测。此外比较重要的知识点 有“”“AR 模型、MA 模型、ARMA 模型、ARIMA 模型的结构与性质”、“平稳时 间序列建模的步骤”等,具体的复习可以参照专题笔记整理。

七、(15 分)

总体数量为 1000,总体均值 32,总体方差 5,从中抽出样本量为 100 的样本:
(1)样本平均值的期望和标准差
(2)样本平均值的分布 (3)以上结果的得出,依靠那条定理?简述这条定理

参考答案

(1)样本均值的期望:32 样本均值的标准差:5/100=0.05
(2)样本均值的抽样分布近似服从于均值为 32、方差为 0.05 的正态分布。
(3)中心极限定理:从均值为μ,方差为 (有限)的任意一个总体中抽取样本量为 n 的样本,当 n 充分大时,样本均值 的抽样分布近似服从均值为 μ,方差为 的正态分布。

学长倾情解析

这道题考察了《专题二:统计量与抽样分布》的内容,主要是中心 极限定理的运用,在统计学中,正态分布具有十分重要的地位,因此证明样本极限 分布为正态分布的中心极限定理也尤为重要。在专题二中比较重要的知识点还有“数 据的正态性评估”“正态分布的概念、定义及正态曲线的性质”、“为什么要构造统计 量”、“参数和统计量、样本和总体的概念”等,都是容易考察到的,具体参见专题 整理笔记。

八、(20)

有人认为人口密度与国民收入有关系,依据的数据给出了一个表,表中 随着人口密度的减小,人均国民收入呈现递增趋势,接着题目又给了一个表, 表中给出的是高收入国家的人口密度和人均国民收入的数据, 可以看到高收入 国家中也有几个国家的人口密度也是很大的,比如新加坡、日本。 第一问:从国土面积的角度去解释。 (我表述的貌似有点问题)

第二问:对题目的分析过程进行改进, 写出你认为比较合适的方法来分析人口 密
度与国民收入的关系。

参考答案

知识点为回归分析,其他略

学长倾情解读

回忆版表述有问题,无法对该题作出准确的解答,大家对其有个基本的了解即可,不必深究。

分享到