人民大学应用统计432历年真题(11—19)

人民大学应用统计432历年真题(11—19)

2019年真题

一、当检验统计量没有落入拒绝域时,可不可以说“接受原假设”,请说明理由。

二、在时间序列中,请说明严平稳和宽平稳的定义是什么?二者之间有什么联系?并说明如何判断数据的平稳性。

三、某研究小组想要研究某城市中A、B两种疾病的发病率,其中A疾病的发病率为0.2,B疾病的发病率为0.1,为了使抽样的绝对误差不超过1%,则需要随机抽取的样本是多少?并分析简单随机抽样的可行性和效率,如果你来设计试验,你会怎样设计?

四、在回归分析中,说明如何判别是否存在异方差?

五、在多元统计分析中,$\sigma ^2$和$\sum$的用处非常多,请用至少三种不同的多元分析方法来说明$\sigma ^2$和$\sum$的应用(文字+公式)

六、设X服从P维正态分布,即$X - N_p(\mu,\sum)$,其中$\sum$是对角矩阵,对角元素分别为$\sigma_{11} ,\sigma_{22} ,······\sigma_{pp} $,从p维正态总体中抽取一个样本量为n的样本$x_1,x_2,x_3,·····,x_n$,试估计$\mu$和$\sigma$的极大似然估计。

七、
(1)证明,$P(A|BC) = P(A|C)$与$P(AB|C) = P(A|C)·P(B|C)$是等价的
(2)如果$P(ABC|D) = P(A|D)·P(BC|D)$,证明$P(AB|D)=P(A|D)·P(B|D)$

2018年真题

一、
1.1 请说明雷达图和箱线图的基本要点。
1.2 下面的数据集为8个同学的数学、语文和英语的成绩,如何利用雷达图和箱线图来描述这个数据集?

姓名 数学 语文 英语
83 86 82
93 89 93
85 79 90
79 81 75
79 81 75
75 70 94
69 62 94
67 62 94

二、
2.1 说明在方差已知的条件下,正态总体均值区间估计的宽度与样本量的关系。
2.2 现在有一组来自正态总体的随机样本,可以由此得到在方差已知和方差未知两种条件下的置信区间,请分析这两个置信区间的中点和宽度的异同。

三、
3.1 给出一个列联表,写出可以描述上述数据的所有的图形,并说明这些图形的用途,
3.2 写出可以分析上述数据所有可能的方法,并说明用途。

四、设因变量为$y$ ,自变量为$x_1,x_2,x_3·····x_k$,写出建立多元线性回归建模的基本思路。

五、
5.1 方差分析有哪些基本假定?
5.2 简要说明检验这些假定的方法。

六、在同一个概率空间中是否存在三个随机事件$A,B,C$使得同时成立下面三个不等式:
$$P(A|B,C)≤P(A|\bar {B},C) \\ P(A|B,\bar {C})<P(A|\bar {B}, \bar {C})\\ P(A|B)>P(A|\bar B)$$
如果存在,请列举一个例子;若不存在,证明你的结论。

七、设$x_1,x_2······,x_n$为一个来自均值为$\mu$,方差为$\sigma^2$的分布的样本,$\mu$和$\sigma ^2$未知,考虑均值为$\mu$的线性无偏估计类
$$
L={T\left(X\right):T\left(X\right)=\sum_{i=1}^n{x_i}.c_i } \\ 其中c_i是常数
$$
求出$L$中$T(X)$为$\mu$的无偏估计的充要条件,并求出无偏估计类中方差一致最小的估计。

八、设$X$是一个正值随机变量,方差有界,证明:对于$\forall 0<\lambda <1$, 有
$$P(X>\lambda EX)\geqslant\left(1-\lambda\right)^2\frac{\left(EX\right)^2}{EX^2}
$$

九、设地区生产总之(亿元)为因变量,固定资产投资(亿元)、社会消费品零售总额(亿元)、出口总额(亿美元)、地方财政收入(亿元)、电力消费量(亿千瓦时)、居民消费水平(元)为自变量,根据31个样本数据得到回归结果如下:

Coefficients

Estimate Std. Error t value Pr(t)
-2.377 e+03 1.166 e+03 -2.038 0.05270
固定资产投资 4.504 e-01 8.166 e-02 5.515 1.14 e-05 ***
社会消费品零售总额 1.110 e+00 1.572 e-01 7.060 2.68 e-0.7 ***
出口总额 1.887 e+01 6.379 e+00 2.958 0.00686 **
地方财政收入 9.596 e-01 6.959 e-01 1.379 0.18061
电力消费量 6.683 e-01 5.671 e-01 1.178 0.25016
居民消费水平 1.194 e-01 6.949 e-02 1.718 0.09868
Residual standard error: 1526 自由度 24
Multiple R-Squared: 0.9944 Adjusted R-squared 0.993
F -statistic: 708.8 P-Value < 2.2 e-16

对该回归模型进行综合分析,评价是否需要改进,并给出思路。【10分】

2017年真题

一、3 个学校分为 3 个学习等级,每个等级抽取一个班共九个班的数据,分别有 数学和语文成绩。计算出了均值和方差。这两个数据分别能􏰀供什么信息?有什 么缺陷?分位数能否消除这种缺陷?比较各个班级的数据分布用什么图展示,绘 制方法?对每个班学生数学成绩由高到低排序后画出折线图在一张纸上反映出 什么信息,改进方法?对语文和数学画散点图反映了什么信息,改进方法?(不 要在试卷上画图)20 分

二、假设美国总统候选人特朗普和希拉里票数比 51:49 ,抽取一定的样本估计 这个比例。为了预测,你认为合理的估计误差?样本量?区间计算公式的依据? 比例对样本量的影响?20 分。

三、T 分布比正态分布构造的置信区间的宽,为什么?本题中 n 为 50 选用 T 分 布是否合理?20 分。

四、􏰀出了几个职业和几个游戏时长的区间,给出了各个职业在各个区间的人数。 用什么方法分析?基本原理?步骤?相关系数的取值范围和构造原理?20 分

五、方差分析因素 A 三个处理,效应为,因素 B 四个处理效应为β,响应变量为 y,每种处理 5 次实验,简述模型?写出原假设备择假设?简述步骤。20 分

六、选用全部的自变量纳入回归方程的估计模型是否合理?用什么方法选择自 变量?20 分

七、人的肩宽,身高,体重,三围…13 个指标。选用什么分析方法建立衣服型号 标准?简述步骤 10 分

八、时间序列的预测步骤,趋势、季节性,随机性。20 分

2016年真题

一、表格中记录的是1978年以来高校入学的城市、农村学生所占当年全部新生的比例,分类依据是性别和户口类型,由于数据缺失,一些年份的数据没有出现在表格中,而且由于户籍登记规则发生变更,2000年以后采用户口记录学生比例,2000年以前采用出身类别记录学生比例,试给出以上数据可用什么图表分析,并对以上数据做出解释(考虑数据质量)(20分)
注:这个题的数据具体的我记不清了,主要随时间呈现一个上下波动吧,反正不是单调上升或下降,而且其中一些年份的数据是未给出的,表格仅供参考

二、解释中各个字符的含义,说明这个公式在实际操作中都有哪些应用。(20分)

三、

研究不同机器类型和班组对于次品率的影响,试问以上用的是哪种实验设计方法,以上分析中研究的主要因子是什么?以上数据可用什么统计方法分析,给出它的基本原理。(20分)

四、检验一个药物是否有疗效,选取两组志愿者,一组服用此药物并记录(记录什么我忘了..感觉这个不重要),另一组服用安定剂并记录(同不记得..),这是匹配样本还是独立样本?给出原假设和备择假设,若p=0.05意味着什么?此时容易犯的错误的实际含义是什么?(20分)

五、一个时间序列数据中含有趋势、季节、随机成分,请写出用于分析这个序列的方法,并简要介绍各个方法。(20分)

六、单因素方差分析中的有什么含义?给出它发生作用的基本原理。(20分)

七、自变量:出口总额、社会消费品总额、还有一个变量不记得了;因变量:地区生产总值给出了以上变量的线性回归模型分析结果,都是表格,有可决系数,调整的可决系数,方差分析表,回归系数检验结果,VIF(其中两个变量小于10,一个变量为18)(30分)
问题:
1.这个模型有哪些假定
2.这个模型中哪个自变量对因变量的影响更重要?
3.请对这个模型做出综合评价

2015年真题

一、抽样调查了 60 名大学生月花费(元)的数据,根据下列表格和图片,对大学生的月消费进行分析:


【一张 QQ 图、一张直方图,都大致正态分布】

二、某产品满意度调查:

问:能用哪些统计方法分析?给出分析过程

三、为了分析职业对收入的影响,我们调查了金融业、IT 业、旅游业、制造业各 500 人的
收入情况。问我们能用哪种统计方法分析?给出步骤和方法原理

四、现有 11 家上市银行今年前三个季度 14 个指标(每股收益、每股净资产、每股公积金、每股未分配利润、每股经营现金流、以及公司主营业务收入、净利润、净资产收益率、不良贷款等)的数据,为了评价各银行的业绩,你选择用什么样的统计方法?给出方法步骤,并评价这种方法

五、下面是农夫山泉 550ml 装的营养成分(单位:μg/100ml) :
【主要是钙≥400,PH 值(25℃) :7.3±0.5】
为了检验钙是否≥400,你应该怎么提原假设?厂家应该怎么提?为什么?
当你接受原假设时,你能得出什么结论?第一类错误的实质是什么?
当你拒绝原假设时,你能得出什么结论?第二类错误的实质是什么?
“PH 值(25℃) :7.3±0.5”这样的叙述有什么问题?

六、简述多元线性回归建模的步骤

七、简单指数平滑模型、Holt 模型、Winter 模型的构造,以及它们分别适用什么类型的时间序列?

2014年真题

一、题目中测试某个产品的重量,一共有 25 袋,要求对这 25 个数据进行分析, 对于以上的数据可以用什么统计图表分析,并说明这些图表的用途。 对于以上的数据可以用什么统计方法分析,并说明这些方法的用途。

二、甲乙两人玩一个游戏,求出甲乙的收益期望分布(概率统计的问题,挺简单的)

三、主要提问是假设检验的第一类错误及第二类错误的相关概念(比较简单)

四、简述样本平均数和总体参数的的关系,代表性,并举例分析。

五、多重共线性的影响以及处理方法

六、题目给出一组1997—2013年的 GDP 数据走势图,提问应该对数据采取何种处理方法(是个指数的曲线图,应该对数据进行低阶差分处理)

七、某小组要分析经济发展和生活水平的关系,分别统计150个国家的指标(包括基尼系数、饮用水使用率等) ,提问应用何种统计方法进行分析(应该是多元统计分析中的典型相关分析)

2013年真题

一、给了一个列联表

有几个变量?都是什么类型?可以用什么图形展示?各种图形用途。 还可以对 以上数据做什么分析?

二、有两个盒子,一个盒子里装了 8 个红球,2 个黑球,一个盒子里装了 8 个 黑球,2 个红球,做如下游戏:从两个盒子里随机挑一个,再随机摸一个球, 如果摸到红球,就认为是从第一个盒子里摸的球,如果是黑球,就认为是从第 二个盒子里摸的球。请用假设检验的术语。(原假设、被择假设、拒绝域、非拒 绝域等)说明这个游戏规则的合理性。

三、有甲乙两人说了自己对置信度、置信区间的看法,谈谈你对置信区间的理 解,以及置信区间的使用。

四、给出中国某几年的社会零售消费品总额时间序列曲线图,问其中存在哪几 种成分(趋势、季节性、随机性) ,可以对其用何种方法分析和预测?

五、将中国 31 个省市按所属区域分为东部、西部、中部等,如下表:

以税收额为因变量,所属区域和地区生产总值为自变量,如何对以上数据进行 分析?以及分析中每种方法的假定。

六、因子载荷的含义?因子旋转对因子载荷的影响?

七、如何对因变量 y 和 k 个自变量 x1,x2……xk 建立多元回归线性模型?请 写出步骤和详细评论。

2012年真题

一、为研究不同地区与购买汽车的消费价格之间的相关关系,调查得到如下的数据:

对于以上的数据可以用什么统计图表分析,并说明这些图表的用途。
对于以上的数据可以用什么统计方法分析,并说明这些方法的用途。

二、为检验一厂家生产的产品,提出如下的假设检验:H0:u=500,H1: u=! 500, 现在抽取了部分的样品进行检验。若检验结果拒绝 H0, 则意味着什么?若 检验结果没有拒绝 H0, 则又意味着什么?能否恰好取到一组样本证明 H0: u=500 成立?为什么?若检验的 P=0.03,则意味着什么?P 值的真实含义是 什么?

三、现研究某地区平均 GDP 与居民消费总额、固定投资、进出口额、年末总 人口之间的关系,进行了多元回归分析。题目分别给出了三个表:
表 1:整体拟合程度:R,R 方,调整的可绝系数。
表 2:整体线性关系的 F 检验
表 3:系数的显著性 t 检验,方差扩大因子 VIF(存在多重共线性) 请对上述回归模型进行综合评价。

四、 题目中给出了从 99 年 1 月到 2004 年 3 月某地区各月的销售额的一个 时间序列图,该序列图中包含哪些成分?可以用什么方法来分析此模型,并 简要叙述可种方法的基本原理。

五、说明距离判别法与贝叶斯判别法的区别与联系。

六、说明大数定律与中心极限定理的内容和应用?

七、在敏感性问题的调查中,为了保证回答者尽量真实回答,采用如下方法: 以比例 p 的人回答敏感性问题(1) :你具有特征 A 吗?回答结果为是或 不是。另外 1-p 的比例人回答问题(2) :比如你的手机号尾数是奇数吗?回答是 的比例为 t。假设总体具有特征 A 的人数比例为 q,样本中回答是的比例为 R。 试提出 q 的一个估计证明该估计是 q 的一个无偏估计。求出 q 的方差的表达式。

2011年真题

一、(10 分)给出若干数据:
32 34 32 39 44 45 38 ……(共 30 个数值型数据) (1)这些数据可以用哪些图表来表示? (2)这些数据可以用哪些统计量描述?

二、(20 分)t 分布,卡方分布,F 分布在统计学中有哪些应用?三种分布的假设 条件是什么?

三、(20 分)给出一些数据和背景: (1)写出原假设和备择假设 (2)95%置信区间的含义 (3)p 值的含义

四、(20 分)对影响试验数据的一个因子进行单因素方差分析,给出: (1)简述模型中各参数的含义
(2)简述该模型的假设条件
(3)写出原假设和备择假设?
(4)问好像是要写出检验统计量。

五、(20 分)给出了一个二元回归分析的 EXCEL 表格。 (1)简述各个回归系数的含义(2)计算 ,并解释其含义
(3)计算 ,并解释其含义 (4)通过给出的 EXCEL 结果,对这个回归模型进行 评价

六、(15 分)一个含有各种要素时间序列的预测步骤。

七、(15 分)总体数量为 1000,总体均值 32,总体方差 5,从中抽出样本量为 100 的样本:
(1)样本平均值的期望和标准差
(2)样本平均值的分布 (3)以上结果的得出,依靠那条定理?简述这条定理

八、(20)有人认为人口密度与国民收入有关系,依据的数据给出了一个表,表中 随着人口密度的减小,人均国民收入呈现递增趋势,接着题目又给了一个表, 表中给出的是高收入国家的人口密度和人均国民收入的数据, 可以看到高收入 国家中也有几个国家的人口密度也是很大的,比如新加坡、日本。 第一问:从国土面积的角度去解释。 (我表述的貌似有点问题)第二问:对题目的分析过程进行改进, 写出你认为比较合适的方法来分析人口密度与国民收入的关系。

分享到