Tag Archives: 统计学

常用统计学图形介绍

在学习完相关的统计学课程之后,接触到了很多的统计学图形,很多时候“一图解千文”,不但美观,而且信息一目了然。在以后的工作和学习当中要学会善于使用这些图形。
1、条形图
也叫柱形图,主要针对于离散型数据资料,如人口数等。它是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按一定的顺序排列起来。从条形图中很容易看出各种数量的多少。
 
条形图分为:单式和复式,前者只表示1个项目的数据,后者可以同时表示多个项目的数据。
2、直方图
直方图主要针对于连续性数据资料,如身高、体重等。它和柱形图差别在于柱形图中间是有空隙的,而直方图是一个挨着一个的。
3、饼图
饼图是一个划分为几个扇区的圆形图表,用于描述量、频率或百分比之间的相对关系。在饼图中,每个扇区的弧长(以及圆心角和面积)大小为其所表示的数量的比例。这些扇区合在一起刚好是一个完全的圆形。顾名思义,这些扇区拼成了一个切开的饼形图案。一般不多于六块,原因在于过多则看不清楚。多余的可以合并起来作为其它。
4、散点图
在回归分析中经常可见散点图,由一些分散的点构成。 散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
5、帕累托图
帕累托图又叫排列图、主次图,是按照发生频率大小顺序绘制的直方图,表示有多少结果是由已确认类型或范畴的原因所造成。它是将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表。可以用来分析质量问题,确定产生质量问题的主要因素。
按等级排序的目的是指导如何采取纠正措施:项目班子应首先采取措施纠正造成最多数量缺陷的问题。从概念上说,帕累托图与帕累托法则一脉相承,该法则认为相对来说数量较少的原因往往造成绝大多数的问题或缺陷。
排列图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率.分析线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列,通过对排列图的观察分析可以抓住影响质量的主要因素.
帕累托法则往往称为二八原理,即百分之八十的问题是百分之二十的原因所造成的。

6、箱型图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱形图于1977年由美国著名统计学家John Tukey发明。它能显示出一组数据的最大值、最少值、中位数、下四分位数及上四分位数。
以下是箱形图的具体例子:
+—–+-+
* o [...]

协方差

在平均数、变异数的优缺点中已经介绍了度量集中性的平均数,如算术平均数、中位数、众数等和度量离散性的变异数如方差、标准差等概念和具体理解。随着学习的深入,我们很快就会接触到协方差这一概念。那么协方差又如何理解呢?
我们知道平均数是进行集中性度量,方差是离散型的度量,但要是考虑两个变量之间的相互关系时,它们都哑火了。这时就该轮到协方差上场了!对二维随机向量(X,Y)来说,期望E(X),E(Y)只反映了X,Y各自的平均值,方差D(X),D(Y)只反映了它们各自与它们均值的偏离程度,它们都对X,Y之间的相互关系不提供任何信息。于是定义:E((X-E(X)(Y-(Y)))为X与Y的协方差,记为Cov(X,Y).
即:
Cov(X,Y)=E(((X-E(X))(Y-E(Y)))
计算式:
Cov(X,Y)=E(XY)-E(X)E(Y)
如果协方差Cov(X,Y)存在,并且X,Y的方差均大于0,则将Cov(X,Y)/sqrt[D(x)*D(Y)]定义为相关系数。可不要小瞧了这个相关系数,它将在以后的课程中大放异彩!

抽样框选取失败的例子

抽样框是总体中用于抽样的所有个体的集合。
1936年美国总统大选预测。当时《文学文摘》杂志寄出1000万张明信片进行投票倾向调查,然后根据回收的200万份结果预测共和党人兰登将以领先15%的得票率当选美国总统。结果却是,民主党人罗斯福的得票率超过兰登20%,再次当选为美国总统。预测失败的主要原因是《文学文摘》并不是以登记的选民作为抽样框来抽取访问样本,而是把电话号码簿和汽车等级簿作为抽样框,这样就把大量没有电话和汽车的选民排除在外。这次失误让该杂志不久就关门歇业。这个案例也说明,当抽样框选取不恰当,再大的样本量都无济于事。