Category Archives: 概率统计

常用统计学图形介绍

在学习完相关的统计学课程之后,接触到了很多的统计学图形,很多时候“一图解千文”,不但美观,而且信息一目了然。在以后的工作和学习当中要学会善于使用这些图形。
1、条形图
也叫柱形图,主要针对于离散型数据资料,如人口数等。它是用一个单位长度表示一定的数量,根据数量的多少画成长短不同的直条,然后把这些直条按一定的顺序排列起来。从条形图中很容易看出各种数量的多少。
 
条形图分为:单式和复式,前者只表示1个项目的数据,后者可以同时表示多个项目的数据。
2、直方图
直方图主要针对于连续性数据资料,如身高、体重等。它和柱形图差别在于柱形图中间是有空隙的,而直方图是一个挨着一个的。
3、饼图
饼图是一个划分为几个扇区的圆形图表,用于描述量、频率或百分比之间的相对关系。在饼图中,每个扇区的弧长(以及圆心角和面积)大小为其所表示的数量的比例。这些扇区合在一起刚好是一个完全的圆形。顾名思义,这些扇区拼成了一个切开的饼形图案。一般不多于六块,原因在于过多则看不清楚。多余的可以合并起来作为其它。
4、散点图
在回归分析中经常可见散点图,由一些分散的点构成。 散点图表示因变量随自变量而变化的大致趋势,据此可以选择合适的函数对数据点进行拟合。
5、帕累托图
帕累托图又叫排列图、主次图,是按照发生频率大小顺序绘制的直方图,表示有多少结果是由已确认类型或范畴的原因所造成。它是将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表。可以用来分析质量问题,确定产生质量问题的主要因素。
按等级排序的目的是指导如何采取纠正措施:项目班子应首先采取措施纠正造成最多数量缺陷的问题。从概念上说,帕累托图与帕累托法则一脉相承,该法则认为相对来说数量较少的原因往往造成绝大多数的问题或缺陷。
排列图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率.分析线表示累积频率,横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列,通过对排列图的观察分析可以抓住影响质量的主要因素.
帕累托法则往往称为二八原理,即百分之八十的问题是百分之二十的原因所造成的。

6、箱型图
箱形图(Box-plot)又称为盒须图、盒式图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。箱形图于1977年由美国著名统计学家John Tukey发明。它能显示出一组数据的最大值、最少值、中位数、下四分位数及上四分位数。
以下是箱形图的具体例子:
+—–+-+
* o [...]

协方差

在平均数、变异数的优缺点中已经介绍了度量集中性的平均数,如算术平均数、中位数、众数等和度量离散性的变异数如方差、标准差等概念和具体理解。随着学习的深入,我们很快就会接触到协方差这一概念。那么协方差又如何理解呢?
我们知道平均数是进行集中性度量,方差是离散型的度量,但要是考虑两个变量之间的相互关系时,它们都哑火了。这时就该轮到协方差上场了!对二维随机向量(X,Y)来说,期望E(X),E(Y)只反映了X,Y各自的平均值,方差D(X),D(Y)只反映了它们各自与它们均值的偏离程度,它们都对X,Y之间的相互关系不提供任何信息。于是定义:E((X-E(X)(Y-(Y)))为X与Y的协方差,记为Cov(X,Y).
即:
Cov(X,Y)=E(((X-E(X))(Y-E(Y)))
计算式:
Cov(X,Y)=E(XY)-E(X)E(Y)
如果协方差Cov(X,Y)存在,并且X,Y的方差均大于0,则将Cov(X,Y)/sqrt[D(x)*D(Y)]定义为相关系数。可不要小瞧了这个相关系数,它将在以后的课程中大放异彩!

平均数、变异数的优缺点

数据资料具有集中性和离散性两个特点。集中性就像是大家向我靠拢,向我开炮。离散性自然是要远离中心这个雷区了。使用平均数作为集中性的度量,对离散性用变异数作为度量。
平均数一般分为算术平均数、中位数、众数和几何平均数。它们中以算术平均数最为常见,使用最为广泛,所以经常将算术平均数简称为平均数。但是假若数据中有极端值(极大或者极小)出现,那么算术平均数会受其影响的。当中位数和众数不易受到极端值的影响,但是都存在着数据利用不完全这一弊端。除此之外,众数还可能存在着多个众数或者无众数的情况。(样本数据中出现次数最多的样本值不唯一,或者所有样本值都只出现一次。)几何平均数由于其自身计算较为复杂,应用不是十分广泛,但大家要知道算术平均数大于等于其几何平均数这一性质。
对于变异数一般分为极差(也称全距)、四分位极差、方差、标准差和变异系数等。极差和四分卫极差都是一样的通病:利用数据不完全。除此之外,极差由于利用了数据中的极端值,只能粗略的估计数据波动范围。有很大的局限性。使用方差用来度量离散性最直接的缺点就是单位的不统一。标准差解决了上述问题,但是假若遇到需要比较的两个数据单位不一致时,譬如想比较身高和体重的离散性。即使标准差算出都是1,也不能说明身高和体重的离散性是一致的,因为1kg和1cm我们不能说是相等的。抑或遇到平均数大小不同,数量级不同时,譬如A是面粉,B是方便面,即使我们算出它们的标准差都是50g,但也不能说明面粉和方便面的离散程度是一致的。因为50g对于面粉来讲是小case,但是对于方便面,这可是大问题。所以到了变异系数的出场,不带单位的家伙,可以尽情蹂躏!