在平均数、变异数的优缺点中已经介绍了度量集中性的平均数,如算术平均数、中位数、众数等和度量离散性的变异数如方差、标准差等概念和具体理解。随着学习的深入,我们很快就会接触到协方差这一概念。那么协方差又如何理解呢?
我们知道平均数是进行集中性度量,方差是离散型的度量,但要是考虑两个变量之间的相互关系时,它们都哑火了。这时就该轮到协方差上场了!对二维随机向量(X,Y)来说,期望E(X),E(Y)只反映了X,Y各自的平均值,方差D(X),D(Y)只反映了它们各自与它们均值的偏离程度,它们都对X,Y之间的相互关系不提供任何信息。于是定义:E((X-E(X)(Y-(Y)))为X与Y的协方差,记为Cov(X,Y).
即:
Cov(X,Y)=E(((X-E(X))(Y-E(Y)))
计算式:
Cov(X,Y)=E(XY)-E(X)E(Y)
如果协方差Cov(X,Y)存在,并且X,Y的方差均大于0,则将Cov(X,Y)/sqrt[D(x)*D(Y)]定义为相关系数。可不要小瞧了这个相关系数,它将在以后的课程中大放异彩!
每一个人上课都有自己的风格,但是多么希望多么希望能把那些简单却有效的方法共享出来,那这个世界将会变成美好的人间!这是我梦寐以求的!
如果讲精确性和准确性可以使用上面这幅图,当然可以延伸一点对大家说:“天啊,可怜的埃蒙斯,04年雅典奥运会最后一枪干了别人的马子,哦,对不起,是靶子!08年北京奥运会,最后一枪一样走火“入魔”,又把金牌送给了我们。当然这是小概率事件,对!但个人建议,他应该去买彩票!”
独立事件的积事件的概率等于各自事件概率的乘积,即:P(AB)=P(A)*P(B)。可以首先介绍一下积事件的概念(也就是事件的交)譬如说:把生某一种病作为一个事件,那么有一个人可以同时得咽炎,扁桃体炎,结膜炎,哦,前列腺也要发言!好了,我们继续前面的看一个多一点的例子:譬如找女朋友就如同大海捞针!为什么呢?听我道来:找女朋友得要挑好看吧,背面一看,风调雨顺!正面一看,颗粒无收!每个人眼光不一样,也许十个人中有三个你认为是美女!好吧,0.3!还要有点钱吧,最好开一个圈的BMW,当然四个圈的奥拓他哥也十分满足,最不济奥拓也将就了!也许是0.02,一百个中有2个!OK!当然,你也可以继续下去,譬如要寻找一个丁克,外加父母双亡的,maybe是千分之一!哦,只是开一个玩笑,举一个例子!啊,这时已经是大海捞针了,要好看要有钱还父母双挂的,0.3*0.02*0.001等于……,你认为这样的女孩即使遇到了,她的旁边会有几条野兽呢?所以应该买一双轻便的跑鞋!
【特价推荐】专柜正品 NIKE AIR FORC
265.0元
数学是严谨的,但不是呆板的!所以这些只是例子而已!A math joke!当然听者有心,说者有嘴!假若一个花花公子想改正,只要一个做老婆,却又不知选谁做老婆,推荐他看看AHP(层次分析法),保证选出心中最爱!不过,让老爸老妈叔叔阿姨作为专家评审团,结果会更加可靠!
数学其实是无敌的!只是功夫再高,也怕菜刀!
数据资料具有集中性和离散性两个特点。集中性就像是大家向我靠拢,向我开炮。离散性自然是要远离中心这个雷区了。使用平均数作为集中性的度量,对离散性用变异数作为度量。
平均数一般分为算术平均数、中位数、众数和几何平均数。它们中以算术平均数最为常见,使用最为广泛,所以经常将算术平均数简称为平均数。但是假若数据中有极端值(极大或者极小)出现,那么算术平均数会受其影响的。当中位数和众数不易受到极端值的影响,但是都存在着数据利用不完全这一弊端。除此之外,众数还可能存在着多个众数或者无众数的情况。(样本数据中出现次数最多的样本值不唯一,或者所有样本值都只出现一次。)几何平均数由于其自身计算较为复杂,应用不是十分广泛,但大家要知道算术平均数大于等于其几何平均数这一性质。
对于变异数一般分为极差(也称全距)、四分位极差、方差、标准差和变异系数等。极差和四分卫极差都是一样的通病:利用数据不完全。除此之外,极差由于利用了数据中的极端值,只能粗略的估计数据波动范围。有很大的局限性。使用方差用来度量离散性最直接的缺点就是单位的不统一。标准差解决了上述问题,但是假若遇到需要比较的两个数据单位不一致时,譬如想比较身高和体重的离散性。即使标准差算出都是1,也不能说明身高和体重的离散性是一致的,因为1kg和1cm我们不能说是相等的。抑或遇到平均数大小不同,数量级不同时,譬如A是面粉,B是方便面,即使我们算出它们的标准差都是50g,但也不能说明面粉和方便面的离散程度是一致的。因为50g对于面粉来讲是小case,但是对于方便面,这可是大问题。所以到了变异系数的出场,不带单位的家伙,可以尽情蹂躏!