什么是数理统计?融跃小编就为您详细介绍一下统计的目的、总体和样本以及四种度量尺度。
1、统计的目的
统计能为我们做什么?对一般人而言,统计就是收集数据,让我们知道总体状况是怎么样的;这完全正确,但这仅仅是统计的一部分而已。统计更重要的意义在于数据分析,数据分析的目的是作出判断和预测。
描述性统计(descriptive statistics)是对数据的性质的描述。例如我们后面要学到的均值,描述了数据的中心趋势;而方差则描述了数据的离散程度。
推断性统计(inferential statistics)是用来作判断和预测的。例如我们后面要学到的假设检验,就是用来作判断的;我们在二级定量方法中还要学回归分析和时间序列分析,其就是用来作预测的。
2、总体和样本
总体(population)是我们所要研究的所有个体的集合。例如我们想要研究中国人的身高状况,那么所有中国人的身高的集合就是我们的总体。样本(sample)是从总体当中抽取出来的一个子集。例如抽取100个中国人,分别量了他们的身高,那么这100个身高的集合就是一个样本。这个样本的样本量(sample size)为100。
我们研究一个总体,通常不是想要了解每一个个体的情况,而是想要知道某些总体参数(population parameter)。例如研究中国人的身高状况,并不是想要知道每一个中国人的身高是多少,而仅仅想知道中国人的平均身高而已(这样就可以与10年前的平均身高作比较)。总体参数是总体中个体数值的函数,例如总体均值、总体方差等等。在上例中,我们想了解总体均值,就是所有中国人身高加起来除以总人口等于几。
但是由于种种原因,我们通常不能得到总体中所有个体的数值,我们只能抽取一个样本,来计算样本统计量(sample statistic)。样本统计量是样本中个体数值的函数,例如样本均值、样本方差等等。例如我抽取了100个中国人,分别量了他们的身高,计算了他们的平均身高,用来估计中国人总体的平均身高。
关于抽样和估计的具体内容,我们会在后面的章节详细阐述。在这里,你需要记住:总体对应总体参数,样本对应样本统计量。
3、四种度量尺度
统计研究的对象是数据。数据的度量尺度(measurement scales)有强有弱,但不外乎以下4种:
1.名义尺度(nominal scales)。名义尺度数据虽然看上去是数值型数据,但其实是文本型数据。比如我们把男性记为1,把女性记为0。又比如我用2表示“中国股票”,4表示“美国股票”。名义尺度数据不能比较大小,也不能作四则运算。
2.排序尺度(ordinal scales)。排序尺度数据的大小代表某种顺序。例如某次歌唱比赛,排出前8名,那么这个名次数据(1~8)就是排序尺度数据。排序尺度数据只能比较大小,不能作四则运算。例如我可以说第2名比第3名唱得好,但我不能说第2名和第3名的差距就是第3名和第4名的差距。
3.间隔尺度(interval scales)。间隔尺度比排序尺度更进一步,它使得数据之间间隔相等。这样,间隔尺度数据不仅能比较大小,还能作加减运算,但不能作乘除运算。温度(摄氏度)是间隔尺度的最好例子,例如上海20度,北京10度,那么我可以说上海温度比北京高10度,但我不能说上海的温度是北京的两倍。
4.比例尺度(ratio scales)。比例尺度比间隔尺度更进一步,它增加了一个绝对零点。这样,比例尺度数据不仅能比较大小,能作加减运算,还能作乘除运算。大多数数据都是比例尺度的,例如人的身高、债券的价格、公司的销售额等。
以上4种度量尺度是按照由弱到强的顺序排列的。