在CFA一级数量Statistical concepts and marketreturns这一Reading种讲到了测量数据的四个维度,分别是:名义维度(nominal scale)、排序维度(ordinal scale)、区间维度(interval scale)和比率维度(ratio scale)。
这四个维度的数据类型中具有名义或排序属性的变量有离散(discrete)变量的特性,而具有区间和比率属性的变量则有连续(continuous)变量的特性。
离散(discrete)
离散变量的数值种类是可数(有限)的,数值之间并不是连续无限可分的。离散变量有两种:
*种叫名义测量(nominal measures)。名义测量只对变量进行分类,变量间的数值差别只反映类别上的异同,对他们排序没有任何意思;不同的变量只表示不同的分类,而不能表示大小关系;不同变量之间没有相等的数值间隔;变量之间不能作加减乘除运算,只能求各类变量的数量。在分析这类数据时常用的统计分析方法有频数分析、求众数。常见的例子包括性别、宗教、贷款是否违约等。
第二种叫排序测量(ordinal measures)。排序测量中的变量不仅可以表示类别,还可以根据某种属性或特征按照一定的大小关系进行排序;但是,每个变量之间的间隔并不一致,彼此之间也不能用加减法来计算间距。可以使用的统计分析方法有频数分析、求众数。常见的例子有职称(初级、中级和高级)、划分年龄层次(儿童、少年、青年、中年及老年)等。
连续(continuous)
连续变量的数值与离散变量不同。连续变量在某一指定的范围内可以取无限多个不同的值。连续变量包括以下分类:
第一类是区间测量(interval measures)。区间测量中的变量不仅可以排序,还可以测量变量之间的差值,这种差值表示的是变量之间的标准间距。温度是*常见的例:摄氏温度之间的数值间距是被标准化过的,10度与20度之间的温差和20度与30度之间的温差是一致的。需要注意的是,这类变量没有真正的零点(true zero ornature zero),因为这类变脸的数值本身并不表示*的意义,也就是说零这一数值并不表示什么都没有,30度也不能说是10度的三倍,它只是一个标准化的测量指标,数值本身是可以认为规定的。比如摄氏温度的20℃与华氏温度的68℉表示的是一样的意义。
第二类是比率测量(ratio measures)。比率测量具有名义测量、顺序测量和间隔测量所有的属性,可以对变量进行分类、排序、加减乘除运算,它有*的零点(true zero)。它在四种测量维度中能体现出的信息。常见的例子有购买力、年龄、降雨量等。
在数理统计、数据分析及金融量化分析等很多定量研究领域中,研究人员必须要懂得如何区分变项的属性,因为只有区分了变量的属性,才能依据不同类型变量的特点来选择合适的数据处理、分析方法。