01
时间序列数据
时间序列数据(time series)是按时间顺序在不同时间段或时点上取得的一系列数据,描述观测对象随着时间变化而变化的情况。例如,我国历年的GDP等。
02
面板数据
面板数据(panel data)是对不同观测对象在不同时间段或时点上所收集的数据,描述多个观测对象随着时间变化而变化的情况。例如,2010-2020年全国各省、自治区、直辖市的GDP。对于面板数据,如果只考虑某一时间段或时点的时候,它就是截面数据;如果只考虑某一观测对象的时候,它就是时间序列数据。
03
原始数据
通过直接调查或实验获得的原始数据,这是统计数据的直接来源,一般称之为原始数据或一手数据(first-hand data)
搜集数据最基本的形式就是进行统计调查或进行实验活动,统计调查或进行实验就是统计数据的直接来源。
1.统计调查
统计调查(survey),是指根据统计研究预定的目标、要求和任务,运用科学的方法,有计划、有组织地搜集客观实际资料的过程。通过统计调查得到的数据,一般是观测数据。
2.实验
实验(experiment),是直接获得统计数据的又一重要来源,通过做实验得到的数据就是实验数据。实验不仅是一种搜集数据的方式,也是一种重要的研究方式。它是通过有意识地改变或控制某些输入变量,观察其他输出变量的变化,从而达到对事物本质或相互联系的认识。
为了观察对输入变量的控制是否导致了输出变量的改变,在实验中往往需要将研究对象分为两个组:实验组(test group)和对照组(control group)。对实验组的输入变量加以控制或改变,而对照组则不加控制,根据两组的输出结果,可以看到输入变量对输出的影响。
运用实验法要注意的是:首先,实验组和对照组的产生应当是随机的,研究对象的不同单位应当被随机地分配到实验组或对照组,而不应是经过有意识挑选的;其次,实验组和对照组还应当是匹配的,也就是研究对象的背景资料应当是大体相同的,至少不要差异太大。例如,要研究新开发出来的减肥药是否有效,就应当选择一些体重比较重的人分为实验组和对照组,而不应当选择一组体重较重的人而另一组体重较轻的人来做实验。
无论是统计调查还是实验,所搜集的数据都是原始数据,这是统计数据最基本的来源。
04
次级数据
虽然统计数据的搜集主要是指对原始数据的搜集,后面将要介绍的统计调查方法也是围绕搜集原始数据展开的,但数据的收集实际上不仅包括对原始数据的收集也包括对次级数据(二手数据)的收集。在很多情况下,统计研究都是在掌握次级数据的基础上进行的。
次级数据(二手数据)是指由其他人搜集和整理得到的统计数据。限于一定的条件,研究者可能无法亲自收集数据,或者已知有些数据已有他人的调查成果,不必再重新再做一次。这时,就需要收集二手资料以满足研究的需要。这种建立在他人调查整理基础上的次级数据也称为数据的间接来源。
常见的数据间接来源主要有:
①公开出版的数据。主要来自政府部门、组织、学校、科研机构等,如:《中国统计年鉴》《人口普查资料汇编》《北京市统计年鉴》《世界发展报告》以及某大学或科研机构发布的研究数据、专业调查咨询机构发布的调查结果数据、各种媒体和书刊报纸中发布的统计数据等等。
②未公开发表的数据。如各企业的经营报表数据、专业调查咨询机构未公开发布的调查结果数据。需要注意的是,如果引用未公开发表的数据,要注意合规性,需要征得数据所有者的同意,同时要为自己使用这些数据的后果负责。
③网络爬取的数据。大数据时代下,数据规模也是海量增长。在互联网中存在大量的数据,这些数据可以以数字、表格等结构化的形式存在,也可以以声音、图片、文字、视频等方法非结构化的形式存在。人们可以利用网络爬虫等技术手段,自动或者人工获取数据,并对这些爬取的数据进行加工和整理,进而用来分析。这些数据相对于爬取数据的人而言,也是二手数据,因为数据从无到有的过程是别人是实现的,不是爬取数据的人实现的,爬取数据的人只是完成了数据整合或整理的工作。
恰当地运用间接数据在实际中能够节约人力、物力、财力和时间,取得较好的成果和效益。但是,在使用间接数据时要注意其适用性和时效性。研究者应当分析原始资料搜集的目的与自己的研究目的是否相符,要搞清楚原始资料搜集的方法是否科学,原始资料的提供者是否公正、客观,还应注意数据的含义、计算口径和计算方法等是否具有可比性,避免数据误用或滥用。此外,尽量不使用过时已久的数据,在引用二手数据时一定要注明数据的出处或来源,尊重他人的劳动成果。
来源:山西省统计局