新書推薦:
《
长高食谱 让孩子长高个的饮食方案 0-15周岁儿童调理脾胃食谱书籍宝宝辅食书 让孩子爱吃饭 6-9-12岁儿童营养健康食谱书大全 助力孩子身体棒胃口好长得高
》
售價:NT$
214.0
《
身体自愈力:解决内在病因的身体智慧指南
》
售價:NT$
449.0
《
非言语沟通经典入门:影响人际交往的重要力量(第7版)
》
售價:NT$
560.0
《
山西寺观艺术壁画精编卷
》
售價:NT$
7650.0
《
中国摄影 中式摄影的独特魅力
》
售價:NT$
4998.0
《
山西寺观艺术彩塑精编卷
》
售價:NT$
7650.0
《
积极心理学
》
售價:NT$
254.0
《
自由,不是放纵
》
售價:NT$
250.0
|
編輯推薦: |
本书集统计学基本理论、基本方法、软件应用、引导案例与复习思考题于一体,对各种经济类与管理类专业和不同层次的教学具有广泛的适用性。
全书共分9章。*章为概论,旨在从总体上阐述统计的产生与发展、统计学的性质与特点,以及统计中存在哪些重要的概念和统计学与其他学科之间的关系,为后面的学习奠定基础。第二章为统计调查与数据整理,主要介绍统计工作的前两个环节,其中涉及大量的统计调查与数据整理的方法,并用Excel等软件将方法具体化。第三章为综合指标分析,充分应用总量指标、相对指标、平均指标和变异指标来分析现象。每一项指标又会涉及一些具体的方法,它们分别从不同的角度去分析问题,运用Excel可简化运算。第四章为抽样推断,通过抽样推断将统计功能提高到一个新的高度,在大量的科研中,这种分析方法得到了广泛的应用。第五章为假设检验,与第四章内容紧密相连,这一章主要介绍各种假设检验的方法,既涉及对参数的检验,也包括对非参数的检验。运用Excel能够将这两章非常复杂的运算过程简化,使得这两章的方法在现实中得到更广泛的应用。第六章为相关分析与回归分析,这两种分析之间是互补关系,相关分析主要分析现象间的相关方向与程
|
內容簡介: |
本书是作者在吸收了国内外统计学方面的优秀成果和现有统计学教材的编写经验基础上,融合了二十多年的统计学的教学经验和研究成果,紧密结合经济类与管理类的专业学科知识,在第1版的基础上进行编写和修订的,融实用、简单和创新于一体。全书共分9章,主要内容包括概论、统计调查与数据整理、综合指标分析、抽样推断、假设检验、相关分析与回归分析、时间序列分析、因素分析以及SPSS在统计学中的应用,形成了包括统计学的基本理论、基本方法、软件应用、引导案例和复习思考题在内的完整体系。
本书既可以作为经济类与管理类所有专业的本科生和专科生的教材,也可以作为其他专业学生以及对统计学感兴趣的读者的参考书。
|
目錄:
|
目 录
第一章 概论 1
第一节 统计的产生与发展 2
一、统计实践活动的产生与发展 2
二、统计学的产生与发展 3
第二节 统计学的性质和特点 6
一、统计的含义与职能 6
二、统计学的性质和研究对象 7
三、统计研究的基本方法 10
四、统计工作的过程 11
第三节 统计学的基本概念 12
一、总体与总体单位 12
二、标志与指标 13
三、差异与变量 15
四、指标体系 15
第四节 统计学与其他学科的关系 16
一、统计学与数学的关系 16
二、统计学与会计学的关系 16
三、统计学与计量经济学的关系 17
四、统计学与计算机科学的关系 17
五、统计学与其他统计学科的关系 17
本章小结 18
复习思考题 18
第二章 统计调查与数据整理 20
第一节 统计调查 21
一、统计调查的意义及其分类 21
二、搜集数据的基本方法 24
三、统计调查方案设计 26
第二节 统计整理 29
一、统计整理的意义和内容 29
二、统计整理的程序和方法 30
三、统计分组 31
第三节 频数分布 34
一、频数分布的概念 35
二、分布的编制方法 35
三、累计频数和累计频率 39
四、分布的类型 41
第四节 数据显示 43
一、箱线图 43
二、统计表 45
三、直方图 48
四、折线图 49
五、曲线图 50
六、饼图 50
七、环形图 51
八、线图 52
九、雷达图 53
第五节 Excel在数据整理中的应用 54
一、利用Excel进行随机抽样 54
二、利用Excel进行统计分组 57
三、利用Excel进行统计显示 58
本章小结 60
复习思考题 60
第三章 综合指标分析 61
第一节 总量指标 62
一、总量指标的概念和意义 62
二、总量指标的种类 63
三、总量指标的计算和运用 66
第二节 相对指标 68
一、相对指标的意义 68
二、相对指标的种类 68
三、相对指标的表现形式 69
四、相对指标的计算方法 70
五、相对指标的运用原则 78
第三节 平均指标 79
一、平均指标概述 79
二、位置平均数的计算 80
三、数值平均数的计算 85
第四节 变异指标 94
一、变异指标概述 94
二、标志变异指标的计算 95
三、分布变异指标 103
第五节 Excel在综合指标分析中的
应用 105
一、Excel在总量指标与相对
指标中的应用 105
二、Excel在平均指标与标志
变异指标中的应用 106
本章小结 108
复习思考题 108
第四章 抽样推断 109
第一节 抽样推断的基本理论 110
一、随机事件与概率 110
二、随机变量及其概率分布 111
三、大数定律和中心极限定律 113
第二节 抽样推断的含义与作用 115
一、抽样推断的含义及其特点 115
二、抽样推断的作用 116
三、抽样推断中的基本概念 117
四、抽样方法 118
第三节 抽样估计 118
一、抽样估计的含义与特点 118
二、抽样估计的优良标准 118
三、抽样误差 121
四、抽样估计方法 126
第四节 样本容量的确定 128
一、估计总体平均数时,样本
容量的确定 128
二、估计总体成数时,样本容量的
确定 129
三、确定样本容量时应注意的
问题 130
第五节 其他抽样组织方式下的
抽样估计 130
一、等距抽样 130
二、类型抽样 131
三、整群抽样 133
第六节 Excel在抽样估计中的应用 134
一、Excel在总体平均数抽样
估计中的应用 134
二、Excel在总体成数抽样估计中的
应用 137
本章小结 138
复习思考题 138
第五章 假设检验 140
第一节 假设检验概述 141
一、假设检验的基本概念 141
二、双侧检验与单侧检验 143
三、Z检验与t检验 144
四、假设检验的两种错误 145
第二节 总体参数检验 146
一、总体平均数的检验 146
二、总体成数的检验 147
三、r 值检验 148
第三节 非参数检验 149
一、非参数检验概述 149
二、符号检验 150
三、秩和检验 152
第四节 Excel在假设检验中的应用 154
一、Excel在参数检验中的应用 154
二、Excel在非参数检验中的应用 155
本章小结 156
复习思考题 156
第六章 相关分析与回归分析 158
第一节 相关分析 159
一、相关关系与函数关系 159
二、相关关系的种类 160
三、相关分析的含义与图表 161
四、相关系数 162
第二节 线性回归分析 168
一、回归分析 168
二、一元线性回归分析 169
三、多元线性回归分析 177
第三节 非线性回归分析 181
一、非线性回归模型 181
二、非线性回归模型的估计 183
第四节 EViews 在相关分析与回归分析中的应用 186
一、EViews的基本简介 186
二、EViews的工作特点 186
三、EViews在相关分析与回归
分析中的应用 186
本章小结 190
复习思考题 191
第七章 时间序列分析 192
第一节 时间序列概述 193
一、时间序列的概念 193
二、时间序列的种类 194
三、时间序列的编制原则 195
第二节 时间序列水平指标 196
一、发展水平 197
二、平均发展水平 197
三、增长量与平均增长量 201
第三节 时间序列速度指标 203
一、发展速度与增长速度 203
二、平均发展速度与平均增长
速度 206
三、时间序列水平分析与速度分析的
结合应用 208
第四节 趋势分析 209
一、时间序列的构成因素和
分析模型 209
二、长期趋势的测定 210
三、季节变动趋势的测定 219
四、循环变动趋势与不规则变动的
测定 220
第五节 Excel在时间序列分析中的
运用 221
一、利用Excel的函数功能计算
平均发展水平 221
二、利用Excel计算增长量和
速度指标 224
三、利用Excel计算移动平均序列,
绘制移动平均线 227
四、利用Excel求趋势方程 228
本章小结 230
复习思考题 231
第八章 因素分析 232
第一节 指数概述 233
一、统计指数的概念 233
二、统计指数的分类 233
三、统计指数的作用 234
第二节 综合指数的编制 235
一、综合指数的编制与应用 235
二、平均指数的编制与应用 240
三、指数数列 244
第三节 指数体系与因素分析 245
一、指数体系与连锁替代法 245
二、两因素分析 247
三、多因素分析 251
第四节 Excel在因素分析中的应用 252
一、利用Excel计算总指数 252
二、利用Excel计算平均指数 253
三、利用Excel进行因素分析 255
本章小结 258
复习思考题 259
第九章 SPSS在统计学中的应用 260
第一节 SPSS简介 261
一、SPSS的使用基础 261
二、SPSS数据的预处理 265
第二节 SPSS在统计学中的应用 271
一、SPSS在统计调查与数据
整理中的应用 271
二、综合指标分析 280
三、抽样推断和假设检验 286
四、相关分析 292
五、回归分析 293
六、时间序列分析 295
本章小结 296
复习思考题 296
附表 297
参考文献 306
|
內容試閱:
|
第二章 统计调查与数据整理
【学习目标】
通过本章的学习,使学生明确统计调查与数据整理的概念、原则和程序,掌握统计调查的方式方法,了解调查方案、问卷设计及调查误差的有关问题;同时,掌握统计分组和频数分布的基本理论和方法,并了解统计图表的种类和绘制方法。
【关键概念】
统计调查statistical investigation 统计分组statistical
grouping
频数分布frequency distributing
【引导案例】
2015年9月份商品及服务价格同比变动情况
如图2-1所示,2015年9月份,食品价格同比上涨2.7%,影响居民消费价格总水平上涨约0.92个百分点。其中,粮食价格上涨1.4%,影响居民消费价格总水平上涨约0.04个百分点;鲜菜价格上涨10.4%,影响居民消费价格总水平上涨约0.31个百分点;鲜果价格下降10.7%,影响居民消费价格总水平下降约0.25个百分点。非食品价格同比上涨1.0%。其中,烟酒及用品、衣着、医疗保健和个人用品、娱乐教育文化用品及服务、家庭设备用品及维修服务、居住价格分别上涨3.8%、2.8%、2.1%、1.4%、1.0%、0.8%;交通和通信价格下降2.1%。
图2-1 2015年9月份商品及服务价格同比变动情况
据测算,在9月份1.6%的居民消费价格总水平同比涨幅中,去年价格上涨的翘尾因素约为0.2个百分点,新涨价因素约为1.4个百分点。
这样的分析,我们常在各类媒体上见到。但是,这些数据是怎样得到的?这些图表是怎样绘制的?如何使用这些图表?上述问题都是本章所要研究的内容。
资料来源:国家统计局
第一节 统 计 调
查
一、统计调查的意义及其分类
一位著名的统计学家曾经说过世上有两种数据,那就是好数据和坏数据。那么,数据从何而来呢?在实际工作中,人们有三种途径获取统计数据,即对现象进行直接的调查和记录、对现象进行特殊的实验和观察、引用现有的数据。相应的,统计数据的收集方式也分为统计调查、实验研究和利用现有数据三种类型。在大量的经济管理活动中,获取统计数据的主要途径是统计调查,因此,统计调查是获得社会经济管理等方面数据的主要来源。
一统计调查的意义
统计调查statistical investigation是按照统计设计所确定的指标和指标体系,采用科学的方法,有组织地、系统地搜集原始资料的过程。其任务是取得准确、及时、全面、系统的原始资料。
统计调查在统计工作中具有重要意义。首先,从统计工作的全过程来看,统计调查是认识事物的起点。统计调查处于基础阶段,统计资料的整理、计算汇总与分析研究都必须在调查搜集资料的基础上进行。因此,调查工作的好坏,取得的资料是否完整与正确,将直接影响到以后各个阶段工作的好坏,影响整个统计工作任务的完成。其次,从统计调查的主要特征来看,统计调查能够搜集到大量数字资料信息。
统计调查必须达到准确性、及时性和完整性三个基本要求。准确性是统计调查最基本的要求,也是统计工作的生命。因此,在调查中必须坚持统计制度和纪律,如实地反映客观实际,防止各种错漏发生。及时性要求按规定的时间及时完成各项调查任务,使决策者能及时得到信息,因为过时的资料犹如"雨后送伞"。完整性要求统计调查按调查项目所列内容进行全面系统的资料搜集。
二统计调查的分类
统计调查的分类方法很多,常用的划分方法有:按调查范围分为全面调查和非全面调查;按调查登记时间的连续性分为经常性调查和一次性调查;按组织形式分为统计报表制度和专门调查。全面调查是指对被研究现象总体的所有单位无一遗漏地进行调查的一种调查方式;非全面调查则是指对被研究现象总体的一部分单位进行调查的一种调查方式。例如要了解厦门市居民家庭的居住水平,如果对厦门市居民家庭一一调查则是全面调查,如果只对厦门市集美区和同安区的家庭进行调查则是非全面调查。经常性调查是指随着研究对象的发展变化,连续不断地进行调查登记。一次性调查是指间隔一段时期而进行的调查,它可以定期进行,也可以不定期进行。专门调查是为研究某些专门问题由进行调查的单位专门组织的调查,我国的人口、房屋等普查即为我国某一时期的专门调查。各种调查形式的关系如图2-2所示。
图2-2 统计调查形式
1. 统计报表制度
统计报表制度statistical report forms是根据有关法规的规定,自上而下地统一布置、自下而上地逐级按照统一要求提供基本统计数据的调查方式。它由政府统计部门向列入调查范围的全部统计调查单位发放统计报表,并由这些单位以原始记录为依据,按照统一的指标定期填好后,按照统一的报送时间和程序向发放报表的部门报送。
统计报表制度是国家搜集国民经济和社会发展情况基本资料的手段,为国民经济和社会发展计划的制订与执行服务。其主要优点有:①设计精心周密、高度统一、规范。统计报表制度的指标体系、表格形式、报送程序和报送时间均由国家统一规定。②回收率高,内容相对稳定,便于资料的积累和对比。③层层上报、逐级汇总,可以满足各级部门的管理需要。④能够满足不同时期的分析需求。日报、旬报可用于报告重要项目的进度,月报、季报和半年报可用于经常性计划和合同执行情况的检查,年报则可用于年度总结和分析。
2. 普查
普查census是指为了详尽地了解某时某地某种事物的全面情况而专门组织的一次性全面调查。普查比任何一种形式的调查所获得的资料要更为详细全面,但是普查涉及面广,调查单位多,耗费的人力、物力和财力也较多,经历的时间也较长。因此,普查一般主要用来调查重要项目,例如一个国家或地区的人力资源、财力资源和物质资源的数量、分布及其利用情况等。
在实际工作中,普查通常采用两种组织方式进行:一种是组织专门的普查机构进行普查,另一种是并不设立专门的普查机构。前者通过成立专门的普查机构,并配备大量的专业普查员对调查单位进行直接登记并开展普查工作,例如我国的人口普查等。后者直接利用调查单位的原始记录和核算资料,结合盘点清查,由调查单位自行填报调查表格而开展普查工作,例如我国的物资库存普查等。和前者相比,后者组织方式简便,适用于内容单一、涉及范围较小的情况,尤其适用于出于某种紧迫性而需要快速进行的普查。但是,它们都是一次性或周期性的,并且数据标准化程度高,有着较高的准确性,可以为其他调查提供基本依据。同时也都要规定统一的标准时点和普查期限。
3.重点调查
重点调查key-point investigation是在全部单位中选择一部分重点单位进行调查,以取得统计数据的一种非全面调查方法。所谓重点单位是指在总体中标志值占绝对比重的那一部分单位,它可以是一些企业、一些行业、一些城市或一些地区。确定重点单位的关键在于确定所研究现象的标志总量及其比重,如为了掌握"三废"排放情况,就可选择冶金、电力、化工、石油、轻工和纺织等重点行业的工业进行调查;再如为了掌握铁路物流运输和客运情况,可以选择大秦铁路、铁龙物流等企业进行调查,因为这些行业、这些企业在各自领域占了较大比重。
由于重点单位在全体调查对象中只占较小部分,调查的标志量在总体中却占较大的比重,因而对这部分重点单位进行调查所取得的统计数据能够反映社会经济现象发展变化的基本趋势。与抽样调查不同的是,重点调查取得的数据只能反映总体的基本发展趋势,不能用以推断总体,因而也只是一种补充性的调查方法。该方法目前主要是在一些企业集团的调查中运用。重点调查的优点是花费力量较小,能及时提供必要的资料,便于各级管理部门掌握基本情况,采取措施。如我国1979年大中型企业环境保护基本情况调查和1985年全国工业污染源调查就是重点调查。
4.典型调查
典型调查typical survey是根据调查目的和要求,在对调查对象进行初步分析的基础上,有意识地选取少数具有代表性的典型单位进行深入细致的调查研究,借以认识同类事物的发展变化规律及其本质的一种非全面调查。使用典型调查时须注意所选的对象要具有代表性,能够集中、有力地体现问题和情况的主要方面,同时注意点与面的结合,切忌"一刀切",并将定性分析与定量分析相结合,以提高分析的科学性和准确性。
典型调查要求调查者搜集大量的第一手资料,搞清所调查的典型单位中各方面的情况,并进行系统、细致的解剖,从中得出用以指导工作的结论和办法。它适用于调查样本较大、总体同质性较高,且调查者对总体情况比较了解,能准确地选择有代表性对象的情况。实施典型调查的主要步骤是:①"解剖麻雀",根据研究目的,通过多种途径了解研究对象的总体情况;②"划类选典",从总体中初选出备选单位,加以比较,慎重选出有较大代表性的典型;③"抓两头",进行调查,搜集资料并分析研究资料,得出结论。
典型调查与重点调查的区别主要表现在两个方面:首先是选择对象的标准不同。典型单位是在对总体情况分析的基础上有意识地抽选出来的;重点单位是根据其标志值是否占全部总体单位标志总量的绝大比重这一标准来确定的,这一标准是客观存在的,是不容挑选的。其次是调查目的不同。典型调查需要说明的是总体的发展变化规律;而重点调查则是为了了解总体的一般情况和发展水平。
5.抽样调查
抽样调查sampling survey是按照随机原则从调查总体中抽取一部分单位作为样本进行调查,根据调查所取得的有关数字特征推断总体相应的数字特征的一种调查方式。抽样调查是市场调查中最常用的调查方式,它可按抽样方式分为简单随机抽样、分层抽样、整群抽样、等距抽样等方式,第四章将详细介绍这些抽样方式。
二、搜集数据的基本方法
搜集统计数据的基本方法主要有直接观察法、采访法、报告法、通讯法、德尔菲法和实验设计等方法。
一直接观察法
直接观察法是指由调查人员到现场对调查对象直接进行观察和计量,以取得原始资料的一种调查方法。在观察过程中,调查人员所处的地位是被动的,也就是说调查人员对所观察的事件或行为不加以控制或干涉。例如,在进行商场调查时,调研人员并不访问任何人,只是观察现场的基本情况,然后记录备案。一般调研的内容有某段时间的客流量、顾客在各柜台的停留时间、各组的销售状况、顾客的基本特征及售货员的服务态度等。
在特定条件下,当被调查者难以配合调查研究的实施时,应采取直接观察法。如被调查者面对某些敏感性、私密性的问题而不好回答或没有足够的时间来回答提问时,就应通过直接观察法直接观察他们的行为表现,记录他们的行为方式或行为时间,以此来达到研究的目的。在直接观察法下,即使观察者拥有较高的专业水平,观察结果也容易受到观察者个人的态度、观念和周边具体环境的影响。因此,观察者除了要凭借自己的注意力和记忆力之外,还要借助先进的记录工具如录音、录像、照相等器材完整地记录下被调查者复杂的行为活动。
二采访法
采访法是指由调查人员携带调查表向被调查者逐项询问,将答案填入表内的一种调查方法。采访法根据填写的方式分为口头询问法和自填法两种,口头询问法是由调查人员对被调查者逐一采访并记录;自填法是由调查人员把调查表交给被调查者并说明填写方法和要求,被调查者填写好调查表后由调查人员审核收回的调查方法。
在一对一的采访中,调查人员与被调查者可以直接交谈,双方可以进行当面提问和答询。在集体采访中,调查人员与被调查者可以相互讨论,相互补充。因此采访法具有所获取的数据信息相对准确和丰富的优点,但是采访法同时也具有耗费过大的缺点,在调查经费紧张时不宜采用这种方法。
三报告法
报告法是指由报告单位根据原始记录和核算资料,按照统计调查机关颁发的统一表格和要求,按一定的报送程序向统计调查机关提供统计资料的方法。
我国现在各企业、各机关向上级部门填报统计报表就是报告法,这种调查是各地区、各部门、各单位按照有关法规的规定,必须对国家履行的一种义务。报告法的特点是有统一项目、统一表格、统一要求和统一上报程序,其资料来源于原始记录,可以同时进行大量的调查。在报告系统健全、原始记录和核算工作完整的情况下,报告法可以保证所提供资料的准确性和及时性。
四通讯法
通讯法是指调查人员向被调查者邮寄或传真调查资料或调查表格,被调查者按要求做出回答并将结果邮寄或传真给调查人员的方法。通讯法的特点是以自愿提供资料为前提,没有强制性。通讯法虽然具有节省人力、物力、财力和时间的优点,但是可能回收率比较低,同时所回收的数据资料可能具有较低的可信度,影响调查质量。因此,通讯法一般在对被调查者个人信息比较了解时采用。
五德尔菲法
德尔菲法是指依据系统的程序,采用匿名发表意见的方式即专家之间不得互相讨论、不发生横向联系,而只能与调查人员发生关系,通过多轮次调查专家对问卷所提问题的看法,经过反复征询、归纳、修改,最后汇总成专家基本一致的看法,作为调查的结果。
德尔菲法具有广泛的代表性,调查结果也较为可靠。如某代理商采用德尔菲法调查某一保健品的销售量。该代理商首先选择若干专卖店经理、营养师、顾客、销售代表和海外公司经理组成专家小组。然后将该保健品和一些相应的背景材料发给各位专家,要求大家给出该保健品的最低销售量、最可能销售量和最高销售量三个数字,同时说明自己做出判断的主要理由。随后将专家们的意见收集起来,归纳整理后返回给各位专家,然后要求专家们参考他人的意见对自己的判断重新考虑。专家们完成第一次判断并得到第一次判断的汇总结果以后,除销售代表Peter外,其他专家在第二次判断中都做了不同程度的修正。重复进行,在第三次判断中,大多数专家又一次修改了自己的看法。第四次判断时,所有专家都不再修改自己的意见。因此,专家意见收集过程在第四次判断以后停止。最终调查结果为最低销售量77万罐,最高销售量175万罐,最可能销售量141万罐。
六实验设计
实验设计是一种通用的科学合理地安排实验和分析实验数据的方法。将一组随机抽取的实验对象随机分配到两种或多种处理组,观察比较不同处理的效应,这种研究称为实验研究。实验设计是为实验研究做的周密计划,它可以用于收集测试某一新产品、新工艺、新方法或新方案使用效果的数据资料。实验设计能有效地控制误差,节省人、财、物力,提高效率,但须遵循四个基本原则:①对照原则,即实验要设立对照,使得除实验因素外,对照组与实验组其余因素保持一致;②重复原则,即研究对象要有一定的数量,或者说样本含量应足够,根据每个具体研究,可有不同的方法来进行样本含量估计;③随机原则,即应保证每个实验对象都有同等机会进入实验或接受某种处理;④均衡原则,即各处理组非实验因素的条件基本一致,以消除其影响。
随着现代信息技术的发展,计算机、网络、光电技术、卫星遥感、地理信息系统等高新技术已经或正在被广泛地引入统计调查领域中,统计调查人员应根据调查目的与调查对象的具体特点,选择合适、恰当的调查方法。
三、统计调查方案设计
统计调查是一项理论性与实践性非常强的系统性工作,大型的调查往往需要成千上万的人协同工作,工作过程中必须统一认识、统一内容、统一方法、统一步调。因此,事先制订一个科学周密的统计调查方案是顺利完成调查任务的必要条件。统计调查方案是指关于统计调查的工作计划,它是调查工作的指导性文件。
一统计调查方案的基本内容
一个完整的调查方案应该确定进行统计调查的目的、明确调查对象和调查单位、确定调查项目和选择调查方式方法,并规定调查地点、时间及调查的具体措施等。换言之,完整的统计调查方案应该包括以下六个方面的基本内容。
1.调查目的
制订统计调查方案首先应该明确统计调查的目的,同时调查目的要符合客观实际,因为它是统计调查行动的指南。调查目的不明确,就无法确定调查对象、调查范围、调查内容和调查方法,其结果必然是调查混乱,甚至导致调查中断,从而贻误工作。因此,明确统计调查的目的是制订统计调查方案首先应解决的问题。
2.调查对象、调查单位和报告单位
明确调查对象和调查单位是制订统计调查方案的又一基本内容。调查对象是需要调查的现象的总体,调查单位是调查对象中的总体单位,它们是集合与元素的关系。报告单位是负责上报调查资料的单位,调查单位和报告单位有时是同一事物,有时不是同一事物。例如,在班级同学本周末是否愿意去南普陀寺游玩的调查中,全班同学这个整体便是调查对象,班上的每一位同学就是调查单位,同时也是报告单位,在这里调查单位和报告单位是相同的。再如,在班级同学电脑拥有情况的调查中,全班所有同学的电脑这个整体便是调查对象,班上每一位同学的电脑这个个体就是调查单位,每一位同学是报告单位,在这里调查单位和报告单位是不同的。
3.调查项目和调查表
调查项目是调查中所要登记的调查单位的特征,即调查中规定的调查单位的标志,它由一系列品质标志和数量标志构成。例如,在班级同学电脑拥有情况的调查中,电脑的品牌、种类配置等就是调查项目。调查表是将所有调查项目按一定顺序排列所形成的表格,它可以分为单一表和一览表两种形式。只能登记一个调查单位的内容的调查表是单一表,可以同时填写多个调查单位的内容的调查表是一览表。单一表便于整理分类,适用于调查项目较多的调查;一览表简洁明了,适用于调查项目不多的调查。统计调查中采用哪一种调查表由调查目的、调查任务确定。
4.调查地点、调查时间和调查期限
调查地点是指调查对象所在的地点,它是统计资料所属的空间范围,明确调查地点可以防止统计资料发生错漏。调查时间是指调查资料所属的时间,即调查资料所反映的现象客观存在的时间。调查期限是指调查工作的起讫期限,包括搜集资料和报送资料的整个工作所需要的时间。如为了分析海西经济区的经济发展状况,在2015年3月6日-3月12日对海西经济区2006-2014年的GDP进行了调查。那么在这项调查中,海西经济区是调查地点,2006-2014年是调查时间,2015年3月6日-3月12日是调查期限。
5.调查方式和调查方法
统计调查的方式和方法有很多种,各种方法各有其优缺点,分别适用于不同的情况。某次统计调查采用何种调查方式和调查方法,应当根据统计调查的目的并结合各种调查方式和调查方法的优缺点综合考虑。在一次统计调查中,可以单独运用某种调查方式和调查方法,也可以综合运用多种调查方式和调查方法,但是所运用的调查方式和调查方法都应该在统计调查方案中加以规定。
6.调查组织实施计划
调查组织实施计划是指确保实施调查的具体工作计划。在调查组织实施计划中,应该明确规定本次调查的组织领导机构,具体地规定宣传教育方式、人员培训内容、文件印刷、经费的来源与开支办法等。此外,调查组织实施计划中还应该明确调查资料的报送程序与报送方式、调查结果的公布时间和公布渠道等内容。
二统计调查问卷的设计
调查问卷是调查人员向被调查者发出的调查提纲或调查表,设计科学的调查问卷是顺利取得规范的数据资料的基本保证。调查问卷按回答问题的形式可以分为开放式和封闭式两种,但一般都有开头、甄别、主体和背景等部分。
开头包括问候语、填表说明和问卷编号等,一般用来说明调查的目的、内容、填表须知和问卷识别等。开头部分力求文字简洁、准确,语气谦虚、诚恳。如湖南卫视新媒体金鹰网组织的第一次休闲网游有奖问卷调查的开头部分如下。
您好!首先感谢您参与此次有奖问卷调查活动!
2010年初湖南卫视新媒体金鹰网即将推出一款融合了时尚、交友、竞技等众多热门元素的休闲网游《网球宝贝》。为了能够进一步了解市场,让游戏更贴近玩家的实际需求,为玩家提供更为优质的服务,特通过此次有奖问卷调查活动来收集广大玩家对《网球宝贝》的反馈信息。一等奖一名,奖品为Turbospeed的加速软件;二等奖一名,奖品为蓝牙鼠标;三等奖五名,奖品为PinStripe
4GB的U盘。活动截至2010年2月15日,请您留下有效地址和联系方式,以便联系获奖者和邮寄奖品。
甄别部分主要通过一些问题排除不符合条件的被调查者,其目的是确保被调查者能够作为调查项目的有效代表,使之符合调查研究的需要。主体部分包括了要调查的全部问题和问题的备选项,是问卷的核心。背景部分包括被调查者的性别、民族、职业、收入等主要个人特征或者单位名称、地址、负责人、主管部门等单位主要情况。
乔治盖洛普G. Gallup曾言,没有什么比对问题的选择、措辞还要困难和重要。设计一份良好的问卷应该注意以下几个问题。
1 提问内容要具体且尽可能短。问题要确切,避免专业术语和模棱两可,力求明确。例如,"您对您家庭目前的住房状况是否满意"就过于笼统,无法达到预期效果,如果改为"您对您家庭目前的住房面积是否满意"和"您对您家庭目前的住房设计布局是否满意"两个问题就显得具体,能够达到调查的要求。
2 一个问题只包含一项内容。如果包含的内容过多,就会令人无从答起,也会给统计处理带来困难,影响调查效果。如问题"你喜欢玩网游和看美国大片吗"包含了两方面的内容,应该将其分解为两个问题。
3 避免诱导性问题。诱导性问题通常会使被调查者不敢表达真实的想法,而引出与事实相反的结论。例如,对于问题"艾森豪威尔将军说,陆军部和海军部应当合并为统一的作战部,你同意吗",同意的比例为49%,而改为"陆军部和海军部应当合并为统一的作战部,你同意吗"之后,由于问题中去掉了"艾森豪威尔将军说"这一暗示语,结果同意的比例为29%。因此,问卷设计应坚持客观的态度,避免诱导性。
4 要注意设计问题的开放式回答。有些问题的答案不能一一列举完毕,为了统计分析的需要,应设有开放式回答。如"以下哪个网球休闲游戏的广告语最能引起你的注意?1.我向网,我追球;2.手指激情;3.一网情深,球起心动;4.其他 "。
5 问题应按照逻辑类型和难易程度排序。引导性的问题宜放在前,敏感性的问题宜放在后,以便引起被访者的兴趣,避免其处于守势地位,并让被访者有循序渐进的感觉。
第二节 统 计 整
理
一、统计整理的意义和内容
统计整理是根据统计研究的目的和要求,对调查得到的原始记录进行分组和汇总,使其条理化、系统化的工作过程。统计整理在统计工作中具有十分重要的意义。统计调查所取得的原始资料是反映各个总体单位的资料,它们仅说明各个总体单位的具体情况,是不系统的、分散的,甚至还可能带有一定的片面性。统计需要的是反映总体特征的统计指标,因此需要进行统计整理。
统计整理介于统计调查和统计分析之间,属于统计工作的第二阶段。统计整理在统计工作中起到承上启下的作用,既是统计调查的继续,又是统计分析的基础和前提,它实现了从个别单位的标志值向说明总体数量特征的指标值的过渡,是人们对社会经济现象从感性认识上升到理性认识的过渡阶段,是进一步进行统计分析的必要前提。可见,统计整理绝不是一个单纯的技术问题,而是统计工作中一个极其重要的理论问题。其主要内容通常包括三个方面,即设计整理方案、对统计资料进行汇总并计算各项指标和通过统计表描述整理的结果。
二、统计整理的程序和方法
统计整理的主要内容决定了统计整理的全过程,统计整理的全过程体现了统计整理的主要内容。
一统计整理的程序
统计整理的全过程大体上可以分为以下五个步骤。
1.设计统计整理方案
统计整理方案与调查方案应紧密衔接,其指标体系要与调查项目一致,或者是其中的一部分,绝不能矛盾、脱节或超越调查项目的范围。整理方案是否科学,对于统计整理乃至统计分析的质量都是至关重要的。
2.审核、修订调查资料
在汇总前,要对调查得来的原始资料进行审核,审核它们是否准确、及时、完整,如发现问题,应加以纠正。统计资料的审核也包括对整理后次级资料的审核。
3.进行科学的统计分组
用一定的组织形式和方法,对原始资料进行科学的分组,是统计整理的前提和基础。在统计整理中,应根据统计研究的目的和要求,抓住最基本的、最能说明问题本质特征的统计指标进行统计分组,并根据分析的需要确定具体的分组形式。
4.统计汇总
对分组后的资料进行汇总和必要的计算,使得反映总体单位特征的资料转化为反映总体数量特征的资料。
5.编制统计表
统计表是统计资料整理的结果,也是表达统计资料的重要形式之一。根据研究的目的可编制出各种统计表。
二统计整理的方法
统计整理的方法有统计分组、汇总和编制统计表。分组是指根据任务的要求,对调查所得的原始资料,确定要进行哪些分组或分类,在分组的基础上确定应该汇总得到哪些统计指标。汇总是继分组后的一个重要步骤,它是指将多单位的各种标志值相加进行汇总。统计汇总技术主要有手工汇总和电子计算机汇总两种。手工汇总常用的方法主要有划记法、过录法、折叠法和卡片法。电子计算机汇总大致需经过编制程序、编码、数据录入、数据编辑和计算、制表等步骤。
三、统计分组
统计分组statistical grouping是指根据统计研究的目的与要求以及研究现象的内在特点,将统计总体按照某一个或某几个标志划分为若干个性质不同又有联系的部分。统计分组时必须同时满足穷尽互斥的原则。所谓穷尽是指每一个总体单位都有组可归。例如,将一群小学生按性别分为男生和女生两组,不能存在一名小学生既不归属于男生组又不归属于女生组的情况,这就是穷尽原则。所谓互斥是指每一个总体单位只能归属于某一个分组。例如,在上例中,不能存在一名小学生既归属于男生组又归属于女生组的情况,这就是互斥原则。在连续式组距数列中,用"下限记入原则"来保证互斥原则。
一统计分组的分类
分组标志是用来作为分组依据的标志。进行统计分组的关键在于选择分组标志,而选择分组标志的关键在于所选标志要服从研究任务的需要,能够反映总体的本质特征。统计分组的分类方法有很多,其中之一就是按分组标志划分。
1.按分组标志的多少划分
将统计分组按照分组标志的多少划分,可以分为简单分组和复合分组。其中,只有一个分组标志的是简单分组,如表2-1所示。复合分组是先按某个分组标志分组后,再在此基础上按另外一个分组标志将每一个分组进一步细分的统计分组。表2-2所示为在已按身高分组的基础上再将每一组按性别分组的复合分组。复合分组的分组标志可以是两个或两个以上。
2.按分组标志的类型划分
将统计分组按照分组标志的类型划分,可以分为品质分组和数量分组。如果分组标志是品质标志,那么统计分组就是品质分组;如果分组标志是数量标志,那么统计分组就是数量分组。表2-1中的分组标志是身高,因为身高是数量标志,所以表2-1是数量分组;表2-3中的分组标志是服务态度,因为服务态度是品质标志,所以表2-3是品质分组。
3.按分组的任务和作用划分
将统计分组按其任务和作用划分,可以分为类型分组、结构分组和分析分组。进行这些分组的目的,分别是划分社会经济类型、研究同类总体的结构和分析被研究现象总体诸标志之间的联系与依存关系。
类型分组和结构分组的界限比较难区分,也没有绝对的界限,通常两者结合使用。一般认为,现象总体按主要的品质标志分组,多属于类型分组,如银行服务窗口按服务态度分组,如表2-3所示;按数量标志分组,多属于结构分组,进行结构分组的现象总体相对来说同类性较强,如班级学生按身高分组,如表2-4所示。
分析分组是为研究现象总体诸标志依存关系的分组,如表2-5所示。分析分组具有易与类型分组、结构分组相区别的明显特征。分析分组的分组标志称为原因标志,与原因标志对应的标志称为结果标志。原因标志既可以是数量标志,也可以是品质标志,但结果标志一定是数量标志,而且要求计算其相对数或平均数。在表2-5中,企业类型是原因标志,员工总数、工资总额和平均工资等都是结果标志。
二统计分组的方法
统计分组的方法实质上是指品质分组和数量分组的具体分组方法。一般而言,品质分组和数量分组的分组方法是不相同的,下面就对这两种统计分组的分组方法进行具体阐述。
表2-5 某地区企业情况统计表
企业类型
员工总数万人
1
比重%
2
工资总额亿元
3
比重%
4
平均工资元人
5=31
国有企业
集体企业
股份制企业
外资企业
其他企业
10 765.9
2 817.0
460.1
565.2
60.1
73.40
19.20
3.14
3.85
0.41
7 211.0
1 253.4
350.9
546.8
42.2
76.68
13.33
3.73
5.81
0.45
6 698
4 449
7 627
9 674
7 022
合计
14 668.3
100.00
9 404.3
100.00
6 411
1.单项式分组
单项式分组是指分组标志在每一组只有一个取值的统计分组。一般而言,品质分组主要采用这种分组方法,如表2-3中就是单项式分组。品质分组的分组方法一般比较简单,分组标志一旦确定,组数、组名、组与组之间的界限也就随之确定。一些较复杂的品质分组可根据统一规定的划分标准和分类目录进行分组。对于分组标志为取值不多的离散变量时,根据需要也可以采用单项式分组法,而更多的是采用组距式分组法。
2.组距式分组
组距式分组是指分组标志在每组的取值表现为一段区间的统计分组,如表2-4所示。在组距式分组中,每组分组标志的取值区间的长度称为该组组距。按每组的组距是否相等,可以把组距式分组分为等距组和异距组。如果相等称为等距组,否则称为异距组。采用等距组或异距组,取决于研究对象的性质和特点。标志值的变动比较均匀的采用等距组,标志值的变动幅度较大或很不均匀的采用异距组。例如,收入、产品产销量、产值等宜用异距组。
分组标志在每一组的端点标志值称为组限,其中较小的称为下限,较大的称为上限。以表2-6~表2-8为例,如果统计分组每一组的上限等于后一组的下限,则该统计分组为连续式分组,如表2-6所示;否则称为间断式分组,如表2-8所示。缺少下限或者上限的组称为开口组,如表2-7所示;上限和下限都有的组称为闭口组,如表2-6、表2-8所示。间断式分组一般主要用于离散型变量分组,而在实际工作中,主要采用连续式分组,很少采用间断式分组。至于开口组和闭口组则根据需要确定,两者都有应用。需要注意的是,采用连续式分组时,如果总体单位的取值恰好等于组限,则遵循"下限记入原则"。
表2-8 某车间零件加工数量统计表
零件数件
d
x
工人数人
比重%
20~29
30~39
40~49
50~59
10
10
10
10
24.5
34.5
44.5
54.5
23
42
49
20
17.16
31.34
36.57
14.93
3.有关组距式分组的计算
组距式分组的基本计算包括组距和组中值的计算,由于组距式分组是统计分析中常用的分组方法,因此,组距式分组的基本计算也就称为统计分析指标的计算基础。
组中值是分组标志在该组取值区间的中点值,一般用x表示,用U、L和d分别表示该组的上限、下限和组距。间断式分组的组距和组中值如式2-1所示,连续式分组的组距和组中值如式2-2所示,开口组的组距和组中值如式2-3所示:
2-1
2-2
2-3
第三节 频 数 分
布
统计分组只是将总体单位按照分组标志划分为若干个不同的小组,并没有讲究这些小组之间的排列顺序,因此统计分组还不能很好地体现总体分布的规律。为了更好地研究总体的数量属性,我们引入频数分布。
一、频数分布的概念
频数分布frequency distributing是指将总体进行统计分组后,按分组标志的取值顺序将各组进行排列,形成总体单位在各组间的排列,又称次数分布,简称分布或数列。分布包括两个基本要素,即分组标志和各组单位数,如图2-3所示。
图2-3 分布的基本要素
在分布中,分组标志又称为变量,用x表示。各组单位数用绝对数表示的,称为频数或次数,用f表示;用相对数表示的,称为频率,它们都可以作为权数。
二、分布的编制方法
分布是建立在统计分组的基础上的,因此,按照所依托的统计分组的类型划分,分布有单项式分布和组距式分布两种,其中组距式分布又分为等距式分布和异距式分布。
一单项式分布的编制
下面通过一个实例说明单项式分布的编制方法及步骤。
【例2-1】某企业34名应聘者面试回答问题的正确数分别是17、19、12、13、24、22、21、27、19、13、21、22、17、17、14、14、13、24、27、25、25、27、22、21、12、19、13、21、13、17、21、12、22、25。
要求:根据上述资料编制单项式数列。
解:资料中的变量是离散型变量,可以编制成单项式分布,可按以下步骤进行。
首先,将变量排序。
其次,确定变量值的个数及其出现的次数,本例中一共有10个变量值,即12、13、14、17、19、21、22、24、25和27,它们分别出现了3、5、2、4、3、5、4、2、3和3次。
最后,按变量值由小到大的顺序编制出表2-9,即为单项式分布。
表2-9 应聘者面试答题正确数分布
答题正确数
12
13
14
17
19
21
22
24
25
27
合计
应聘者人数
3
5
2
4
3
5
4
2
3
3
34
二等距式分布的编制
下面通过一个实例说明等距式分布的编制方法及步骤。
【例2-2】现从某校某专业二年级学生中随机抽取50名学生进行月平均通信费用抽样调查,得到他们的月平均通信费用单位:元如下:57、29、29、36、31、23、47、23、12、28、35、51、39、18、46、18、26、50、29、33、21、46、41、52、28、21、43、19、42、20、12、17、13、47、57、61、14、24、23、62、34、27、34、24、22、43、47、25、29、30。
要求:根据上述资料编制连续式数列。
解:一般来说,等距组距数列的编制可按如下步骤进行。
首先,将原始数据按大小顺序排列本处略并计算全距。全距是最大标志值与最小标志值之差,一般用R表示,本例中R=62-12=50。
其次,确定组数和组距。组数的多少取决于全距和组距,在等距数列中,组数。组数过少达不到统计分组的基本要求,组数过多容易使总体割裂,都不能很好地体现出总体的分布规律。到底分多少组,并没有统一的要求,主要是靠研究者凭借经验对所研究问题的性质做出判断。若无经验可言,可以借助Sturges公式,即n=1 3.322lgN,其中N为总体单位数。本例借助Sturges公式可得n=1 3.322lg50=6.6,取整得 7 组,因此d=Rn=507=7.143,取整为8注意取整后需满足ndR。
最后,确定组限,统计各组频数,并整理成数列。编制连续式等距数列,只要确定一组的组限,其他组的组限也就随之确定了,本例第一组的上限定为15,如表2-10所示。
表2-10 月平均通信费用分布
月平均通信费元
组中值元
频数f
频率
15以下
15~23
23~31
31~39
39~47
47~55
55以上
11
19
27
35
43
51
59
4
8
15
6
7
6
4
0.08
0.16
0.30
0.12
0.14
0.12
0.08
合计
-
50
1.00
三异距式分布的编制
异距式分布的编制步骤与等距式分布的编制步骤大体相同,即先排序计算全距,然后确定组数和组距,最后确定组限,统计各组频数,并整理成数列。
【例2-3】 现从某集团公司下属的子公司中随机抽取30名员工进行月平均收入抽样调查,得到他们的月平均收入单位:元如下:1333、1810、3000、1080、2446、1421、1500、2970、1828、5750、2000、2800、620、4677、5973、2920、3020、3443、9012、3607、3856、3900、790、3992、929、4701、1200、5215、1921、12 777。
要求:根据上述资料编制连续式数列。
解:考虑到员工月平均收入的变动幅度较大,故拟编制异距式组距数列。
首先,将原始数据按大小顺序排列。其次,确定组限分别为1000、1500、2000、3000、4000和6000。最后,按上述组限分组统计频数,并整理成数列,如表2-11所示。
异距式分布受变量值和组距两种因素的影响,为了正确反映分布特征,需要引入频数密度、标准组距和标准组距频数,以消除组距大小不等对频数分布的影响。
所谓频数密度是指单位组距内的频数,标准组距是指异距数列中最小的组距,标准组距频数是指该组组距折算成标准组距后的频数。同一组的频数密度、标准组距和标准组距频数之间有如下关系式:
2-4
表2-11 月平均收入分布
月平均收入元
组中值元
频数f
频率
1000以下
1000~1500
1500~2000
2000~3000
3000~4000
4000~6000
6000以上
750
1250
1750
2500
3500
5000
7000
3
4
4
5
7
5
2
0.1000
0.1333
0.1333
0.1667
0.2333
0.1667
0.0667
合计
-
30
1.0000
【例2-4】 资料:某会计师事务所为了了解对客户提供年终审计服务的所需时间的分布情况,随机抽查了共20家客户公司进行年终审计的所需时间单位:天如下:10、13、13、14、15、15、16、17、17、18、18、19、20、20、21、22、24、25、29、33。
要求:试编制该会计师事务所为客户提供年终审计服务的所需时间的频数分布。
解:首先,将原始数据排序排序情况略,然后根据年终审计服务的所需时间的分布特点,编制频数分布,如表2-12所示。
表2-12 年终审计服务的所需时间的分布情况表
审计时间
天
组距天
1
公司数家
2
比重3
=220
频数密度
家天
4=21
频率密度天
5=31
标准组距
频数
6=45
标准组距
频率
7=55
10~15
15~20
20~25
25~35
5
5
5
10
4
8
5
3
0.20
0.40
0.25
0.15
0.80
1.60
1.00
0.30
0.040
0.080
0.050
0.015
4.0
8.0
5.0
1.5
0.200
0.400
0.250
0.075
合计
-
20
1.00
-
-
-
-
编制组距式分布时应注意各组频数分布均匀,一般情况下不要出现频数为0的情况。另外,还要注意首尾两组的频数一般不应小于5,在总体单位较少的情况下不应小于3,最小不应小于2。
三、累计频数和累计频率
在研究频数和频率分布的时候,常常还需要编制累计频数数列和累计频率数列。其方法是首先列出各组的组限,然后依次累计到本组为止的各组频数频率,求得累计频数频率。累计根据其起始点可以分为较小累计和较大累计。
较小累计是从标志值较小的组开始向标志值较大的组累计,表示小于该组的上限有多少;较大累计是从标志值较大的组开始向标志值较小的组累计,表示大于该组的下限有多少。如果累计的对象是频数,称为累计频数;如果累计的对象是频率,称为累计频率。
【例2-5】对例2-2所得的数列计算较小累计频数、较大累计频数、较小累计频率和较大累计频率,并说明其各自的含义。
解:根据表2-10,计算相关结果及其含义如图2-4所示。从图2-4中可知,第三组的较小累计频数为27,较小累计频率为0.54,它们分别表示月平均通信费用小于31元因为该组上限为31的同学有27人,所占比重为0.54,其他各组的累计频数和累计频率具有同样的含义。
图2-4 累计频数、累计频率计算示意图
图2-4中的累计频数和累计频率是按照它们的定义进行计算的,除了按照定义进行计算外,还可以按照式2-5进行相互推算:
2-5
【例2-6】 表2-13为某地区某年家庭收入分布情况。
要求:根据表2-13所给资料绘制洛伦茨曲线。
表2-13 某地区某年家庭收入分布1
收入水平
最 低
较 低
中 等
较 高
最 高
合 计
人口数万人
月收入万元
127.05
16 512.69
297.26
47 359.46
479.30
102 747.54
116.19
35 834.16
6.57
11 638.05
1026.37
214 091.90
解:首先,根据表2-13列表计算有关数据得到表2-14。在表2-14中,绝对公平就是所占收入的比重应该等于其所占人口的比重,即庚列应该等于戊列;绝对不公平就是最富有的人占有全部收入,其他人不占有任何收入,即辛列最后一组是100%,其他组都是0。现以人口数的累计比重为横轴,月收入的累计比重为纵轴,以戊、己两列的数据为坐标点绘制曲线,该曲线即为洛伦茨曲线,如图2-5所示。
表2-14 某地区某年家庭收入分布2
收入
水平
人口数
万人
月收入
万元
比重%
累计比重%
人口数
月收入
人口数
月收入
绝对公平
绝对不公平
甲
乙
丙
丁
戊
己
庚
辛
最低
较低
中等
较高
最高
127.05
297.26
479.30
116.19
6.57
16 512.69
47 359.46
102 747.54
35 834.16
11 638.05
12.38
28.96
46.70
11.32
0.64
7.71
22.12
47.99
16.74
5.44
12.38
41.34
88.04
99.36
100.00
7.71
29.83
77.82
94.56
100.00
12.38
41.34
88.04
99.36
100.00
0
0
0
0
100
合计
1026.37
214 091.90
100.00
100.00
-
-
-
-
在图2-5中,虚线即为洛伦茨曲线,点线为绝对公平线,洛伦茨曲线与绝对公平线之间围成的面积表示收入分配的公平程度,该面积越小表示越公平。著名的基尼系数在数值上等于该面积的2倍。据联合国有关组织规定:基尼系数小于0.2表示绝对平均,在0.2与0.3之间表示比较平均,在0.3与0.4之间表示相对合理,在0.4与0.5之间表示有较大差距,在0.6以上表示差距悬殊。
随着经济的发展,洛伦茨曲线不仅仅应用于收入分配、社会财富分配等方面,它还逐步拓展到其他社会经济现象,用来分析和反映总体单位标志分布的集中状况,具体包括是否存在集中和集中的程度。如地区企业中各种指标的构成与分布情况、钢铁产量和铁矿石资源是否都集中到大型钢铁公司中了等。
图2-5 洛伦茨曲线
四、分布的类型
由于社会经济现象的性质不同,各种统计总体一般总是服从于不同类型的次数分布,根据次数分布的分布特征,可以将其划分为钟形分布、U形分布、J形分布三种主要类型。
一钟形分布
钟形分布类似于一口大钟的纵截面,如图2-6所示。其主要特征是两头小,中间大,即靠近中间的变量值分布的次数多,靠近两边的变量值分布的次数少。根据是否对称,钟形分布可划分为左偏分布如图2-6中的甲所示、对称分布如图2-6中的乙所示和右偏分布如图2-6中的丙所示。左偏分布是指较小标志值的分布次数较少,即钟形分布有一条较长的拖向左边的尾巴,又称负偏分布。右偏分布是指较大标志值的分布次数较少,即钟形分布有一条较长的拖向右边的尾巴,又称正偏分布。对称分布以中心标志值此标志值的分布次数最大为对称轴,其他标志值分别位于对称轴的两侧,并随着与对称轴的距离的增加其分布次数逐渐减少。
图2-6 钟形分布
在客观实际中,许多社会现象的总体分布都服从钟形分布,即呈现出中间多两端少的自然现象。古人云,天才与蠢材是很少见的,平凡的庸才较为常见,因此要想取得成功就要付出不断的努力。这里的天才和蠢材可以看作钟形分布的两个端点,庸才可以看作对称轴或对称轴附近的标志值,可见我们大家想要取得成绩就必须付出辛劳。除此之外,农作物单位面积产量分布、商品市场价格分布、机器袋装食品公差分布和人的身高、体重等的测量和观测误差分布都是服从钟形分布的,而大多数钟形分布又都趋于正态分布,因此正态分布是最重要的一种对称分布,在统计分析中具有重要的意义。
二U形分布
与钟形分布恰好相反,U形分布见图2-7是中心变量值的分布次数最小,两端变量值的分布次数逐渐增大的分布,其形状呈现一个U字形。客观世界中也有不少现象的总体分布服从U形分布,最典型的就是有机生命体的生命现象。有机生命体在其年幼时期由于抵抗力较弱,死亡率居高不下,随着年岁的增长其死亡率逐步下降,直至壮年时期达到最低,壮年时期过后,随着岁月的流逝,肌体不断老化,死亡率又逐步攀升,在其整个生命现象中,有机生命体的生命现象服从U形分布。另外,产品的质量、机器设备的故障等分布也都服从U形分布。
三J形分布
在社会经济现象中,也有一些统计总体分布曲线呈J字形,我们把这种分布称为J形分布。根据频数与变量值的增长关系,可将J形分布分为正J形分布和反J形分布。正J形分布如图2-8中的甲所示,分布次数随着变量值的增大而增多;反J形分布如图2-8中的乙所示,分布次数随着变量值的增大而减少。例如,利润率按投资大小分布,经济学中的需求曲线是反J形分布;成本总额按产量高低分布,经济学中的供给曲线是正J形分布。
图2-7 U形分布 图2-8 J形分布
统计研究的是客观现象总体,尽管客观现象总体的分布是确定的,是客观存在的,但是由于客观现象总体的大量性,通常情况下我们无法得知客观现象总体的分布。不过,我们可以按照随机原则从总体中获取样本,可以通过研究样本分布来推断总体的分布规律。因此,确定总体分布规律是统计研究的一项重要课题。
第四节 数 据 显
示
我们常常利用统计图表来显示搜集到的统计数据,一张好的统计图表具有较强的直观性和形象性,远胜于枯燥的文字叙述。因此,在这里简单介绍如何利用统计图表进行数据显示。
一、箱线图
箱线图是指根据一组数据的五个特征值绘制而成的、反映原始数据分布情况的图形。根据采用的特征值的类型,箱线图可以分为中位数四分位数极差medianquartilerange型、均值标准误差标准差meanSESD型、均值标准差1.96倍标准差meanSD1.96SD型和均值标准误差1.96 倍标准误差meanSE1.96SE型四种类型。
在这些箱线图中,中位数四分位数极差箱线图是较为常用的箱线图。首先,以四分位差为边长画矩形代表箱子;其次,在箱子中相应位置画出中位数;最后,在箱子两端的外侧相应位置画出最大值和最小值,并用直线将其与箱子相连接即可,如图2-9所示。
图2-9 中位数四分位数极差箱线图
【例2-7】 某家电公司为了了解日销售额的情况,对第一季度的日销售额进行了初步统计分析。经分析得知该公司第一季度日销售额的中位数、上四分位数、下四分位数、最大值和最小值单位:万元分别为25、30、15、57、11。
试绘制日销售额的中位数四分位数极差箱线图。
解:根据所给资料绘制中位数四分位数极差箱线图,如图2-10所示。
图2-10 日销售额的中位数四分位数极差箱线图
上述中位数四分位数极差箱线图是分析一批数据或是一个标志的情况,当有多批数据或是多个标志需要进行对比分析时,为了便于它们之间的比较分析和美观,也可以将中位数四分位数极差箱线图竖置。
【例2-8】 为了全面了解我国煤炭行业企业的经营状况,重点抽查了部分企业的相关数据,有关资料如表2-15所示。
试编制我国煤炭行业企业经营状况的中位数四分位数极差箱线图。
表2-15 我国煤炭行业部分企业经营状况
公 司
净利润增长率%
销售毛利率%
销售净利率%
净资产收益率%
每百股收益元
兰花科创
潞安环能
国阳新能
大同煤业
中国神华
恒源煤电
西山煤电
盘江股份
露天煤业
国投新集
平庄能源
15.25
35.45
80.94
28.01
12.94
0.11
5.57
142.44
31.26
21.73
39.00
44.20
30.89
19.36
50.99
52.38
26.89
44.07
32.36
40.94
37.63
36.14
23.90
13.57
9.43
16.02
27.99
10.14
22.55
17.70
23.75
18.38
19.64
14.46
14.56
17.62
10.07
10.31
6.93
13.91
8.30
18.23
8.27
9.34
119
102
91
87
80
58
54
47
45
26
25
注:本表数据根据兴业证券同花顺行情软件整理,截止日期为2009年6月30日。
解:首先,根据表2-15计算中位数、上四分位数、下四分位数、最大值和最小值,结果如表2-16所示具体计算方法详见第三章,然后根据这些数据绘制中位数四分位数极差箱线图,结果如图2-11所示。
表2-16 我国煤炭行业部分企业经营情况特征值
特 征 值
净利润增长率%
销售毛利率%
销售净利率%
净资产收益率%
每百股收益元
上四分位数
37.225
44.135
23.150
14.51
89
最大值
142.440
52.380
27.990
18.23
119
最小值
0.110
19.360
9.430
6.93
25
下四分位数
14.095
31.625
14.795
8.82
46
中位数
28.010
37.630
18.380
10.31
58
图2-11 我国煤炭行业经营情况中位数四分位数极差箱线图
箱线图的种类很多,应用范围也很广,股票分析中常用的K线图实质上也是箱线图之一。只不过K线图是用开盘价和收盘价作箱体,用最高价和最低价作线形绘制而成的箱线图,如图2-12所示。
图2-12 股票分析箱线图K线图
二、统计表
统计表statistics table有广义的统计表和狭义的统计表之分,它们都是显示统计数据的基本工具之一。广义的统计表是指各个统计工作阶段中所使用的一切表格,包括调查表、汇总表和时间数列表等。狭义的统计表专指分析表和容纳各种统计资料的表格,它能清楚地、有条理地显示统计资料,直观地反映统计分布的特征,是进行统计分析的重要工具。
一统计表的结构
从形式上看,统计表由表头、列标题、行标题、数字资料和表外附加等部分组成。表头由表号、总标题和单位构成,应放在统计表的上方居中位置,说明统计表的主要内容。列标题与行标题通常放在统计表的第一行和第一列,它描述的是所研究的问题类别名称和变量名称。数字资料是表中列标题与行标题的具体内容。表外附加一般为注明表中数据来源、变量注释和必要的说明等内容,通常放在表的下方居左的位置,且字号一般要小于表中数据的字号。
从内容上看,统计表可以分为主词和宾词两部分。主词是统计表所要说明的总体及其组成部分,一般为分组标志所在列;宾词是统计表用来说明统计总体的各项统计指标。一般情况下,主词放在统计表的第一列,宾词放在统计表的其他各列,如图2-13所示。
图2-13 统计表的结构
二统计表的分类
统计表按主词结构可分为简单表、分组表和复合表。简单表是指主词未经任何分组的统计表,一般用来比较各单位、各地区和国家的社会经济现象的情况,或者说明某些现象的发展情况,如表2-15所示。分组表是指主词只按一个标志进行分组的统计表,一般用以揭示不同类型现象的特征、说明现象的内部结构和分析现象的依存关系,如表2-17所示。复合表是指主词按多个标志进行层叠分组的统计表,一般用以揭示被研究对象因受多个因素的共同影响而产生的变化情况,因而复合表能更深刻、更详细地反映客观现象的特征及其规律性,如表2-18所示。
表2-17 福建省2008年度GDP分布情况表
GDP所属产业和行业
GDP亿元
比重%
第一产业
第二产业
第三产业
1 157.75
5 415.77
4 249.59
10.70
50.04
39.26
合计
10 823.11
100.00
注:数据来源于福建省统计年鉴2009或根据其计算。
表2-18 某地区20年全部金融机构存贷款余额情况 单位:万亿元
余额种类
企 业
居 民
合 计
短 期
中 长 期
小 计
短 期
中 长 期
小 计
存款
贷款
6.3253
7.1327
3.8498
13.5511
10.1751
20.6838
4.5967
0.9789
10.1087
3.9567
14.7054
4.9356
28.8805
25.6194
三统计表的设计
虽然由于研究者的目的以及统计数据的特点不同,统计表的设计在形式和内容上会有较大差异,但是统计表在设计上的基本要求是一致的。
1. 形式上的基本要求
首先,行标题、列标题和数字资料的位置要合理安排,在强调重点标题的同时,应使统计表的长度与宽度之间保持恰当的比例,避免出现过高或过宽的表格形式。
其次,线条的绘制要注意美观大方。一般而言,统计表的首尾两条横线应当加粗,而其他线条则应该使用细线。与此同时,贯穿整个统计表的横线不宜太多,一般为3条或4条;相邻的列标题之间应用竖线隔开,但要注意统计表的左右两端不得封口。
再次,合计栏的位置应摆放得恰当。当需要对各列标题计算合计项时,应该将合计项放在最后一行;当需要对各行标题计算合计项时,应该将合计项放在最前一列或最后一列。
最后,栏数的编号应当规范。如果栏数较多,需要对其按照顺序编号时,一般应当遵循这样的原则,即主词栏目的编号分别以"甲、乙、丙、丁、......"为序号;宾词栏目的编号分别以"1、2、3、4、......"为序号。如果需要表明各列之间的数量关系时,还可以编号为代码进行辅助说明,例如"3=12"。
2. 内容上的基本要求
首先,表头和标题设计应当简明扼要、精炼准确。表头的设计包含表号、总标题和表中数据的单位等内容。表号是指统计表的编号,应该按照统一的原则对统计表进行编号。总标题是对统计表内容的简明确切的概括,一般应遵循3W的原则,即要表明统计数据的时间When、地点Where和何种数据What。当统计表中所有数据使用同一个计量单位时,表头还应注明表中数据的单位,一般将此部分放在统计表的右上角;当统计表中的数据使用的不是同一个计量单位时,则应该在相应的列标题或行标题中注明数据的单位,也可以单一列出一列表明数据的单位。
其次,指标数值的填写应当规范。表中数据应当填写整齐,当有小数点时,小数点的位数应当保持一致;当数值本身为0或因为数值太小而忽略不计时,应当填写为"0";当某项数值缺损时,应当填写"...";当某处不应有数值出现时,应当填写"-";当有与附近相同数值出现时,应当重新填写,而不能简单填写为"同左"或"同"等字样。
三、直方图
直方图是指用矩形的宽度和高度来表示频数分布的图形。在绘制直方图时,通常用横轴表示频数分布的变量,用纵轴表示频数分布的频数或频率。如果纵轴表示频数,则称为频数直方图;如果纵轴表示频率,则称为频率直方图。
绘制直方图时,通常以每一组的组距为宽,以每一组的频数、频率、标准组距频数、标准组距频率、频数密度或频率密度为高画矩形,画完所有组的矩形后形成的图形便是该分布的直方图。等距数列频数直方图可根据表2-10绘制,如图2-14所示;异距数列频数密度直方图可根据表2-12绘制,如图2-15所示。
图2-14 等距数列直方图
图2-15 异距数列直方图
实际上,通常用矩形的面积来表示数列各组的频数分布。因为在异距数列中,一组矩形的高度不再表示该组的实际分布次数或实际频率,而是标准组距频数或频率。为了使得等距数列和异距数列一致,用矩形的高度来表示数列每组的标准组距频率,则直方图所围成的面积之和等于1,因此,实际中大多用直方图的面积来表示数列的频数分布,这也为频数多边形图和曲线图的实际意义奠定了基础。通常情况下,直方图常用于定距数据和定比数据的图表表示。
四、折线图
折线图line与直方图有着十分密切的关系,它是在直方图的基础上演变而来的。将直方图中所有矩形的顶端中点和第一个矩形与最后一个矩形的外边中点用直线连接起来,并延伸至横轴,这些直线所围成的图形便称为折线图。根据图2-13绘制而成的折线图如图2-16所示。
图2-16 月通信费用折线图
五、曲线图
曲线图与折线图的关系十分密切,也与直方图有着非常密切的联系。它是在折线图的基础上演变而来的,将折线图中的直线改为平滑的曲线,就形成了相应的曲线图。图2-17是根据图2-16绘制而成的月通信费用曲线图。
图2-17 月通信费用曲线图
曲线图和折线图一样,也是用其面积来表示数列的次数分布。数学上可以证明,曲线图中的曲线和横轴所围成的面积仍然是等于1。同样地,曲线图也分为频数曲线图和频率曲线图,依据频数折线图绘制的曲线图是频数曲线图;依据频率折线图绘制的曲线图是频率曲线图。它们也都常常用于定距数据和定比数据的图表表示。实际中除了常用曲线图之外,还常用累计曲线图。
六、饼图
饼图是用圆来代表统计总体,使用圆形及圆内扇形的角度的大小来显示统计总体特征的图形。根据饼图所采用的圆形的种类,可以将其分为立体饼图和平面饼图。其中,平面饼图又称为圆形图,它所采用的是平面圆形,即普通的圆;而立体饼图所采用的是立体圆形,即形似蛋糕的圆柱。饼图通常适用于定类和定序数据的显示,其具体绘制步骤如下:首先,绘制圆形,然后计算各组所占的比重,最后按照各组所占的比重乘以360所得到的角度数将圆形划分为若干不同的部分。
【例2-9】资料:一家市场调查公司为研究不同品牌饮料的市场占有率,随机调查了一家超市。调查员在某天记录了50名顾客所购买饮料的品牌,记录的原始数据如表2-19所示。
要求:试根据资料绘制饼图。
表2-19 不同品牌饮料的市场占有情况
饮 料
瓶 数
比 重
汇源果汁
百事可乐
露露
旭日升冰茶
可口可乐
6
9
9
11
15
0.12
0.18
0.18
0.22
0.30
解:根据表2-19绘制饼图,如图2-18和图2-19所示。
图2-18 立体饼图 图2-19 平面饼图
七、环形图
环形图是用圆环来代表统计总体,使用环中的每一小段来显示统计总体特征的图形。环形图的绘制步骤如下:首先,绘制圆环,有几个总体就绘制几个圆环;然后分别计算每一个总体中各组所占的比重;最后按照各组所占的比重乘以360所得到的角度数将圆环划分为若干不同的小段。
【例2-10】资料:在一项城市住房问题的研究中,研究人员在南方甲、乙两个城市中各抽样调查了300户,其中的一个问题是"您对您家庭目前的住房状况是否满意",其结果如表2-20所示。
要求:根据上述资料绘制环形图。
表2-20 甲、乙城市家庭对住房状况评价的频数分布
回答类别
甲 城 市
乙 城 市
户 数
比 重
户 数
比 重
非常不满意
不满意
一般
满意
非常满意
24
108
93
45
30
0.08
0.36
0.31
0.15
0.10
21
99
78
63
39
0.07
0.33
0.26
0.21
0.13
合计
300
1.00
300
1.00
解:根据表2-20绘制环形图,如图2-20所示。
图2-20 甲、乙城市家庭对住房状况评价环形图
八、线图
线图是指在平面直角坐标系中用折线显示数据变化特征的图形,它主要用于展示不同时间上取得的数据的变化特征。线图可以用来显示多个总体的某一指标或某一总体的多个指标的变化特征。
【例2-11】资料:在一项居民人均收支的研究中,研究人员收集了某地区2001-2008年共8年的人均收支记录,如表2-21所示。
要求:试根据上述资料绘制线图。
表2-21 某地区2001-2008年人均收支记录
年 份
2001
2002
2003
2004
2005
2006
2007
2008
人均收入元
人均支出元
1700.6
708.6
2026.6
784.0
2577.4
921.6
3496.2
1221.0
4283.0
1577.7
4838.9
1926.1
5160.3
2091.1
5425.1
2162.0
解:根据上述资料绘制的线图如图2-21所示。
图2-21 某地区2001-2008年人均收支线
九、雷达图
雷达图radar chart是指用由若干条从圆心出发的夹角相等的半径组成的坐标轴来表示若干个总体的某一指标或某一总体的若干个指标的分布特征的图形。雷达图的绘制方法是根据指标个数或总体个数将圆等分后保留半径,然后以各条半径为坐标轴,最后将所有标志值描绘在相应的坐标轴上,并将统一总体的指标取值用直线连接起来。
【例2-12】 表2-22是湖北省部分上市公司2008年第一季度的相关数据,图2-22是根据表2-22绘制的雷达图。
表2-22 湖北省上市公司2008年第一季度主要财务数据统计表
证券简称
负债及股东权益
亿元
所有者权益
亿元
营业总收入
亿元
利润总额
千万元
净利润
千万元
武钢股份
楚天高速
葛洲坝
701.592 1
29.999 7
268.014 4
274.894 9
24.100 7
52.776 3
157.655 7
1.729 3
35.478 5
224.704 49
10.063 40
20.509 50
20.451 7
7.547 6
19.758 4
注:数据来源于湖北证监局网站或据其整理。
图2-22 湖北部分上市公司数据雷达图
统计图广泛地应用于经济领域和管理领域的统计分析中,为了便于对这些问题进行统计分析,除了本书介绍的上述九种统计图形外,还有很多其他图形,例如气泡图、过程控制图、象形图和统计地图等。限于篇幅,本书不再对这些图形做详细介绍,有兴趣的读者可以参考有关文献书籍。
第五节 Excel在数据整理中的应用
统计软件有很多种,为了课堂教学的通用和方便,本节仅介绍Excel在本章中的应用,有兴趣的读者还可以阅读第九章中SPSS软件在本章中应用的部分。
一、利用Excel进行随机抽样
随机数在统计调查中具有十分重要的意义,它关系到抽样调查能否顺利进行。根据不同的需要,Excel生成随机数的方法也很多。
一生成a~b范围内的随机数
rand函数用于生成一个[0,1范围内的随机数,因此要生成[a,b]范围内的随机数还得借助其他函数。具体的做法是,在单元格中输入公式"=intrand*b-a 1 a",这样就能获得[a,b]之间的随机数,其中int是向下取整函数,当然也可以利用向上取整函数roundup。如果加载了分析工具库,还可以在单元格中输入"=randbetweena,b",它会直接生成一个[a,b]之间的随机数。当然也可以直接在单元格中输入"=rand",只不过它生成的是小数,但是可以在读取的时候人为地去掉小数点按所需位数读取。
上述方法只能生成a~b范围内的一个随机数,实际工作中,通常需要生成多个随机数。为了满足生成多个随机数的需求,可以将上述公式下拉到其他单元格中,直至达到所需要的个数为止,这样便可以生成所需的随机数。需要注意的是,每下拉一次,随机数就会更新一次。
在进行统计分析中,往往需要随机数产生后不再改变,而前述方法中,每当刷新一次或重新打开工作表一次或每按一次F9键,随机数就会发生改变,这样往往不利于后续的统计分析工作。为了满足生成随机数后不再改变的需要,可以在输入完上述各类公式后按F9键,注意不要按Enter键,这样生成的随机数就不会改变。
需要说明的是,绝对随机的随机数只是一种理想的随机数,计算机不会生成绝对随机的随机数,它只能生成相对随机的随机数,即"伪随机数"。不管计算机将来如何发展,它都绝对不会产生一串绝对随机的随机数。
"伪随机数"并不是假随机数,这里的"伪"是有规律的意思,即计算机产生的"伪随机数"既是随机的又是有规律的。"伪随机数"有时遵守一定的规律,有时不遵守任何规律;有一部分遵守一定的规律,有一部分不遵守任何规律。比如"世上没有两片形状完全相同的树叶",这是事物的特性,即随机性;但是每种树的叶子都有近似的形状,这是事物的共性,即规律性。从这个角度讲,我们大概就会接受这样的事实:计算机只能生成相对随机的"伪随机数",而不能产生绝对随机的随机数。
二抽取样本
在随机抽取样本的过程中,有两种抽样方法:重复抽样和不重复抽样。如果是重复抽样,可以借助Excel"数据分析"对话框中的"抽样"功能实现。
【例2-13】 假定要从某校会计0612班45名学生中重复随机抽样抽取20名学生进行统计分析,全班同学的学号已输入工作表,如图2-23所示。
图2-23 会计0612班全班学生的学号
具体操作步骤如下。
第一步:将全班学生的学号输入后,单击"工具"菜单,选择"数据分析"命令,打开"数据分析"对话框并选择"抽样"选项,单击"确定"按钮,如图2-24所示。
第二步:在弹出的"抽样"对话框的"输入区域"文本框中输入学生学号所在区域,即"$A$2:$A$46",然后在"抽样方法"选项组中选中"随机"单选按钮,设置"样本数"为20,并设置"输出区域",如图2-25所示。若选中"周期"单选按钮,则表示等距抽样。
第三步:单击"抽样"对话框中的"确定"按钮,就可以获得抽样结果,如图2-26所示。
上述抽样方法是重复抽样,从抽样结果中可以看出,学号尾号为21和36的同学分别被抽中了两次,如果是随机抽选20名学生获得奖学金,这两位同学自然会比较开心。那么,如何实现不重复随机抽样呢?
要实现不重复随机抽样,就要借助随机数了。我们可以通过前面介绍的生成随机数的方法,在$C$2单元格中输入公式"=intrand*45 200607101",然后下拉至$C$21,便可获得不重复随机抽取的20个学号如有重复可按F9键刷新,如图2-27所示。
图2-24 "数据分析"对话框 图2-25 "抽样"对话框
图2-26 随机抽取20名学生的学号
图2-27 不重复随机抽取20名学生的学号
二、利用Excel进行统计分组
Excel可以有多种方法实现统计分组,常用的有直方图、frequency函数和数据透视表等。限于篇幅,本书只介绍前面两种方法。
一直方图分组法
直方图分组法相对简单,可以同时生成频数分布表和直方图。下面结合例2-14介绍直方图分组法的具体步骤。
【例2-14】 假定某校会计0612班45名学生的统计学考试成绩数据为60、62、63、63、65、66、66、67、69、70、70、71、72、73、73、74、74、74、75、75、75、75、75、76、76、77、77、77、78、78、79、80、80、82、83、85、85、86、86、90、92、92、92、93、96。
要求:根据资料将其整理为频数分布。
具体操作步骤如下。
1 将上述成绩输入工作表后,单击"工具"菜单,选择"数据分析"命令,打开"数据分析"对话框并选择"直方图"选项,单击"确定"按钮,如图2-28所示。
2 在弹出的"直方图"对话框的"输入区域"文本框中输入学生成绩所在区域,即"$A$2:$A$46",在"接收区域"文本框中输入"$B$2:$B$5"也可以不输入,选中"输出区域"单选按钮,并在其右侧的文本框中输入"$c$1",如图2-29所示。若选中"累积百分率"和"图表输出"复选框,还会输出累积频率分布和直方图,如图2-30所示。
图2-28 "数据分析"对话框 图2-29 "直方图"对话框
二frequency函数分组法
直方图分组法的缺点是在数据修改以后,其分组结果不会随之改变,需要重新分组。换言之,每修改一次数据,就需重新分组一次。而frequency函数分组法可以避免这一缺陷。对例2-14使用frequency函数分组法可按如下步骤进行。
图2-30 统计分组结果窗口
1 将上述成绩输入工作表后,输入"接收区域",如图2-30中A、B两列所示,同时在C列输入分组情况。
2 如图2-31所示,选中$D$2:$D$5,输入"=frequency"后,在data_array处输入"$A$2:$A$46",在bins_array处输入"$B$2:$B$5",按Ctrl Shift Enter组合键,即可得到结果,如图2-32所示。
图2-31 frequency函数输入示例 图2-32 frequency函数分组结果
利用Excel进行统计分组,无论是采用哪种分组方法,都要注意两个问题:①Excel的分组原则是上限在本组内,而统计上规定上限不在本组内,因此,在输入接收区域的时候,要注意比实际分组界限小一点;②分组结果只是一个框架,还需要经过进一步的修饰,以整理成完美的统计分组和频数分布结果。
三、利用Excel进行统计显示
Excel有较强大的统计图表功能,绘制的图形种类也很多,如直方图、曲线图、箱线图、雷达图等。下面以直方图为例,借助Excel的图表向导介绍其统计图表功能。
【例2-15】 在例2-14的统计学考试成绩数据资料基础上,绘制频数分布的直方图。
具体操作步骤如下。
1 计算分布数列的组中值,并将其输入如图2-33所示工作表的F列,然后单击"图表向导"按钮,出现"图表向导"对话框,选择"柱形图"选项,如图2-33所示。
图2-33 "图表向导"对话框
2 单击"下一步"按钮后,切换到"系列"选项卡,在"值"文本框中输入"Sheet1! $D$2:$D$5",在"分类X轴标志"文本框中输入"=Sheet1!
$F$2:$F$5",然后单击"下一步"按钮,如图2-34所示。
3 在图2-35所示的"图表标题"等文本框中输入相应的内容后,单击"完成"按钮,即可生成直方图。
图2-34 "系列"选项卡 图2-35 "图表向导-4步骤之3-图表选项"对话框
在Excel中,除了可以利用图表向导绘制统计图表外,利用"数据分析"对话框中的数据透视表和数据透视图也可以绘制统计图,读者不妨自己尝试一下。
本 章 小 结
本章主要介绍了统计调查、统计整理和数据显示三方面的内容。统计调查部分讲述了什么是统计调查、统计调查的方式和方法、统计调查方案的设计等。其中,统计调查的方式有统计报表制度、普查、重点调查、典型调查和抽样调查,它们之间的联系和区别以及每一种调查方式的进一步细分是本章的重、难点之一,是学生需熟练掌握的内容;调查方案的设计方面介绍了调查方案的基本内容和如何设计调查问卷。统计整理部分介绍了如何进行统计分组和编制频数分布,以及与此有关的一些基本概念。统计分组和编制频数分布的方法与步骤,以及这些相关基本概念之间的关系是本章的又一重、难点,尤其是对这些基本概念的理解和计算是本章的重中之重,它涉及后续章节的学习,学生应该做到了如指掌。数据显示部分介绍了几种常用的统计图表的画法、适用范围和各自的优缺点,学生应该了解这些图表的画法、适用范围和各自的分析特点。
复习思考题
1. 什么是统计调查?常见的调查方式有哪些?
2. 什么是统计调查方案?统计调查方案包括哪些基本内容?
3. 重点调查和典型调查有何联系与区别?
4. 设计调查问卷需要注意哪些问题?
5. 统计分组的种类有哪些?
6. 怎样计算组距分组的一些基本指标?
7. 什么是频数分布?怎样编制频数分布?
8. 什么是累计频数和累计频率?各有什么含义?
9. 常用的统计图表有哪些?怎样绘制次数分布图?
10. 什么是统计表?绘制统计表要注意哪些问题?
|
|