在 Excel 中可以通过以下几种方法来进行数据的正态性检验:
1. 直观观察法(绘制直方图与正态曲线对比)
- 步骤一:准备数据
- 首先,将需要检验正态性的数据完整输入到 Excel 工作表的某一列(或某几列,若有多组数据需分别检验)中,确保数据准确无误且每一行对应一个观测值。
- 步骤二:创建直方图
- 选中数据所在列,点击 “插入” 选项卡,在 “图表” 组中选择 “直方图”(如果你的 Excel 版本没有直接的直方图选项,可以通过先创建柱状图,然后进行适当设置来模拟直方图效果)。
- 在弹出的 “创建直方图” 对话框(不同 Excel 版本可能稍有差异)中,按照提示设置好 “输入区域”(即已选中的数据列范围)、“接收区域”(可自行设置分组区间,若不设置,Excel 会按默认规则进行分组)等参数后,点击 “确定”,生成直方图。
- 步骤三:添加正态分布曲线(拟合线)
- 右键单击直方图中的柱子,选择 “设置数据系列格式”。
- 在弹出的侧边栏中,找到 “填充与线条” 选项卡,展开 “线条” 设置,选择 “平滑线”,颜色等可按需设置,使图表更美观。
- 然后点击图表,在 “图表设计” 选项卡中点击 “添加图表元素”,选择 “趋势线”,在下拉菜单中选择 “更多趋势线选项”。
- 在弹出的 “设置趋势线格式” 对话框中,选择 “趋势线选项” 下的 “多项式”,将 “顺序” 设置为 2(模拟正态分布曲线形状),并勾选 “显示公式” 和 “显示 R 平方值”(R² 值可辅助判断拟合程度)。
- 通过观察直方图的形状与拟合的正态曲线的贴合程度,大致判断数据是否符合正态分布。如果两者贴合较好,说明数据有可能符合正态分布;若偏差较大,则可能不符合。不过这种方法只是直观定性判断,不够精确。
2. 利用数据分析工具中的描述统计功能(间接判断)
- 步骤一:启用数据分析工具
- 如果你的 Excel 尚未启用 “数据分析” 工具,需要先进行启用。点击 “文件” 选项卡,选择 “选项”,在弹出的 “Excel 选项” 对话框中,点击 “加载项”,在右侧的 “管理” 下拉列表中选择 “Excel 加载项”,然后点击 “转到”,勾选 “分析工具库”,点击 “确定”,这样 “数据分析” 选项就会出现在 “数据” 选项卡中。
- 步骤二:进行描述统计分析
- 点击 “数据” 选项卡中的 “数据分析” 按钮,在弹出的 “数据分析” 对话框中选择 “描述统计”,点击 “确定”。
- 在 “描述统计” 对话框中,设置 “输入区域” 为要检验的数据所在范围,“分组方式” 可根据数据排列情况选择 “逐行” 或 “逐列”,勾选 “标志位于第一行”(如果数据区域的第一行是变量名等标题行的话),选中 “输出区域” 并指定一个空白单元格区域用于输出统计结果,同时勾选 “汇总统计”。
- 点击 “确定” 后,Excel 会在指定区域输出一系列统计量,其中重点关注 “偏度” 和 “峰度” 这两个指标。
- 偏度:用于衡量数据分布的不对称程度,正态分布的偏度理论值为 0。若偏度接近 0,则数据在对称性方面较符合正态分布;若偏度绝对值较大(一般认为绝对值大于 1 时偏差较明显),说明数据分布不对称,可能不符合正态分布。
- 峰度:反映数据分布的尖峭程度或平阔程度,正态分布的峰度理论值为 3(有些软件中是以 0 为标准,这里以 Excel 输出为准,实际是相对于标准正态分布的超额峰度为 0,即总峰度为 3)。如果计算出的峰度接近 3,说明数据在峰度方面较符合正态分布;若峰度值与 3 偏差较大,可能不符合正态分布。
3. 使用函数法(基于正态分布概率密度函数计算概率值来判断)
- 步骤一:计算理论正态分布概率值
- 假设数据存放在 A 列(A1:A100,仅为示例,具体依实际数据行数而定),先计算数据的均值(可使用 AVERAGE(A1:A100) 函数)和标准差(可使用 STDEV.S(A1:A100) 函数),分别记为 μ 和 σ。
- 在 B 列(B1 单元格开始)输入用于划分区间的数值(可以等距划分,比如最小值到最大值之间每隔一定数值取一个点,这些点将作为计算概率的区间边界)。
- 在 C 列(C1 单元格开始)使用正态分布概率密度函数 NORM.DIST 来计算每个区间对应的理论正态分布概率值。公式格式为 =NORM.DIST(B1,$μ,$σ,FALSE)(其中 B1 是当前区间边界值所在单元格,$μ 和 $σ 是前面计算出的均值和标准差的绝对引用,FALSE 表示计算概率密度而非累积分布函数值),然后向下拖动填充柄,计算出各区间的概率值。
- 步骤二:计算实际数据的频率分布
- 在 D 列(D1 单元格开始)使用 FREQUENCY 函数计算实际数据落在各个区间的频率。先选中 D1:Dn(n 为区间个数,要比 B 列划分区间数多 1)单元格区域,输入公式 =FREQUENCY(A1:A100,B1:Bn)(A1:A100 是实际数据区域,B1:Bn 是区间边界值区域),然后按下 “Ctrl + Shift + Enter” 组合键(这是数组公式输入方式),即可得到实际数据在各区间的频率值。
- 步骤三:对比判断
- 通过对比 C 列的理论正态分布概率值和 D 列的实际数据频率,可以直观地看出两者的差异程度。如果各区间的实际频率与理论概率值较为接近,说明数据比较符合正态分布;反之,则可能不符合正态分布。不过这种对比可能较为主观,可进一步结合一些统计指标(如卡方统计量等,但 Excel 中需自行计算这些指标)来更精确地判断,但操作会相对复杂些。
以上这些方法各有优缺点,在实际应用中可以结合使用,以更准确地判断数据的正态性。