数据统计分析的基础知识 (数据分析专业知识体系)

统计学分为描述性统计学和推断性统计学,其中描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。

数据分析与知识工程,数据分析描述性统计

和我们怎么评价一个人长什么模样一样,描述统计学是用来描述一组数据长什么样:最大值最小值是多少?平均数是多少?哪个数字出现最多?数据是集中的还是离散的?等等。我们在做数据分析的时候,需要在数据中发现规律,但这一个前提就是我们要知道这组数据长什么样。

一、常见描述数据的方法

描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

集中趋势分析

集中趋势分析主要靠平均数、中数、众数等统计指标来表示数据的集中趋势。例如考试的平均成绩多少?是正偏分布还是负偏分布?

统计学中,描述数据集中心性(即数据的中心位置)的指标主要包括以下几种,它们各自有不同的含义和应用场景:

  1. 均值(Mean)

含义 :所有数值的总和除以数值的数量。它是数据分布中心性的最常用指标,提供了数据集的平均水平。

应用 :适用于连续数据和比率数据,但对极端值(异常值)非常敏感。

  1. 中位数(Median)

含义 :将数据集从小到大排列,位于中间位置的数值。如果数据集的数量是偶数,则中位数是中间两个数值的平均值。

应用 :对于偏态分布的数据(即分布不对称,有长尾的数据),中位数比均值更能准确地反映数据的中心位置,因为它不受极端值的影响。

  1. 众数(Mode)

含义 :数据集中出现次数最多的数值。一个数据集可以没有众数,也可以有一个或多个众数。

应用 :众数适用于任何类型的数据,包括名义数据(分类数据)。它在描述最常见的类别或值时特别有用。

  1. 几何平均数(Geometric Mean)

含义 :所有数值乘积的n次方根(n是数值的数量)。主要用于处理比率或百分比变化的数据。

应用 :在金融和经济学中常用,特别是当需要比较不同时间段的增长率时。它不适用于包含负数或零的数据集。

  1. 调和平均数(Harmonic Mean)

含义 :数值数量除以所有数值倒数之和。主要用于处理速率和比例。

应用 :例如,在计算平均速度或平均比率时使用。它对较小的数值更敏感。

这些指标各自适用于不同类型和分布的数据集,选择合适的中心性指标可以更准确地描述和分析数据的特征。

离散趋势分析

离散趋势分析主要靠全距、四分差、平均差、方差(协方差:用来度量两个随机变量关系的统计量)、标准差等统计指标来研究数据的离中趋势。例如,我们想知道两个教学班的语文成绩中,哪个班级内的成绩分布更分散,就可以用两个班级的四分差或百分点来比较。

描述数据集离散程度的指标反映了数据值之间的差异或变异。以下是几个主要的离散性指标及其含义:

  1. 范围(Range)

含义 :数据集中最大值和最小值之间的差距。它提供了数据分布宽度的最简单度量。

应用 :范围易于计算,但由于只考虑了极端值,因此对异常值非常敏感,可能不充分反映数据的整体离散程度。

  1. 四分位数范围(Interquartile Range, IQR)

含义 :上四分位数(Q3)与下四分位数(Q1)之间的差值,即包含了中间50%数据的范围。它减少了极端值的影响,提供了一个更稳定的离散度量。

应用 :IQR常用于识别异常值和描述数据的离散程度,特别是当数据不符合正态分布时。

  1. 方差(Variance)

含义 :度量数据点与其平均数(均值)的偏差的平方的平均值。它描述了数据分布的离散程度。

应用 :方差适用于量化数据点围绕均值的波动大小,但由于方差的单位是原始数据单位的平方,所以解释起来不如标准差直观。

  1. 标准差(Standard Deviation)

含义 :方差的平方根。它以数据的原单位衡量数据的离散程度,表示数据分布的集中趋势。

应用 :标准差是度量数据离散性最常用的方法之一,特别是在数据接近正态分布的情况下。它比方差更易于理解和解释。

  1. 变异系数(Coefficient of Variation, CV)

含义 :标准差与均值的比率,通常表示为百分比。变异系数是一种相对的离散程度度量,可以用来比较不同量纲或平均值差异较大的数据集的离散程度。

应用 :在评估和比较具有不同单位或平均水平的数据集的离散程度时特别有用。

这些指标中,范围和四分位数范围提供了数据分布宽度的视角;方差和标准差则详细描述了数据点围绕其均值的分布情况;变异系数则提供了一种比较不同数据集离散程度的方法。选择合适的指标可以帮助更准确地理解和解释数据的特性。

相关性分析:

相关分析探讨数据之间是否具有统计学上的关联性。这种关系既包括两个数据之间的单一相关关系--如年龄与个人领域空间之间的关系,也包括多个数据之间的多重相关关系--如年龄、抑郁症发生率、个人领域空间之间的关系:既包括A大B就大(小),A小B就小(大)的直线相关关系,也可以是复杂相关关系(A=Y-B*X);既可以是A、B变量同时增大这种正相关关系,也可以是A变量增大时B变量减小这种负相关,还包括两变量共同变化的紧密程度--即相关系数。实际上,相关关系唯一不研究的数据关系,就是数据协同变化的内在根据--即因果关系。获得相关系数有什么用呢?简而言之,有了相关系数,就可以根据回归方程,进行A变量到B变量的估算,这就是所谓的回归分析,因此,相关分析是一种完整的统计研究方法,它贯穿于提出假设,数据研究,数据分析数据研究的始终。

描述数据相关性的指标用于评估两个或多个变量之间的关系强度和方向。以下是几个主要的相关性指标及其含义:

  1. 皮尔逊相关系数(Pearson Correlation Coefficient)

含义 :度量两个连续变量之间线性相关的程度。它的值介于-1和1之间,其中1表示完全正相关,-1表示完全负相关,0表示没有线性相关。

应用 :适用于评估两个变量是否在一条线上增加或减少,即它们是否有线性关系。需要注意的是,它假设数据是连续的,且具有正态分布。

  1. 斯皮尔曼等级相关系数(Spearman's Rank Correlation Coefficient)

含义 :度量两个变量的等级(排名)之间的相关性。它也介于-1和1之间,1表示完全的正等级相关,-1表示完全的负等级相关,0表示没有相关。

应用 :适用于评估非线性关系或不满足正态分布假设的变量之间的相关性。对于顺序数据和非正态分布数据特别有用。

  1. 肯德尔等级相关系数(Kendall's Tau Correlation Coefficient)

含义 :基于两个变量的观测对的一致性和不一致性对数来衡量变量之间的相关性。它的值也在-1到1之间。

应用 :肯德尔相关系数用于衡量两个变量之间的等级相关性,尤其适用于小样本数据或有许多 tied ranks 的数据。

  1. 点双列相关系数(Point-Biserial Correlation Coefficient)

含义 :度量一个二元变量和一个连续变量之间的相关性。其值也介于-1和1之间。

应用 :当研究的焦点是判断一个二元变量(如性别、是否)和一个连续变量之间的关系时使用。

  1. 费舍尔z转换(Fisher Z-Transformation)

含义 :它不直接衡量相关性,而是将皮尔逊相关系数转换成一个正态分布的变量,以便进行统计分析。

应用 :主要用于相关性分析的假设检验和构建置信区间。

选择合适的相关性指标时,需要考虑数据的类型(连续还是分类)、分布特征(是否正态分布)、以及研究的目的。正确的使用和解释这些指标可以帮助揭示变量之间的潜在关系,为进一步的分析和决策提供依据。

在Stata中进行相关性分析时,默认情况下使用的是皮尔逊相关系数(Pearson Correlation Coefficient)来衡量两个连续变量之间的线性相关程度。皮尔逊相关系数是最常用的相关性度量方法之一,适用于评估变量之间的线性关系强度和方向。

如果你的数据不满足皮尔逊相关系数的假设(例如,数据不是连续的,或者关系不是线性的),Stata也提供了其他相关性指标的计算方法,如斯皮尔曼等级相关系数(Spearman's Rank Correlation Coefficient)和肯德尔等级相关系数(Kendall's Tau Correlation Coefficient)。这些可以通过指定不同的命令选项来实现。

例如,要在Stata中计算斯皮尔曼或肯德尔等级相关系数,你可以使用如下命令:

  • 斯皮尔曼等级相关系数:spearman varlist
  • 肯德尔等级相关系数:kendall varlist

这些选项允许用户根据数据的特性和研究目的选择最合适的相关性分析方法。

数据分析与知识工程,数据分析描述性统计

二、常见数据的抽样方法

对数据进行描述之前,我们需要进行抽样。抽样就是为了检测整体而从整体中抽一个样本出来检测,以样本检测的结果来推断整体质量的一种方法。在我们检测一批药品合不合格的时候,我们不可能把所有的药盒都打开全都检查一遍确定是否合格,只能抽取部分检测,依据这部分药品的检测结果来推断全部药品的质量,这就是所谓的抽样方法。

简单随机抽样

每个个体入选概率相同,如用随机数表进行抽样

系统随机抽样

选择某个起点,间隔特定数据量进行抽样

分层随机抽样

含义 :分层随机抽样是指将总体分成几个互不重叠的子集(即层),每个子集是相对同质的,但层与层之间可能是异质的。然后从每个层中独立地进行简单随机抽样,以组成最终的样本。每个层的抽样比例可以相同也可以不同,这取决于研究的目的和各层的重要性。

优点

  • 可以确保样本在关键变量上的代表性。
  • 有助于提高估计的准确性。
  • 允许对特定的层进行分析。

整群随机抽样

含义 :整群抽样是指将总体分成若干个互不重叠的群体(称为“群”或“簇”),这些群体在内部是异质的,反映了总体的多样性。然后,通过某种方法(如简单随机抽样)选取若干个群体作为样本,进而调查选中的群体中的所有成员。

优点

  • 在进行大范围或地理分布广的调查时,成本较低、操作较为简便。
  • 当缺乏详细的总体名单时,这种方法很有用。

三、关联统计学概念

抽样误差

抽样误差是指由于从总体中抽取样本而非调查整个总体时产生的估计误差。具体来说,它是样本统计量(如样本均值、比例或标准差等)与对应的总体参数(如总体均值、比例或标准差等)之间的差异。抽样误差反映了样本对总体的代表性程度,即样本如何准确地反映总体的特征。

抽样误差的主要特点包括:

  • 不可避免性:只要采用了抽样方法,就无法避免抽样误差。即使抽样方法设计得再好,也总会存在一定程度的误差,因为样本无法完全代表整个总体。
  • 随机性:抽样误差的大小和方向是随机的。这意味着,如果从同一个总体中重复抽取多个样本,每个样本的统计量可能会略有不同,因而它们与总体参数之间的误差也会不同。
  • 可估计性:虽然无法完全消除抽样误差,但可以通过统计方法估计其大小,例如通过计算置信区间来评估总体参数可能的取值范围。
  • 控制方法:通过合理设计抽样方案,如增加样本量、使用分层随机抽样等方法,可以在一定程度上减小抽样误差,提高研究的准确性和可靠性。

中心极限定理

中心极限定理(Central Limit Theorem, CLT)是统计学中的一个基本概念,它解释了为什么许多在自然界和人类社会中出现的变量呈现出近似正态分布的趋势,即便这些变量的原始总体分布并不是正态的。这个定理在抽样分布理论中占据核心地位,对于进行统计推断非常重要。

中心极限定理指出,如果从任何形态的总体分布中抽取足够大的样本(通常样本量n≥30),并计算这些样本的均值,则这些样本均值形成的分布将近似为正态分布,无论原始总体分布是什么。这个由样本均值形成的分布的均值将等于原始总体的均值,其标准差(标准误差)将是原始总体标准差除以样本大小的平方根。

中心极限定理的关键点

  1. 适用性广泛:CLT适用于任何总体分布,无论其形状如何,包括偏态分布、均匀分布等。
  2. 样本量的重要性:样本量越大,由样本均值形成的分布越接近完美的正态分布。尽管常见的经验规则是样本量至少为30,但对于非常偏斜的分布,可能需要更大的样本量以更好地逼近正态分布。
  3. 统计推断的基础:中心极限定理是许多统计推断方法的理论基础,包括置信区间的构建和假设检验。通过它,即使总体分布未知,我们也可以对样本数据进行分析并作出推断。

中心极限定理的应用示例

  • 置信区间:计算一个平均值的95%置信区间时,即使总体分布未知,我们也能利用中心极限定理知道样本均值将围绕总体均值形成一个近似正态分布。
  • 假设检验:在进行t检验或z检验时,中心极限定理允许我们使用正态分布的性质来计算概率和做出决策,即使样本来源的总体分布不是正态的。

中心极限定理的广泛适用性和强大功能使其成为理解和应用统计学的一个关键点。

置信区间

置信区间是统计学中用来表示对某个参数估计的不确定性的一种度量。它给出了一个参数值可能存在的范围,以及这个范围的置信水平或置信度(通常表示为百分比,如95%)。简而言之,置信区间可以被理解为从某个样本统计量(如样本均值)推断总体参数(如总体均值)时,所得到的参数估计区间,这个区间以一定的置信水平覆盖了真实的总体参数。

  • 参数估计的区间:置信区间提供了总体参数可能所在的一个区间范围,而不是一个固定的点估计。
  • 置信水平:置信水平(例如95%)意味着在重复抽样和计算置信区间的过程中,大约95%的置信区间将包含总体真实参数。这不意味着真实参数有95%的概率落在某个特定置信区间内;置信区间是对某一次抽样结果的估计,而不是概率。

假设你是一名研究人员,正在研究某城市居民的平均身高。你从这个城市随机抽取了100名成年居民作为样本,并计算得出样本平均身高为170厘米,标准差为10厘米。你希望使用这个样本数据来估计全体城市成年居民的平均身高。

使用这些信息,你可以计算一个95%的置信区间来估计总体平均身高。假设经过计算,得到的95%置信区间是[168厘米, 172厘米]。这个置信区间的解读是:你有95%的置信水平认为,全体城市成年居民的平均身高会在168厘米到172厘米之间。换句话说,如果你无限次地从这个城市的成年居民中随机抽取100人的样本,并对每个样本重复这个计算过程,那么大约95%的置信区间将包含真正的总体平均身高。

请注意,这个解释并不意味着真正的平均身高有95%的概率位于[168厘米, 172厘米]的范围内;总体平均身高是一个固定的值,而不是一个随机变量。置信区间反映的是抽样过程中的不确定性。

参数估计

参数估计是统计学中的一个基本概念,它涉及到用样本数据来估计总体参数的过程。总体参数是指描述总体特征的数值,如总体均值(μ)、总体比例(p)或总体方差(σ²)等。参数估计分为两类:点估计和区间估计。

点估计(Point Estimation): 点估计是使用样本数据来提供总体参数的单一数值估计。这个估计值旨在是总体参数的最佳猜测。点估计的例子包括样本均值(用作总体均值μ的估计)、样本比例(用作总体比例p的估计)或样本方差(用作总体方差σ²的估计)。

区间估计(Interval Estimation): 区间估计是基于样本数据提供一系列值,用以估计总体参数。这个区间包含了一个置信水平,表示估计区间包含总体参数真值的可信度。区间估计的例子是置信区间。

假设你想要估计你学校学生的平均身高。你无法测量每一个学生的身高,因此你从所有学生中随机选择了一个包含30名学生的样本,并计算出这个样本的平均身高为165厘米。

  • 点估计 :在这个例子中,165厘米就是总体平均身高的点估计,因为它是基于样本数据对总体平均值的直接估计。
  • 区间估计 :通过进一步的计算,你可能得到一个95%的置信区间,比如[163厘米, 167厘米],作为总体平均身高的区间估计。这意味着你有95%的置信水平认为,学校所有学生的平均身高会落在这个区间内。

总体来说,参数估计允许我们使用样本数据对总体的未知参数进行估计,提供了一个实际操作中的有用工具,用于总体特征的推断。

正态分布

正态分布(Normal Distribution),也称为高斯分布(Gaussian Distribution),是一种在自然和社会科学领域广泛出现的连续概率分布。它的图形呈现为对称的钟形曲线,其中大多数观测值集中在中心值附近,并且向两边逐渐减少,趋向于零。正态分布的特点:

  • 对称性 :正态分布的图形是关于其均值对称的,均值、中位数和众数在同一位置。
  • 均值和标准差 :正态分布由两个参数决定:均值(μ)和标准差(σ)。均值决定了分布的中心位置,标准差决定了分布的宽度,即数据的离散程度。
  • 分布的形状 :所有正态分布都遵循一个特定的规则,即在距离均值一个标准差范围内的数据占总数据的约68%,两个标准差范围内的约95%,三个标准差范围内的约99.7%。

一个典型的例子是人的智力商数(IQ)分布。智力商数的平均值是100,标准差大约是15。这意味着大多数人的IQ分数落在85到115之间(即均值±一个标准差),而极少数人的IQ会非常高或非常低。

数据分析与知识工程,数据分析描述性统计

以上图表展示的是标准正态分布,其均值(μ)为0,标准差(σ)为1。这种分布是正态分布的特例,它在统计分析中非常重要,许多统计方法都假设数据呈正态分布或近似正态分布。

平均差,方差,标准差和四分差

平均差(Mean Absolute Deviation, MAD): 各个数据点与数据集平均值之间差的绝对值的平均数。它反映了数据集中的每个点到平均值的平均距离。

例子:考虑数据集 [2, 4, 6, 8],平均值是 5。平均差是 |2-5| + |4-5| + |6-5| + |8-5| 的和除以4,即 (3+1+1+3)/4 = 2。

方差(Variance) :方差是各个数据点与数据集平均值之间差的平方的平均数。它衡量了数据点分散开来的程度。

例子:使用相同的数据集 [2, 4, 6, 8],平均值是 5。方差是 ((2-5)² + (4-5)² + (6-5)² + (8-5)²) / 4 = (9+1+1+9) / 4 = 5。

标准差(Standard Deviation) :标准差是方差的平方根,它以数据的原始单位衡量数据的离散程度。

例子:对于数据集 [2, 4, 6, 8],方差是 5,所以标准差是 √5 ≈ 2.24。

四分差(Interquartile Range, IQR) :四分差是上四分位数(Q3)与下四分位数(Q1)之间的差,即包含了中间50%数据的范围。它是一个鲁棒的离散程度度量,不受异常值的影响。

例子:对于数据集 [1, 2, 3, 4, 5, 6, 7, 8, 9],下四分位数(Q1)是3,上四分位数(Q3)是7。四分差是 7 - 3 = 4。