引用格式: 时文博,曹春燕,宋颖,等.基于多元统计分析的黄河山东段水质评价研究[J].人民黄河,2020,42(2):48-53.
作者简介: 时文博(1981—),男,山东聊城人,高级工程师,主要从事水质监测、水质评价及实验室管理等方面的工作
摘要: 以黄河山东段为例,在利用方差分析(ANOVA)对高村、孙口、艾山、泺口和利津5个断面2015—2017年各水质监测指标月度监测值进行时空尺度显著差异性分析的基础上,采用层次聚类分析法将180个水质样本分成12组,并以各组样本均值为基础,运用综合水质标识指数法对河流综合水质进行评价。结果表明:黄河山东段综合水质状况良好,综合水质类别为Ⅰ类或Ⅱ类;时间上,2015—2017年综合水质状况逐渐好转;空间上,利津断面综合水质状况最差,其余断面从上游到下游综合水质状况呈好转趋势。
关键词: 水质评价;方差分析;聚类分析;综合水质标识指数;黄河山东段
河流综合水质评价是合理开发利用水资源及水环境管理的重要基础工作,对水质监测数据进行合理评价能够了解和掌握水体的污染程度,从而为水资源保护和水环境管理提供科学依据。由于水体环境的复杂性,因此评价方法的选择是河流综合水质评价的核心。水质评价方法大致可分为水质指数法和不确定性评价方法两大类,目前应用较多的评价方法有水质指数法 [1-5]、模糊综合评价法[6-7]、 灰色系统理论评价法[8-9]和人工神经网络法[10-11]等不确定性评价方法。此外,近年来,物元分析[12-13]、可拓评价[14-15]、投影寻踪技术(PP)[16-17]、集对分析[18-19]、TOPSIS 法(即逼近理想解的排序方法)[20-21]、多目标决策-理想区间法(MODMIIM)[22]等新型不确定性研究方法和技术开始应用于河流水质综合评价中。水质指数法具有计算方法简单、物理概念清晰等优点,但是水质指数法通过有目的地选择一些重要的水质指标,将复杂的水质监测数据转换成可以理解和使用的信息,具有主观性。不确定性评价方法充分考虑了水环境系统的随机性、模糊性和灰色性[23],能够客观反映水环境质量,但这些方法均需构造相应函数,存在计算过程复杂的缺点,且有的方法在使用过程中需要依靠经验,有的方法存在分辨率低及计算时缺失信息多的缺点,有的方法不能准确判断水质类别[24],有的方法受人为因素干扰数据波动较大且没有典型的分布规律[25],这些不足限制了这些方法在实际应用中的推广。上述水质评价方法为水环境管理和水资源规划提供了决策支持,但在评价过程中通常将各时期、各断面进行独立评价,未考虑各种水体污染物在时间和空间上的差异性和相关性,导致了大量重复计算及评价过程的繁杂性。
当前水质评价方法应解决的主要问题是,充分利用大量水质监测数据的相似性与差异性,从而达到降维、简化计算过程和提高分析结果可靠性的目的。为克服传统评价方法在应对大量复杂样本时难以解释数据之间关联性及差异性的缺点,在以往多元统计分析方法 (如因子分析 [26-27]、主成分分析[28]、 方差分析[29]、聚类分析[30])及综合水质标识指数法[3]的基础上,提出了基于多元统计分析和综合水质标识指数的水质评价方法,并将其应用于黄河山东段水质评价中。该方法有以下显著特点:简化了计算过程,减少了水质评价的工作量;充分挖掘了水质监测数据的时空特征,特别适用于多断面、长时间的水质评价;不仅可以定性评价,而且可以定量评价。
1 水质评价方法
● 1.1 基于多元统计分析和综合水质标识指数的水质评价方法
该方法以多元统计分析和综合水质标识指数法为理论基础,其基本步骤如下。
(1)通过方差分析(ANOVA)对各断面多年水质监测数据进行空间和时间尺度上的显著性差异分析,识别出具有显著差异的样本。
(2)通过层次聚类分析(HCA)对样本进行聚类分组。
(3)以各组水质数据为基础,采用综合水质标识指数法对水质状况进行评价。
(4)将评价结果分解到各组对应的样本点,从而实现多断面、长时间大量样本的水质评价。
● 1.2 方差分析
方差分析(ANOVA)是用于推断两个及两个以上样本的总体均值是否存在差异的显著性检验,其基本思想是,通过分析不同来源的变异对总变异的贡献程度,确定可控因素对研究结果影响的大小。数据的变异量可分解为组间变异和组内变异,组间变异即由可控因素引起的变异,组内变异即由随机误差引起的变异。根据控制变量个数不同,ANOVA可分为单因素方差分析和多因素方差分析。在本研究中,可控因素为时间或断面,属于单因素方差分析,计算公式为

式中:SSt为总变异;SSw为组内变异;SSb为组间变异;k为数据组个数;n为第j个组内数据的个数;xij为第j个组内的第i个数据;MSw为组内方差;MSb为组间方差;n-1为组内自由度;k(n-1)为组间自由度。
若 F≥Fα[(n-1),k(n-1)] (通常α为0.05),则表明控制变量下不同水平各总体均值具有显著性差异,F计算公式为

● 1.3 层次聚类分析
聚类分析(CA)是一种统计分析技术,它是研究“物以类聚”的一种方法,其中使用最多的是层次聚类法。层次聚类分析法(HCA)的基本思想是,通过研究观察对象之间的亲疏程度,逐步将相似的对象聚合在一起,直至聚为一类。亲疏程度的计算包括2类:样本间距离和小类间距离,样本间距离的测量方法有欧氏距离、欧氏距离平方、Cityblock距离(布洛克距离)和Mahal距离(马氏距离)等,小类间距离的测量方法有最短距离法、最长距离法、中间距离法、重心法和离差平方和法(Ward法)等。本研究采用SPSS 19.0软件实现聚类分析,样本间距离和小类间距离分别采用欧式距离平方和Ward法测量。
● 1.4 水质标识指数评价法
(1)单因子水质标识指数。单因子水质标识指数可以完整地表示水质类别及与水功能区目标的比较情况,既可以对水质类别进行定性评价,又可以在同一类别中定量比较水质优劣。单因子水质标识指数pi由一位整数和小数点后两位有效数字组成,其结构为pi=X1.X2X3,其中 X1、 X2、 X3代表的含义及其数值确定见文献[1]。
(2)综合水质标识指数。综合水质标识指数是在单因子水质标识指数的基础上建立起来的,是一种河流综合水质评价方法,该方法克服了单因子评价法以偏概全的缺点,能够对河流综合水质做出合理评价。其结构为 Iwq= X1.X2X3X4,其中 X1、 X2、 X3、 X4代表的含义、X1.X2的计算公式及X3和X4的数值确定见文献[3]。
根据综合水质标识指数Iwq中的X1.X2可判定河流综合水质级别,当 1.0≤X1.X2≤2.0 时,综合水质类别为Ⅰ类;当 2.0<X1.X2≤3.0 时,综合水质类别为Ⅱ类;当 3.0<X1.X2≤4.0 时,综合水质类别为Ⅲ类;当4.0<X1.X2≤5.0 时,综合水质类别为Ⅳ类;当 5.0<X1.X2≤6.0 时,综合水质类别为Ⅴ类;当 6.0<X1.X2≤7.0 时,综合水质类别为劣Ⅴ类但不黑臭;当 X1.X2>7.0时,综合水质类别为劣Ⅴ类且黑臭。
2 实例研究
● 2.1 研究区域概况及采样点布设
黄河自菏泽市东明县进入山东省,自西南向东北横跨山东省西北部,黄河下游山东段干流河道全长628 km,流域面积1.83万km2。山东沿黄城市主要有菏泽、济宁、*安泰**、聊城、济南、德州、滨州、淄博和东营。黄河作为山东省最主要的客水资源,其水资源质量优劣和多少对沿黄各市社会经济的可持续发展具有举足轻重的地位,因此水质状况受到广泛关注。在黄河山东段干流设置高村(S1)、孙口(S2)、艾山(S3)、泺口(S4)和利津(S5)5个断面进行水质评价。
● 2.2 数据采集
研究基础数据来源于黄河水利委员会山东水文水资源局2015—2017年的水质监测数据,根据黄河山东段的实际水质状况,排除一年中多数月份小于检出限的项目,选取化学需氧量(CODCr)、氨氮(NH3-N)、砷(As)、铜(Cu)、总磷(TP)和五日生化需氧量(BOD5)作为评价指标,根据《地表水环境质量标准》(GB 3838—2002)进行水质评价。每个断面每月进行一次水质监测,水质样本共180个,各断面各水质指标监测数据见表1。
表1 2015—2017年黄河山东段各断面水质指标年均值mg/L

● 2.3 数据时空尺度方差分析
考虑到水体污染物的时空差异性与相关性,对各水质评价指标进行同一断面不同年度间和同一年度不同断面间月度监测值的单因素方差分析,结果见表2和表3。其中:Sig值是差异性显著的检验值,Sig值小于等于0.05,表明控制变量下不同水平总体平均值存在显著性差异;Sig值大于0.05,不存在显著性差异。结果表明,在时间上,TP存在显著性差异,As和BOD5均不存在显著性差异,部分断面CODCr、NH3-N和Cu在不同年度间存在显著性差异;在空间上,6个水质评价指标在同一年度不同断面间均不存在显著性差异。由此可见,各水质评价指标在时空尺度上存在差异性与相关性,根据各指标存在的相似性,将样本进行分组评价,从而简化评价过程,减少数据的重复计算。
表2 同一断面不同年度方差分析Sig值

表3 同一年度不同断面方差分析Sig值

● 2.4 样品点分组
通过SPSS 19.0软件用Ward法对180个水质样本进行层次聚类分析,得到重新调整距离聚类合并的树状图和聚类表,根据树状图和聚类表对样本点进行分组。根据SPSS 19.0软件生成的聚类表,以类数为横坐标,以离差平方和系数为纵坐标,绘制曲线(图略),从曲线可以看出,从12类变化到11类时,曲线斜率明显增大,因此把样本分成12组。12组样本对应的水质样本点见表4。
表4 12组样本对应的水质样本点

注:Sx-yy-z(x=1~5,yy=15、16、17,z=1~12)表示 Sx断面 20yy年 z月的水质样本
聚类分析的实质就是按照样本点各水质指标之间的距离对样本点进行分组,距离较近的样本点被分到一组,距离较远的样本点被分到不同组,因此各组内样本点数不尽相同。同组内样本点各水质指标浓度之间的差别较小,水质状况相似,各样本点处于同一水质级别,可作为一个整体进行评价。各组样本的数据特征用组内样本的平均值来表示(见表5)。由表5可见,G1和G3聚集了有较低TP、As、Cu浓度的水质样本点;G5和G6聚集了有中等浓度TP、As、BOD5的水质样本点;G2聚集了有较低浓度NH3-N、TP、BOD5的水质样本点;G4、G7、G10、G11和G12这5组各自只含有一个样本,这5个样本与其余样本差别很大。
表5 12组样本各项水质指标均值 mg/L

● 2.5 水质标识指数评价结果
(1)各组样本的水质标识指数评价结果。根据单因子水质标识指数pi和综合水质标识指数Iwq的定义,将各组指标的均值代入进行计算,得到各组样本的水质评价结果,见表6。
由表6可见,12组样本的综合水质状况均较好,综合水质类别为Ⅰ类或Ⅱ类,满足水功能区目标要求,其中有 4组属于Ⅰ类水(G1、G3、G4、G12),其余 8 组均为Ⅱ类水。综合水质类别为Ⅱ类的8组样品,主要是CODCr或TP浓度未达到水功能区目标要求。从评价结果看,综合水质标识指数评价法克服了单因子评价法“以偏概全”的缺点,综合考虑了各单项指标的影响,反映了样本的总体特征;同时,综合水质标识指数评价法可以比较出同一水质类别样品水质的优劣(例如G2和G6均为Ⅱ类水,但是G2水质优于G6的)。
表6 12组样本单因子水质标识指数和综合水质标识指数

(2)多断面、长时间的水质评价。将12组综合水质标识指数根据表4分配到各组对应的水质样本中,即可以实现多断面、长时间大量样本的综合水质评价,结果见图1。从时间上看,2015—2017年河流综合水质状况逐渐好转,其主要原因是,国家不断加大治污力度,从源头上控制污染,同时不断推进河流水环境综合治理。从空间上看,除利津断面(S5)外,黄河山东段综合水质状况从上游到下游逐渐变好(综合水质状况由优到劣顺序为泺口(S4)、艾山(S3)、孙口(S2)、高村(S1)),其原因可能是,黄河下游河床抬升阻止了污染物向河流排放,河流综合水质状况主要受上游来水及上游水质状况影响,水体中各污染物从上游到下游随径流逐渐降解。利津断面(S5)综合水质状况最差,其原因可能是,黄河是东营市(利津断面位于东营市)唯一的客水来源,工农业生产用水主要依赖黄河水,东营市石油化工、钢铁冶炼等重工业较为发达,存在较多工业、农业等污染源,各种污染物通过多种途径进入黄河,造成黄河综合水质状况下降。因此,必须采取措施控制东营市各污染源,加大河流水环境综合治理力度,削弱乃至消除钢铁、石油化工以及农田施肥灌溉等对黄河水体造成的污染。

图1 黄河山东段2015—2017年水质评价结果
3 结 论
水质指数法和不确定性评价方法在水质评价过程中未充分考虑水质数据的时空特性,造成了大量重复计算及评价过程的繁杂性。为了克服这些缺陷,将聚类分析、方差分析等多元统计分析方法应用到黄河山东段水质评价中,主要得出以下结论:
(1)将多元统计分析方法应用于水质评价中,不仅可以充分挖掘水质监测数据的时空特征,而且可以大大减轻水质评价的工作量,能够有效克服传统水质评价方法的缺陷。
(2)运用综合水质标识指数法进行河流水质状况评价,充分体现了水质样本的综合特征,避免了单因子评价法以偏概全的缺陷,适合河流水质状况的定性、定量评价。黄河山东段各断面2015—2017年综合水质类别为Ⅰ类或Ⅱ类,综合水质状况良好,满足水功能区目标要求。从单因子水质标识指数上看,主要污染因子为CODCr和TP,说明黄河山东段水质主要受有机污染物影响。
(3)将基于多元统计分析和综合水质标识指数的水质评价方法应用于水质评价中,可以综合反映多断面、长时间大量样本的流域水质时空变化特性和综合水质状况,便于全面了解大尺度河流的污染特征及各污染物的迁移转化规律。从时间分布看,2015—2017年黄河山东段水质状况逐渐好转,这与国家加大治污力度及加强水环境综合治理密切相关。从空间分布上看,利津断面(S5)综合水质状况最差,其余断面河流水质状况从上游到下游逐渐好转。利津断面(S5)水质状况较差主要是受农业、工业等污染源的影响,因此必须加强环境监测,加大治污力度,遏制甚至消除污染源。
基于该方法的突出优点,可将该方法推广到我国其他河流大尺度的分析评价中,以便全面了解河流综合水质状况,为水环境保护及水环境综合治理提供科学依据。
参考文献
[1] 徐祖信.我国河流单因子水质标识指数评价方法研究[J].同济大学学报(自然科学版),2005,33(3):321-325.
[2] 孙涛,张妙仙,李苗苗,等.基于对应分析法和综合污染指数法的水质评价[J].环境科学与技术,2014,37(4):185-190.
[3] 徐祖信.我国河流综合水质标识指数评价方法研究[J].同济大学学报(自然科学版),2005,33(4):482-488.
[4] VASANTHAVIGAR M, SRINIVASAMOORTHY K, VIJA⁃YARAGAVAN R, et al.Application of Water Quality Index for Groundwater Quality Assessment:Thirumanimuttar Sub-Basin, Tamilnadu, India[J].Environmental Monitoring and Assessment December, 2010, 171(1-4):595-609.
[5] CUDE C G.Oregon Water Quality Index:a Tool for Evalua⁃ting Water Quality Management Effectiveness[J].Journal of the American Water Resources Association, 2001, 37(1):125-137.
[6] 李莲芳,曾希柏,李国学,等.利用模糊综合评判法评价潮白河流域水质[J].农业环境科学学报,2006,25(2):471-476.
[7] CHANG N B, CHEN H W, NING S K.Identification of River Water Quality Using the Fuzzy Synthetic Evaluation Approach[J].Journal of Environmental Management, 2001,63(3):293-305.
[8] 赖坤容,周维博.灰色关联分析在延安市宝塔区延河段水质评价中的应用[J].成都理工大学学报(自然科学版),2010,37(5):570-573.
[9] CHENG Y Q, MA H M, SONG Q W, et al.Assessment of Water Quality Using Grey Relational Analysis and Principal Component Analysis[J].Advanced Materials Research,2011, 255-260:2829-2835.
[10] 李晶.基于人工神经网络的黄河宁夏段水质评价研究[D].银川:宁夏大学,2013:17-28.
[11] PALANI S, LIONG S Y, TKALICH P.An ANN Application for Water Quality Forecasting[J].Marine Pollution Bulletin,2008, 56(9):1586-1597.
[12] LI P Y, HE S, HE X D, et al.Seasonal Hydrochemical Characterization and Groundwater Quality Delineation Based on Matter Element Extension Analysis in a Paper Wastewater Irrigation Area, NorthwestChina [ J].Exposure and Health, 2018, 10(4):241-258.
[13] 邹叶锋,陈锁忠.基于物元分析的地下水质量综合评判[J].水文,2006,26(6):20-22.
[14] 汪明武,周天龙,叶晖,等.基于联系云的地下水水质可拓评价模型[J].中国环境科学,2018,38(8):3035-3041.
[15] WONG H, HU B Q.Application of Improved Extension E⁃valuation Method to Water Quality Evaluation[J].Journal of Hydrology, 2014, 509:539-548.
[16] 付强,付红,王立坤.基于加速遗传算法的投影寻踪模型在水质评价中的应用研究[J].地理科学,2003,23(2):236-239.
[17] ZHANG C, DONG S H.A New Water Quality Assessment Model Based on Projection Pursuit Technique [J].Journal of Environmental Sciences, 2009, 21(增刊1):154-157.
[18] 冯莉莉,吕小凡,高军省.水质评价的集对分析方法研究[J].人民黄河,2010,32(10):76-79.
[19] SI Q, LI M C,ZHANG G Y,et al.Set Pair Analysis Method for Water Quality Evaluation Based on Nonlinear Power Func⁃tion [J].Environment Science and Materials Engineering,2012, 573-574:497-500.
[20] 陈强,杨晓华.基于熵权的TOPSIS法及其在水环境质量综合评价中的应用[J].环境工程,2007,25(4):75-77.
[21] LI P Y, WU J H, QIAN H.Groundwater Quality Assess⁃ment Based on Rough Sets Attribute Reduction and Topsis Method in a Semi-Arid Area, China[J].Environmental Monitoring and Assessment, 2012, 184(8):4841-4854.
[22] 杨晓华,杨志峰,郦建强,等.水环境质量综合评价的多目标决策-理想区间法[J].水科学进展,2014,15(2):202-205.
[23] 刘国东,丁晶.水环境中不确定性方法的研究现状与展望[J].环境科学进展,1996,4(4):46-53.
[24] 李绍飞.区域水资源水环境综合评价方法研究[D].天津:天津大学,2006:10.
[25] KUO Y Y,YANG T H,HUANG C W.The Use of Grey Relational Analysis in Solving Multiple Attribute Decision Making Problems[J].Computers & Industrial Engineering,2008, 55(1):80-93.
[26] 杨苏才,南忠仁,牛亚萍,等.因子分析在水质评价与成因分析中的应用[J].人民黄河,2006,28(5):37-39.
[27] LIU C W,LIN K H,KUO Y M.Application of Factor A⁃nalysis in the Assessment of Groundwater Quality in a Blackfoot Disease Area in Taiwan [J].The Science of the Total Environment, 2003, 313:77-89.
[28] SHRESTHA S, KAZAMA F.Assessment of Surface Water Quality Using Multivariate Statistical Techniques:a Case Study of the Fuji River Basin, Japan[J].Environmental Modelling & Software, 2007, 22(4):464-475.
[29] ZHENG L Y, YU H B, WANG Q S.Assessment of Tempo⁃ral and Spatial Variations in Surface Water Quality Using Multivariate StatisticalTechniques:a Case Study of Nenjiang River Basin, China[J].Journal of Central South University, 2015, 22(10):3770-3780.
[30] 周丰,郭怀成,刘永,等.基于多元统计分析和RBFNNs的水质评价方法[J].环境科学学报,2007,27(5):846-853.