流域年径流预报方法及因素影响分析

流域年径流预报方法及因素影响分析

编码文章call10242025-02-13 11:07:4313A+A-

摘 要:

【目的】高精度的长期径流预报是水利工程运行的重要基础支撑,然而影响径流预报精度的预报因子选择、模型构建、径流分解中决定性因素不明,阻碍了预报精度的提升。【方法】基于信息熵筛选天文、全球和流域尺度预报因子,分别构建多元线性回归、神经网络、随机森林模型,结合STL算法分解径流,形成多种预报方案,量化预报因子、模型及径流分解三个因素对长期径流预报的贡献。【结果】在英那河、碧流河及桓仁水库的实例研究中,以气候因子、天文因子与流域因子组合(C+A+W)为输入,在对年径流进行分解的前提下利用随机森林模型进行预报,测试集的纳什效率系数分别为0.92、0.84、0.84。在影响因素分析中,预报因子对英那河、碧流河及桓仁水库年径流预报的精度贡献占比分别为0.30、0.30、0.27。【结论】对于三个水库,均是包含三个尺度的预报因子预报精度最高,随机森林模型表现最优,径流分解能一定程度提升预报精度。预报因子的选择是精度的主要影响因素;另外,与预报因子有关的因素之间的相互作用也不容忽视。本文可为长期预报方案的制订和精度提升提供新思路。

关键词:

长期径流预报;预报因子筛选;数据驱动模型;径流分解;交互影响分析;

作者简介:

温馨(1997—),女,硕士研究生,主要从事水文水资源研究。

*孙艳(1992—),女,博士研究生,主要从事水文水资源研究。

基金:

国家重点研发计划“雅江下游水电开发的水生态环境影响评估与调控”(2022YFC3205100);

国家自然科学基金项目“跨界河流多利益主体常态化合作机制研究”(52079017);

大连理工大学基本科研业务费(DUT21ZD405);

引用:

温馨, 孙艳, 李昱, 等. 流域年径流预报方法及因素影响分析[J]. 水利水电技术(中英文), 2023, 54(11): 113- 123.

WEN Xin, SUN Yan, LI Yu, et al. Analysis of annual runoff forecasting methods and the influence of factors in watersheds [J] . Water Resources and Hydropower Engineering, 2023, 54(11): 113- 123.


0 引 言

我国水资源受海陆位置、水汽来源等因素影响,时空分布不均。南部地区降水多、水资源丰沛,而北方地区降水少蒸发大,水资源短缺。尤其是西北大部分地区和东北地区西部河流的径流年际变化大,干旱频发,经常威胁到人类的生产生活。因此,掌握准确的未来年径流预报,可提前部署水库调度等水资源管理决策,有助于指导抗旱工作,进而避免经济损失和生命安全事故。为解决水资源时空分配不均问题,建立了诸多跨流域调水工程。跨流域调水工程已经成为我国北方重要城市的主要供给水源,其调度运行面临着诸多挑战。例如,若受水水库在非汛期长期持续引水后遭遇了丰水年,则会在汛期产生大量弃水,造成先调水后弃水的巨大浪费;若受水水库在汛前枯水季减少引水而遭遇了枯水年,则会汛后缺水带来较大经济损失。受北方地区降水集中、年际间变化剧烈的制约,中短期径流预报无法解决这一难题,年径流预报是关键。然而,由于年径流预报预见期长,影响因素复杂、模型泛化能力欠佳,其预报精确度难以保障。预报因子的选择、多样性模型的集成构建、以及多种因素交织下主导因素的确定一直是中长期预报研究的热点和难点。

目前,年径流预报主要基于物理成因利用当年的径流影响因素作为驱动预报下一年的年径流,而年径流影响因素涉及天文尺度、全球尺度和流域尺度。太阳黑子相对数和月球赤纬角等天文尺度因子和全球尺度因子通过影响大气环流间接作用于径流,流域尺度因子的降水、蒸发及下渗等直接影响年径流的生成。三类尺度因子联合驱动径流变化,从中择优选择适合研究流域的预报因子具有挑战性。其中,全球尺度的大气环流指数、海温指数等具体气候因子有130余项,数据冗杂,彼此存在信息的重叠,进一步增加了预报因子的筛选难度。

预报因子和径流之间的相关性即驱动模型的构建也是年径流预报的难点之一。过程驱动和数据驱动是主要的两类年径流预报模型。过程驱动模型利用流域的产汇流理论,需要大量精确的下垫面及气象、水文数据。随着预见期的增加,气象预报的精度降低,年尺度的预报可信度较低无法直接利用产生准确的年径流预报。数据驱动模型依靠大量样本数据挖掘隐含映射关系进行预测,所需资料较为单一,预报精度更高,可应用能力更强。数据驱动模型既包含线性的统计回归模型,也包含树状结构的决策树等和网状结构的神经网络等机器学习模型。回归模型实现简单、结果易于理解,但会受到异常值的干扰;决策树能学习非线性关系,对异常值也具有很强的稳健性,但单棵树容易过拟合;神经网络模型具有高度的泛化能力,但处于黑箱状态,可解释性差。多样性模型各有优劣,针对问题选择和集成适用的模型才是关键。此外,年径流数据本身具有高度的非线性和非平稳性,直接利用原始径流序列进行预报,会降低模型预报的精度。近年来诸多学者尝试在径流模式上进行创新,利用时序分解或VMD变分模态分解将径流序列分为趋势项、周期项或者不同频率的子序列等,逐一预报再集合为径流预报,在黄河流域获得了更高的预报精度。

年径流预报涉及预报因子的筛选、模型的集成构建以及径流分解等多个步骤,每个步骤都在年径流预报中发挥着重要作用,彼此还会产生交织影响,大大增加了年径流预报的不确定性及难度。综观已有文献,分别针对三者提高预报精度的研究较为多见,已经探讨了众多驱动因子对预报效果的关键影响、简单或复杂模型预报精度的对比以及不同时间序列分解方法在径流预报领域的适用性。而三者的耦合影响鲜有研究,尤其是多重因素交织影响下,主导因素难以寻找和确定。鉴于此,本文基于松辽流域三个年径流大小、丰枯遭遇不同的水库,设计不同预报因子、模型和径流是否分解的组合方案比较年径流预报精度差别,并在得到精度较高的年径流预报方案的同时,量化预报因子、模型和径流分解三个因素对于年径流预报精度的影响程度,为预报方案的选择和年径流预测精度的提高提供新思路。

1 研究区域概况及数据资料

1.1 研究区域概况

以英那河、碧流河以及桓仁水库为研究对象(见图1)进行年径流预报及影响因素的分析研究。英那河、碧流河水库为大连市内的供水水源地,英那河水库的多年平均径流量2.98亿m3,流域面积692 km2,调节能力较弱。碧流河水库多年平均径流量5.91亿m3,控制流域面积2 085 km2,二者均以城市供水为主。随着人口增长和经济发展,碧流河与英那河水库逐渐无法满足大连市的用水需求。为保障大连市城市工业与生活用水,建立跨流域引水工程,桓仁水库是大连市调水水源地之一,多年平均径流量38.98亿m3,控制流域面积10 400 km2。对于英那河、碧流河和桓仁水库,汛期径流占年径流的比例达85%以上,夏季降雨是径流的主要来源。三个水库往往需要根据水库的年径流预报进行引调水调度运行,高精度的年径流预报能够更好地指导输水时间和输水量,在资源和经济两方面进行节约。因此,三个水库对于高精度的年径流预报具有迫切需求。


1.2 数据资料

本文采用的径流数据是英那河、碧流河水库1952—2020年的年径流、桓仁水库1968—2020年的年径流,英那河、碧流河水库1951—2019年的月径流及桓仁水库1967—2019年的月径流,径流数据均已经做过还原处理。采用的因子数据包括中国科学院国家空间科学中心获取的1951—2019年的太阳黑子相对数数据(数据来源http: //www.sepc.ac.cn/)以及1951—2019年的月球赤纬角最大值数据;中国国家气象局国家气候中心获取的1951—2019年的130项气候因子月均值数据(数据来源https:
//cmdp.ncc-cma.net/Monitoring/cn_index_130)。其中,气候因子月均值数据包括大气环流指数88项、海温指数26项以及其他指数16项,去除缺测超过20%的数据项,缺测的数据采取线性插值法进行填补。

2 研究方法

本文的研究流程主要涉及因子筛选、模型构建以及影响分析三大关键步骤,流程如图2所示,主要步骤包括:(1)输入因子的确定。影响年径流的天文因子数量较少,采用太阳黑子和月球赤纬角作为天文尺度的预报因子。由于全球尺度的因子数据冗余,以互信息为衡量依据,筛选具有代表性的气候因子。根据“秋后雨水多,来年淹山坡”谚语,前一年的月径流密切关系着预报年的年径流,同样利用月径流和年径流的互信息筛选排序前二的流域因子。(2)年径流预报方案组合设置。代表性气候因子、天文因子以及流域因子三类因子进行组合作为预报因子输入,组合方式有七种分别为气候因子C、天文因子A、流域因子W、气候因子加天文因子C+A、气候因子加流域因子C+W、天文因子加流域因子A+W以及气候因子加天文因子加流域因子C+A+W。对于年径流数据的不平稳性,根据径流系列的周期,采用局部加权回归周期趋势分解算法(Seasonal-Trend decomposition procedure based on Loess, STL)分解,将径流数据分解成趋势项、周期项和残差项。以因子组合方案为自变量、径流或者径流分解量为因变量输入数据模型中进行训练模型来预测年径流序列。根据水库径流量序列长度,按照8∶2的比例将样本分为训练集和测试集。(3)径流预报结果评估和影响因素分析,针对多种输入方案得到的径流预报结果,采用纳什效率系数NSE、均方根误差RMSE、决定系数R2进行精度评定分析,得到最优的预报方案。在此基础上,利用ANOVA方法分析预报因子、模型和径流分解三个变量对于年径流预报结果的影响程度。


2.1 气候因子和流域因子筛选

互信息(MI)是信息论中重要的信息度量方法,可反映变量间的线性与非线性关系。气候因子的筛选即计算年径流与不同气候因子月均值之间的相关性,若两个变量不相关,则互信息量为0;若两个变量完全相关,则互信息量为无穷大。对于任何二元样本,互信息量为



式中,xi、yi为变量;n为样本数量;i=1,2,…,n;fx,y(xi,yi)为联合概率密度估计;fx(xi)、fy(yi)为边缘概率分布密度估计。

2.2 小波方差和STL分解

小波方差随时间变化的过程,可反映水文时间序列中不同时段的波动变化,存在一个或多个峰值,最大峰值所对应的横坐标即为该序列的主周期本文利用小波变换计算出年径流序列的小波变换系数,从而得出小波方差为



式中,V(α)代表该年径流序列时间尺度波动的能量大小;α为周期尺度(伸缩)因子,在一定意义上1α1α对应频率ω;W代表小波变换的函数;Xi为样本数据,i=1,2,3…,n。

基于数据序列存在的周期性,利用STL对数据序列进行预处理。STL是通过一种局部加权回归拟合方法即Loess滤波方法把时间序列分解为加性的趋势项、周期项和残差项,公式为



式中,yt、Tt、St、Rt分别代表t时刻的年径流序列观测值、趋势项、周期项和残差项,t=1,2,…,n。

2.3 预报模型

多元线性回归是用于拟合多个因子和年径流之间的关系。通过最小二乘法使误差项平方和最小训练得到模型所需参数,得到MLR的线性回归方程。其公式为



式中,Y为因变量即年径流;βt为回归系数,Xt为各种因子数据,t=1,2,…,n;μ为随机误差项。

神经网络模型(BP)主要包括三个部分,包括输入层、隐藏层及输出层。根据输入的因子组合方案不同,输入层和隐藏层的神经元个数不同,分别包括10、2、12、14个神经元,对应的隐藏层分别为6、3、6、7个隐藏层,输出层神经元个数为1。BP模型计算的核心是正向传播计算各层网络之间的输出值,根据误差反向更新各层权重,直至达到精度要求。

随机森林(RF)模型是由Breiman提出的一种基于Bagging袋装算法和分类回归树的集合学习方法。通过采用自举法对原始数据进行大量采样,对各生成样本分别建立决策树,综合所有的决策树模拟结果得到最终的预报径流,具体流程如图3所示。RF模型能够较好的学习水文气候等变量之间的潜在关系,对于处理多维数据特征和复杂的数据结构十分有效。


2.4 精度评定办法

本文采用最常见的均方根误差RMSE、纳什效率系数NSE、决定系数R2对预报结果进行评估。

(1)均方根误差RMSE:

衡量实测值和预测值之间的误差,取值越接近于0,预报精度越高。



式中,n为样本个数,i=1,2,…,n,fi为年径流预测值、Oi为年径流实测值。

(2)纳什效率系数NSE:

评价实测值和预测值之间的拟合程度,取值越接近于1,预报精度越高。



式中,Οˉ为年径流实测均值。

(3)决定系数R2:

评价预测值与实测值之间的线性拟合程度,取值越接近于1,预测值越接近于实测值。



2.5 ANOVA方差分析办法

本文意在探讨预报因子、模型和径流是否分解对于径流预报的精度提高的贡献率。预报因子、模型和径流分解组合进行年径流预报,最终的预报结果会构成下边的三维数组



式中,R为预报因子的组合数,这里R=7。S为模型的个数,径流分解对于线性回归模型没有作用,这里仅仅讨论BP和RF两个模型,S=2;T为径流是否分解,T=2。因子、模型和径流是否分解的单要素作用和多要素交互作用的影响程度具体求解参考相对文献[21]

[21] 郭萍.有交互影响的三因素方差分析原理及应用[J].曲阜师范大学学报(自然科学版),2015,41(4):15-18.GUO Ping.Principle and application of three-factor ANOVA with interaction effects[J].Journal of Qufu Normal University (Natural Science Edition),2015,41(4):15-18.

3 结果分析

3.1 因子筛选结果

采用互信息方法对英那河、碧流河及桓仁水库的气候因子分别进行筛选,选取排序前十的因子作为气候因子集。三个水库的气候因子筛选结果如表1所列。因子前的数字均代表前一年的月份。


表1的结果显示了主要影响英那河、碧流河及桓仁水库年径流的气候因子。三个水库共同的主要气候因子是副高强度指数、副高面积指数、副高脊线位置指数和2—3月份的北半球极涡指数。这些因子均属于大气环流因子,是影响全球降水变化的重要影响因素。与副高指数等相关的海气相互作用关键区的改变会影响降水的变化,副高强度指数一定程度反映了EAP型遥相关,进而表征了东亚地区降水强度,同时我国夏季降水量主要受冬季的北半球极涡指数的影响。虽然,英那河水库与碧流河水库位置相近、气候相仿,但是二者的丰枯并不同步,略有差异。因此筛选出的气候因子种类相似,但具体的气候因子排序并不完全相同。

对于流域因子,谚语“秋后雨水多,来年淹山坡”提供了先验知识,前一年10—11月份的月径流密切关系着来年径流。利用互信息验证前一年月径流与年径流的相关性,结果如表2所列,与谚语呈现的规律一致。


3.2 小波方差及STL分解结果

采用小波方差对三个水库的入库年径流数据进行周期分析,小波方差如图4所示,图中显示三个水库的周期性均较为明显,主周期对应最大峰值处的纵坐标值,英那河、碧流河及桓仁水库的周期分别为22 a、22 a及17 a。


根据小波方差求出的年径流周期,采用STL时间序列算法,对英那河、碧流河及桓仁水库的年径流数据进行分解,分解得到趋势项、周期项和残差项,结果如图5所示。英那河与碧流河的年径流呈现下降趋势,而桓仁则略微抬升。三个水库的年径流周期性显著,易预测,而残差项变化较为复杂,预测难度较大。


3.3 预报结果分析

在径流不分解情况下,不同输入方案、不同模型的年径流测试集的预报精度如图6所示。三个水库的预报结果在预报因子方案、模型选择呈现一致的结果,利用气候因子、天文因子加流域因子即方案C+A+W和RF模型得到的预报精度最高。对于不同水库,采用不同预报因子方案和模型水库年径流预报精度差别较大,以碧流河水库为例进行预报因子和模型分析。针对同一种模型进行预报因子方案比较,预报因子为气候因子(C)的NSE和RMSE最优达到0.79和1.66亿m3,优于预报因子单独为天文因子(A)和流域因子(W)。预报因子为气候因子加天文因子(C+A)的NSE、RMSE最优达到0.79和1.66亿m3与气候因子加流域因子(C+W)的NSE和RMSE最优达到0.80和1.62亿m3相差不大 ,均优于预报因子为天文因子加流域因子(A+W)。预报因子为气候因子、天文因子加流域因子即(C+A+W)时,年径流预报的精度最高,NSE和RMSE最优达到0.81和 1.56亿m3。由此分析得出,年径流预报主要依靠气候因子,随着天文和流域因子的加入,预报因子包含的信息更加全面,年径流预报精度也在不断提升。


在相同预报因子输入下,RF模型的年径流预报精度远优于MLR、BP模型。在气候因子加天文因子加流域因子(C+A+W)方案下,RF模型的NSE和RMSE分别为0.81亿m3和1.56亿m3,相较于MLR、BP模型的0.55亿m3和2.31亿m3、0.61亿m3和2.16亿m3,NSE分别提高47.3%、32.8%,RMSE分别降低32.5%、27.8%。当预报因子仅仅为天文因子或流域因子时即方案A、W或者A+W,RF模型测试集的NSE和RMSE最优达到0.74亿m3和1.85亿m3,而MLR、BP模型NSE分别最高达到0.42、0.51,RMSE最低降到2.63亿m3、2.41亿m3,NSE分别提高了76.2%、45.1%,RMSE分别降低了29.7%、23.2%。RF模型的预报精度在方案A、W、A+W上的优越性格外明显,甚至已经超过BP和MLR模型方案C+A+W。RF随机森林模型相较于多元线性回归MLR和BP神经网络模型对于预报因子的依赖性偏弱。

以气候因子、天文因子加流域因子(C+A+W)方案和随机森林模型为例分析径流分解对于预报结果的影响,如图7所示。三个水库的结果呈现一致性,径流分解能够在一定程度上提高水库年径流预报精度。以碧流河水库为例,RF模型测试集的NSE和RMSE为0.81亿m3和1.56亿m3,径流分解与随机森林模型组合STL-RF模型的NSE和RMSE为0.87亿m3和1.14亿m3,NSE提高7.41%,RMSE降低26.9%。图7中显示STL径流分解对于丰水年和枯水年的预测精度提高十分显著,相较于RF模型,STL-RF模型预报的整体年径流R2更接近于1,平水年的预报值几乎重叠在一起,差别不大,但是丰水年和枯水年更加接近于实测值,特丰水年尤为突显。


3.4 影响因素分析

虽然已经从3.3节得到三个水库的最优预报年径流的组合方案,但是提高径流预报精度更应该关注哪个因素,选择缺少量化的科学依据。ANOVA方差分析可以定量表征因子组合方案、模型、径流分解对于年经流预报结果的影响,结果如图8所示。横坐标代表不同影响因素,纵坐标代表各因素对径流预报的影响程度。图中可以看出英那河、碧流河、桓仁三个不同大小的水库在预报精度的不确定性分析上显示一致性的结论。以碧流河为例,单个因素包括预报因子、模型、径流分解,其影响程度平均占比分别为0.3、0.08、0.04,因素之间的相互作用包括因子与模型、因子与径流分解、模型与径流分解,其平均占比分别为0.2、0.18、0.03,三个因素的相互作用平均占比0.18。由此,预报因子是年径流预报的主要影响因素。没有选择恰当的预报因子,提升模型和应用径流分解对预报精度不会有很大改善。同时模型和径流分解的占比较小,但是模型和预报因子组合、径流分解与预报因子、三者组合的相互作用不容忽视,证明了在固定的因子输入下,模型和径流分解两个影响因素的选择与对于年径流预报精度也有显著提高。

I—预报因子所占影响程度比例;M—模型;D—是否分解;IM、ID、MD、IMD分别为因素之间共同作用对于影响程度的所占比例

4 结 论

本文基于预报因子、模型和径流分解三个因素进行各种年径流预报方案设计利用ANOVA方法分析三个因素对于三个水库的年径流预报精度的影响程度。得到以下结论:

(1)本文采用七种不同的预报因子方案对英那河、碧流河及桓仁水库进行年径流预报,三个水库预报结果均显示包含三个尺度的因子组合方案气候因子加天文因子加流域因子(C+A+W)预报精度最高;在模型选择研究中,应用MLR、BP和RF对上述三个水库进行年径流预报,三个水库均显示在同一种因子输入方案下,模型预报精度从高到低排序:RF>BP>MLR;在径流是否分解选择研究中,三个水库在同一模型和预报因子情况下,径流分解预报的精度大于径流未分解预报的精度。

(2)三个水库均在预报因子方案为气候因子加天文因子加流域因子组合(C+A+W)利用RF模型对年径流进行分解预报的情况下预报精度最高。最终英那河、碧流河、桓仁水库测试集的纳什效率系数分别为0.92、0.84、0.84。

(3)三个水库的预报精度最高的方案选择一致、因素及因素之间对于年径流预报的作用所占平均比例结果一致,三个水库的预报结果主要取决于预报因子,与预报因子有关的相互作用占比也不容忽视。本文只是在东北地区选取三个典型水库进行年径流预报和影响因素分析,接下来可以选取更多其他地区和流域的水库进行分析,将径流预报更加系统化和精细化,使得年径流预报精度更加精确,更好利用在跨流域调水中。


水利水电技术(中英文)

水利部《水利水电技术(中英文)》杂志是中国水利水电行业的综合性技术期刊(月刊),为全国中文核心期刊,面向国内外公开发行。本刊以介绍我国水资源的开发、利用、治理、配置、节约和保护,以及水利水电工程的勘测、设计、施工、运行管理和科学研究等方面的技术经验为主,同时也报道国外的先进技术。期刊主要栏目有:水文水资源、水工建筑、工程施工、工程基础、水力学、机电技术、泥沙研究、水环境与水生态、运行管理、试验研究、工程地质、金属结构、水利经济、水利规划、防汛抗旱、建设管理、新能源、城市水利、农村水利、水土保持、水库移民、水利现代化、国际水利等。

点击这里复制本文地址 以上内容由文彬编程网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

文彬编程网 © All Rights Reserved.  蜀ICP备2024111239号-4