评新书《现代气候统计诊断与预测技术》
-
-
引言
城市空气质量与一定范围内污染源的分布和排放有关, 与大气运动对空气中污染物的稀释、扩散、清除和聚集的强度有关。前者可用当地环境监测站的实测空气质量记录来反映, 并认为污染源在短期内有相对稳定性, 而空气污染预报主要从天气过程与污染物的关系出发进行研究[1-2]。大气运动具有随机性, 天气预报具有不确定性, 城市空气污染预报同样具有不确定性。本文应用不确定性系统理论和方法———集对分析[3] (set pair analysis:SPA) 来处理城市空气污染预报中的不确定性问题, 以提高预报准确率。
1. 集对分析的基本思路
天气系统具有确定性和不确定性的双重特性[4], 相应的预报模型也应有既确定又不确定的品质, 即同时具有处理确定性问题和不确定性问题的能力。在多元回归预报模型中, 进入模型的因子虽然经过天气学和数理统计方法的精选, 具有所谓的“优良性能”, 但是这种“优良性能”实际上是对于整个样本或次数众多的预报过程而言, 是一个整体概念, 对于样本中的某一个例或者具体应用中的某次预报则并非完全如此。有时其中的一个或几个因子“性能不佳”就导致了一次预报的失败。也就是说, 在使用多元回归模型所进行的多次天气预报中, 模型中各因子的预报性能是在不断变化的。一些因子在这次预报中表现出较强的预报性能, 而在另一次预报中则表现出较弱的预报性能, 甚至还有可能起干扰预报的负作用。这给我们提出了如下的问题:假设有一个多元回归模型, 因变量是一维随机变量Y, 自变量为m维变量X。在某次预报中有p(p < m) 个自变量分量性能不佳, 那么, 能否使这p个自变量分量在这次预报中少发挥作用或不发挥作用, 而由其余的 (m-p) 个性能优良的自变量分量来决定模型的预报结论?换句话说, 要提高多元回归模型在多次天气预报中的预报准确率, 必须使模型中各自变量分量的作用大小动态地变化, 每当自变量分量的预报性能下降时, 它的作用就要受到某种抑制, 而让其它预报性能较好的自变量分量的作用得到充分发挥。
2. 空气污染预报中自变量性能的优劣识别
2.1 邻近估计和变异系数
人们可能认为, 从差别甚微的n个初始场出发通过预报模式的积分, 得到的n个预报结果应该“差别甚微”, 但是大量的预报实践表明这n个预报结果可能发散到较大区域。这是由空气污染预报的不确定性所造成的。用不同的预报模式分别对n个初始场作预报, 如果这种发散越小, 就认为预报模式的质量越好[5]。
同样在用非参数回归制作天气预报时, 近邻估计[6]要在样本中为估计点X找到最为相近的k个个例, 记为 (Xi, Yi) (其中i=1, 2, …, k)。此时k个近邻的Xi是k个初始场, k个近邻的Yi是k个预测值。如果k个近邻的Yi分布越集中, 则表示用自变量X去预测Y的效果越好; 反之如果k个Yi的分布越分散, 则表示用X去预测Y的效果越差。k个近邻的Yi分布是集中或分散的程度称离散度, 可以用标准差或方差来定量描述。考虑不同单位和不同数量级别的两组数字的离散度比较, 则可采用标准差除以平均值所得到的变异系数[7] (coefficient of variability) 来表示。当预报量为一维时, 如果用
表示标准差, Y表示均值, 则变异系数cv表示为:(1) 有时为了计算方便把变异系数的平方当变异系数使用, 此时变异系数cv可表示为:
(2) 2.2 同异反分析
为了表述简便起见, 暂时把多元回归模型中的某一因子记为Zi(i=1, 2, …, n), 记Zi中的最大值为Zmax, 把第i个例的Zi与Zmax组成集对。对集对进行对比分析可知, 当用Zi去预测Ri时, 可以给出的预测是一个概率分布, 它的均值可作为实际使用中的预测值。在某问题下对某集对作分析, 它们共有n=q+f+p个特性, 其中有q个特性为两个集合所共有, 有p个特性为两个集合对立, 在其余的f个特性上则表现为既不对立又不同一。如果预测的不确定性较小, 则同一度
, 对立度c= , 差异度 。如果预测的不确定性较大, 则同一度 , 对立度 , 差异度 。具体方法详见参考文献[8]。2.3 自变量预报性能优劣概念及强势与弱势判别
根据SPA理论, 当用同一度a、差异度b和对立度c去剖析多元回归模型中自变量X与因变量Y的关系时, 事实上还描述了自变量的一种态势, 因此为方便计, 我们把某次天气预报中具有较好预报性能的自变量分量称为是处于强势的自变量分量, 把在某次预报中具有较差预报性能的自变量分量称为是处于弱势的自变量分量。一个自变量分量是处于强势还是弱势, 由相应的变异系数决定。变异系数取最大值时, 认为该因子处于弱势。
设有n次观测Xi, Yi(i=1, 2, …, n), 在自变量定义域中有任意估计点X=x, x和Xi在p维自变量空间的位置写成列向量
(3) 和
(4) 则它们之间的统计距离定义为
(5) 其中sii(i=1, 2, ……, p) 为自变量均方差。如果自变量为一维, 即当p=1时, 那么
(6) 从式 (5) 和式 (6) 可知, 统计距离以样本标准差为基本单位。把式 (6) 与式 (1) 归纳在一起:
(7) 利用式 (7) 可以对回归模型中每一因子的各个例分别做近邻分析, 找出k个近邻, 对k个近邻因变量计算变异系数。在每一个例中, 由m个因子计算出m个变异系数, 变异系数取最大值时, 可认为该因子可能处于弱势。
以绍兴市气象台城市空气污染预报中可吸入颗粒物 (PM10) 的污染指数预报为例来说明态势的分析与判断过程。在该预报过程中并不直接预报PM10的污染指数, 而先预报它的变量, 即先预报ΔY=Yt-Yt-1, 再计算出Yt。其中t为要预报的日期, t-1为t日的前一天日期。资料选用2003年和2004年5月21日—9月10日, 模型中涉及样本的容量为222 (缺4天资料), 预报因子为6个, 其中X1为MM5模式输出的12~24 h雨量; X2为24~36 h雨量; X3为T213的850 hPa 24 h温度梯度; X4为700 hPa 24 h垂直速度; X5为850 hPa 24 h温度露点差; X6为24 h海平面气压梯度。整个分析与判断过程分两步进行:第一步, 对由数值预报产品格点资料进行天气学和统计学方面的分析加工, 组合成为关键区或锋区因子; 第二步, 根据各个例中每个因子的cv值来判断因子的强势或弱势状态。表 1列出了各因子各个例的变异系数cv, 计算时取近邻数为k=7[9]。对表中变异系数的进一步统计分析可知, 当某因子的cv值为6个因子中最大的cv值, 且 (cv≥51.8) 时, 该因子的预报能力较差, 表明其处于弱势。如在个例1中因子X6的变异系数cv=289.0为6个因子中的最大值, 表明该因子X6处于弱势; 在个例2中没有因子处于弱势; 而在个例3和个例4中, 可以看到都是因子X1处于弱势, 其余个例可类推。
表 1 各预报因子的变异系数3. 自变量分量处于弱势时的分解
在预报模型的自变量中, 自变量分量之间相互联系、相互制约, 有机地组成一个整体。在预报时如果发现一个分量处于弱势, 说明它在模型中的重要性已下降, 甚至可能干扰模型作出正确预报结论, 因而希望让这些分量在这次预报中减少作用甚至失去作用。要达到此目的, 显然不能简单地剔除这个自变量分量。本章从SPA的原理出发, 用联系度公式导出解决这一问题的具体方法。
在联系度表达式中, 差异度
, 它表示在n个特征中有f个特征表现为既不同一又不对立, 即有f个特征对预报量的预测持“含糊”态度, 该因子与其勉强参与表态, 还不如放弃“投票权”, 而把预报结论的决定权让给其他强势因子。为此这里令(8) 或表示为
(9) 如果回归模型共有m个因子, 则式中∑表示对m个因子求和, 在上式中求和与求平均等价。
式 (8) 和式 (9) 的含义是:当因子处于弱势时, 它的差异度的f个特征按一定比分配给它的同一度和对立度, 这个比就是所有因子的平均同一度与平均对立度之比。按SPA的规定, 取j=-1, 可得
(10) 或
(11) 式 (10) 和式 (11) 是适用于多元回归预报模型的联系度表达式。用此式对表 2的数据进行计算, 可得到各因子的联系度值, 表 3仅列出X1和X2的联系度, 其余可类推。
表 2 各个例中预报因子X1的同异反分析表 3 预报因子的联系度4. 动态多元回归模型应用效果比较
通过上面一系列的分析处理, 现在可以用多元线性回归模型和最小二乘法, 对表 3的联系度资料作为自变量, 建立新的预报模型。本文称新的回归模型为基于SPA的动态多元回归模型, 简称为动态回归模型, 相应的工作称为动态多元回归分析。
前面的例子中有6个预报因子, 分别为X1~X6。通过一系列的处理, 可得到它们相应的映射, 映射主要应用式 (10) 以及因子的态势判断式 (7) 来进行的。式 (10) 是针对多元回归模型的特点从集对分析的联系度表达式推导而来。如果注意一下前面的推导过程, 不难发现当因子处于强势时, 因子的映射只不过是线性变换; 而当因子处于劣势时, 该因子在模型中的作用已消失, 它的作用已由其它因子取代, 自然这是非线性变换。如果所有因子都是线性变换, 映射并不能使模型的质量有所变化。映射前后因子与预报量的相关系数见表 4, 可见大部分因子的相关系数有了提高。复相关系数和残差平方和, 新模型为0.609和50260.1, 传统多元回归模型为0.514和58765.1, 新模型的复相关系数有了提高, 预报误差则比原模型减少了14.47%, 可见新模型预报能力有了明显提高。
表 4 预报因子映射前后的相关系数比较SPA有两个基本观点:不确定性和确定性可以放在同一个系统中进行分析和处理; 不确定性与确定性在一定条件下可以相互转换。在把SPA应用于多元预报模型的过程中, 本文主要做了两件工作:一是设计了自变量分量态势的判断方法, 用以辨认确定性部分和不确定性部分; 二是推导了适用多元回归分析的联系度表达式, 用以使不确定性转化为确定性。
表 5是以第66号个例所作的分析。根据变异系数判断, 第1因子处于弱势, X1对预报量的估计为12.15, 预报量实况为43, X1的估计比实况明显偏小。由于X1被判别为弱势, 用式 (11) 作非线性映射得到新因子, 新因子是X2, X3, X4, X5和X6的函数, 用新因子计算得到它对预报量的估计为31.07, 新因子的预报值比原因子预报值有了明显提高。其他因子由于并不处于弱势, 它的一元回归值没有变化。原预报模型的预报值为25.0, 动态多元回归模型的预报值为32.6, 它们的预报误差分别为18.0和10.4, 后者比前者减少了误差42.22%。可见通过因子的势态判断、因子的同异反分析和线性非线性变换等一系列处理, 预报误差有了明显减少, 同时也可看到动态多元回归模型对因子处理机制是一般预报方法难以实现的。
表 5 SPA对因子的订正5. 结语
多元回归模型是在城市空气污染预报中应用广泛的一种预测模型, 回归分析对因子的筛选有许多行之有效的方法[10], 而如何合理地使用因子则未引起人们的足够重视。实际上, 合理地选择回归因子和合理地使用因子同样重要。从这个意义上说, 本文给出了一种科学地使用因子的新思路。而在各种各样的预测问题中, 城市空气污染预报是一种典型的复杂的预测问题, 它既含有确定性, 又含有不确定性。根据SPA把不确定性和确定性作为一个动态的同异反确定不确定系统处理的思想, 动态地分析和处理每次预报中因子作用的变化, 效果较为满意, 说明为预报模型增加不确定性处理的能力有助于提高城市空气污染预报准确率[11]。
计量
- 文章访问数: 3668
- HTML全文浏览量: 470
- PDF下载量: 2227