国家气象中心T213L31数值预报运行监控方案及预报效果评估
T213L31 OPERATION SCHEME AND FORECAST EFFECT EVALUATION IN NATIONAL METEOROLOGICAL CENTER OF CHINA
-
摘要: T213L31系统是我国新一代中期数值预报业务系统,该文介绍了该系统的实时业务运行流程,着重阐述了实时运行监控方法的设计和实施。通过对整个运行流程的解析、运行相关信息和异常事件的说明以及功能的介绍,使读者可以对T213L31运行监控和维护方法有一个较完整的认识。文章还对T213L31系统准业务和业务运行期间的预报效果进行了较为全面的检验与评估,结果显示:T213系统较国家气象中心的原数值预报业务系统T106L19的预报效果有了明显改进,可用预报时效延长了约1天。但与世界领先的ECMWF的中期数值预报产品相比还存在一定差距,特别是中期时效的预报差距比较明显,还有待于进一步的改进和提高。Abstract: T213L31 is the new medium-range numerical weather forecast operational system in China. The operational suite of T213L31 was introduced. It elaborated the scheme that how to monitor the real time system. The operations analysis of T213L31 entire sequence and the introduction of functions, interruption events and related running information make readers have a more complete knowledge complete knowledge of T213L31 in operation in National Meteorological Center of China. The forecasting effect of T213L31 after comprehensive verifications during quasioperation and operation in NMC was evaluated. The result shows that forecasting effect of the T213L31 operational system has an obvious improvement that the original operational system T106L19 in NMC. The valid forecast day was prolonged about 1 day. But comparing with ECMWF forecast, there is still a certain gap, especially in the valid forecast day of medium-range weather forecast. It will be improved and developed further in the future.
-
Keywords:
- T213L31 /
- Operational system /
- Operation monitoring /
- Verification /
- Evaluation
-
引言
国家气象中心的数值预报业务系统按照模式预报范围可以分为全球模式和区域模式,按照预报时效可以分为中期预报系统和短期预报系统。在整个数值预报业务系统中,全球中期预报系统占据着极其重要的位置,是整个数值预报业务的核心,不仅提供全球同化和中期数值天气预报产品,还为各种区域模式提供侧边界和初估场数据,其预报效果及运行稳定性直接或间接地影响着区域模式系统的运行和预报效果。T213L31数值预报业务系统是国家气象中心数值预报室在引进的欧洲中期天气预报中心IFS (Integrated Forecasting System) 模式框架基础上,经过移植改造和自行开发与其匹配的最优插值 (OI) 资料分析同化方案、模式后处理方案、大规模并行机环境下的自动化运行流程及作业监控方案等,所形成的我国新一代全球中期数值预报业务系统①。该系统在与原业务系统T106L19进行了9个月的平行试验以后,于2002年3月投入准业务运行,9月投入正式业务运行,其预报作为指导产品开始向全国气象台站下发,替代了原业务系统T106L19。
T213L31系统是建立在国家气象中心的网络架构和计算平台上,作为一个全球中期的天气预报模式,其运算规模大,对计算和存储的需求很严格; 作为一个完整的预报体系,从观测资料的检索到预报产品的分发,其中间环节众多; 作为整个数值预报业务的核心和一个实时业务系统,对于各种预报产品的时效性和正确性都有较严格的要求。因此要保障T213L31业务系统的正常运行,必须对整个运行过程实施有效的监控管理,在无人值守的运行过程中能够记录运行状态和运行过程中的故障,并通过控制台消息机制及时与维护人员取得联系。与此同时,作为一个新的数值预报业务系统,其产品与原有产品及国际同类产品的比较也是一个极为重要、倍受关注的问题,即需要我们对T213L31的预报进行较全面的检验和综合评估。本文的工作正涉及上述两个重要方面的内容,将就T213L31数值预报运行监控方案及对T213L31准业务运行和业务运行预报效果的跟踪检验评估作一个比较详细的介绍。
1. T213L31业务系统的主要流程
图 1为T213L31系统业务流程示意图。由图可以看到,T213L31数值天气预报系统每天对00:00,06:00,12:00,18:00 UTC 4个时次的观测资料做分析同化滚动处理[1],并在00:00 UTC进行72h的预报,在12:00 UTC进行240h的预报①;主要的解算发生在两次预报过程中,是我们监控管理的重点,一次是在北京时11:15开始到14:45结束; 另一次是在北京时24:05开始到05:00结束。另外两个时次主要完成资料的6h分析同化滚动[1],解算规模较小,运行时间不长,但资料滚动的正确与否直接关系到下个时次的运行,因此也是监控管理不可忽视的部分。
①国家气象中心数值预报室.T213L31中期预报业务系统的研制和试验报告.见:T 213系统准业务运行验收主要技术文件 (内部资料).2002.
整个系统工作过程可以分为资料检索、客观分析、6h同化、模式预报运算、预报结果压缩入库及产品制作等6个主要的子过程①。每个子过程之间存在着严格的顺序依存关系,在不同处理过程的内部,采用了不同的并行处理方法,有作业的并行调度、Open MP (Open Multi Processing) 和MPI (Message Passing Interface) 的并行运算。
2. 运行监控
对T213业务系统运行的监控是通过对整个业务系统流程的解析,在每个过程中设置若干状态探测检查点,将监控系统嵌入到业务运行流程中,通过事件触发的方式向message console发送警报事件,并传递事件参数,根据事件参数选定预定义的事件信息,送达显示终端并激发蜂鸣。总体监控流程示意图见图 2。
2.1 对T213业务系统总体运行控制的设计
T213业务系统的整体运行是利用操作系统的定时机制和队列系统,将每天4个时次的运行作业合理分布在不同的时段,通过时钟触发完成主循环过程。整个运行采用单模块多数据的方式,通过配置不同时间来完成不同时次的运行,这样大大减少了脚本程序的数量,也有利于对程序的修改。对于时间的配置是由系统自动识别和更新的,人工的更新提供了对系统restart的功能。除了对时间的配置外,还提供了一系列有关整体运行控制的参数配置项目,通过简单的人工或自动的编辑更新程序,来完成灵活的流程控制。主要的配置项目包括:对于数据输入/输出节点的选择,报警开关,产品时间,对归档服务器地址的设定,对归档目录、时间的设定①。
对一次典型的数值预报业务启动运行过程,每一个过程数据输入和输出两个端口都实施了必要的检查,以确保数据运算的匹配性; 每个过程的转换事件都将记录到系统运行trace文件中; 同时能够捕获过程内部主要执行模块的运行异常事件[2],实施一定的故障处理并向控制台发送消息。
2.2 作业运行信息的采集
2.2.1 有关监控信息的种类①
·操作系统提供的基本信息:时间,节点名称,文件系统名称及状态,进程状态,网络连通性,磁盘空间等
· T213系统运行的输出信息:运行时间,时次,运行节点名称,模式积分运行过程输出,部分结果落地文件等
· IBM-SP作业系统的输出信息:计算节点状态,作业队列号,作业状态,并行作业的节点名称等
2.2.2 监控信息的采集方法
·在命令行直接使用Unix系统shell command[2]
·通过Script脚本程序定时采集相关信息
·在业务系统流程中加入格式化的输出语句,完成有关运行过程信息的采集
·在业务系统主要运行模块中加入对异常事件的捕获[2]
·在业务系统的输出中抽取有用的信息
2.2.3 业务运行相关信息的具体内容
业务系统运行启动时间; 要素库检索标志; 相关文件系统可用空间; SP计算节点状态; 系统运行相关配置文件 (时间,时次,控制开关等); 提交作业的作业号; 作业队列状态; 主要作业步开始、结束时间; 主要执行模块的执行状态; 预定义的事件; 并行作业的运行节点名; 模式运行的时间 (每一步的CPU时间,墙钟时间); 产品 (格点报文,Grib, Micaps) 生成时间,其中Micaps精确到部分要素; 归档主机及目录、归档资料的时间等。
2.2.4 所涉及的主要异常事件:
(1) 有关操作系统,硬件环境方面的异常事件有:文件传输连通性; 文件系统可用空间; 计算资源是否满足; NFS (Network File System) 可用性。
(2) 有关业务系统运行过程中软环境异常事件:要素库资料检索是否成功; 各要素库资料日期、时次是否匹配; AOF (Analyse Observation File) 观测资料生成是否正确; 分析是否出现病态矩阵现象; 模式积分是否出现异常现象; 后处理的每一个时效是否成功; 每一个时效的格点报文产品生产是否成功; 每一个时效的Grib压缩格式产品是否成功; Micaps各要素产品生产是否成功; 每个主要过程中重要的中间数据是否生成。
2.3 功能介绍
T213数值预报业务系统的结构复杂,引起整个业务系统运行异常的原因多种多样,通过对业务监控方案的开发和实施大大提高了运行的稳定性。异常状况下的报警不仅使系统故障得到及时地处理,维护人员还可以通过对报警信息的查询判断故障的位置和性质。该系统主要实现了以下几个功能:
(1) 运行资源管理主要是在运行启动前对系统环境,用户环境的资源检查,它是整个业务系统运行的基础,包括:计算节点CPU是否正常,空闲节点的个数,文件系统的状态,初始数据的准备情况,运行所需的目录是否创建等等。如果发现有异常的状况,系统会做必要的调整和处理,对于需要系统管理员干预的事件,它会及时报告到控制台。
(2) 运行数据管理主要涉及在系统运行过程中产生数据的分类和管理。T213业务系统每天产生多达几十个Giga By te的数据,在这些数据中根据其重要性的不同,产生数据所需解算时间的不同和便于故障恢复等各种因素来确定其存放的文件系统和保留时间长短。对分析、模式、后处理、产品等不同过程产生的结果进行分类管理便于查询和使用。
(3) 运行状态查询通过运行状态查询可以查询到系统正在运行的过程,由于模式积分过程是整个系统主要的计算过程,因此在这部分还可以查询到模式积分的情况,按照积分步长给出CPU、墙钟时间的统计。
(4) 运行日志管理Trace文件用于保存每日运行概况,采用追加方式,以便对于历史运行概况的查询。每个作业步的标准输出文件是每日更新的,用于具体的查询,在运行异常的情况下,还保留了当时的状态信息,环境信息,标准输出和错误文件,这一部分的信息文件都以时间为后缀,直到技术人员查错后才能清除,系统不自动清除。
(5) 运行故障警报及处理作为一个实时业务系统,时效性是主要考虑的因素之一,我们在业务运行的主要过程中:分析预处理、分析、模式、后处理、产品等都加入了运行异常的报警,以便能够及时通知维护人员进行处理,同时我们定义了一些典型错误的处理方法,使系统在发生异常情况时能够自动进行处理,减少人工干预,并提高运行效率。在自动处理失败或由于某些权限的问题无法进行处理的时候则触动报警。
(6) 数据清理为了保障磁盘空间的可用性,系统在每天都进行一次数据清理工作,根据不同过程中产生的数据量的大小,重要性的程度,故障恢复的需求,科研实验的使用等因素来确定保留时间的长短,对过期的数据进行及时清理以确保实时运行的需求。
3. T213预报效果的统计检验分析与评估
总的来看,T213系统作为新一代的中期数值预报系统比T106有明显改进。以下就2002年1月至2003年8月形势场预报和降水预报两方面来分析比较T213预报效果相对于T106的改进。其中,形势场检验着重于北半球和东亚区域,主要分析常规的500 hPa高度场距平相关系数、均方根误差。降水预报检验主要分析的是全国范围降水的Ts评分和预报偏差。另外,为了解我国与国外数值预报水平的差距,还对2003年6月21日至8月31日T213与EC及日本的中期数值形势预报检验情况作了初步对比与分析。
3.1 距平相关系数
比较2002年1月至2003年8月各月T213与T106的500 hPa高度场距平相关系数月平均值,可以看出,无论北半球还是东亚,基本上T213各时效500 hPa高度场预报的距平相关系数都高于相同时效的T106预报,只有东亚地区4月份的96h和120h500 hPa高度场预报的距平相关系数与T106大致持平 (图 3a,b)。在冬、春季,T213的北半球预报有效预报时效比T106延长了1天多; 即使在夏季,预报有效时效也延长了近1天,对于东亚区来说,也基本上有类似特点,比T106有较明显改进。
从T213、EC和日本中期数值预报的500 hPa高度场距平相关系数逐日变化情况不难发现,对北半球而言,EC模式500 hPa高度预报距平相关系数的逐日变化 (尤其是前3天预报) 比较平稳,表明对不同天气过程均有比较好的预报性能; 距平相关系数随预报时效增加而衰减的比较慢,7天预报仍有比较高的参考价值; 有效预报时效春季大于7天、夏季基本上是7天。与EC模式相比,T213模式逐日预报的稳定性显出较明显的差距,说明T213对不同天气过程的预报性能还是有差别的; 距平相关系数随预报时效增加而衰减的速度也比较快; 有效预报时效在春季是6天、夏季基本上是5天。从70多天的比较看,日本前5天北半球500 hPa高度预报的距平相关系数比T213略高、接近EC的水平。再看东亚地区的情况,各模式对该地区的预报可信度都不如其对北半球的预报。EC模式对东亚地区预报的距平相关系数的逐日变化也不象对北半球那么平稳,随时间演变有明显波动,说明即使是EC的模式要提高对东亚这样复杂地形下的数值预报仍是个难点。虽然如此,相对说来仍以EC对东亚地区的预报可信度最高,T213模式与日本中期模式、特别是与EC模式还存在着差距。图 4可以更清楚地描述EC、日本与T213之间预报可用性的差别。
3.2 均方根误差
比较2002年上半年各月T213与T106的500 hPa高度场均方根误差月平均值 (图 5a、b) 容易看出,无论对东亚还是北半球,与T106相比,T213各时效预报的均方根误差均有不同程度减小,冬、春季减小大于夏季,即T213模式高度预报的改进在冬春季比夏季更明显。T106模式高度预报误差冬季明显大于夏季,T213模式高度预报误差虽然仍是冬季大于夏季,但这种误差的季节差别已减小 (图 5a)。
比较T213、EC和日本中期数值预报的500 hPa高度场均方根误差逐日变化可见,对于北半球,EC预报的均方根误差逐日变化相对比较平稳,有季节差异,但不明显,尤其是3天以内的预报均方根误差量值较小 (3天预报仅为20gpm左右); 相比之下T213与日本的预报均方根误差逐日变化不如EC平稳,二者误差量值比较接近,3天预报均方根误差在30~40 gpm。T213、EC和日本中期数值预报在东亚地区的均方根误差情况与北半球情况基本类似,但三者均方根误差值均有减小,其中EC和T213预报误差值减小比日本预报明显一些。
3.3 降水预报
对小雨的预报,T213模式的Ts评分比T106模式Ts评分高出5~10个百分点 (图 5c),同时预报偏差 (Bias) 略有减小,表明T213对降水落区 (≥0.1 mm) 预报比T106有明显改善,但仍以预报范围略偏大为主要特点。对≥10 mm、25 mm和50 mm的降水预报,T213的Ts评分都比T106的Ts评分高,但同时预报偏差也增大,即T213对较大量级降水预报正确性提高的同时也加大了一定的空报 (图 5d)。
4. T213预报效果的天气学检验分析与评估
4.1 西风指数
从西风指数检验的结果可以看出:T213对未来2~3天内中纬度西风带环流的调整与演变有较强的预报能力,与EC的预报十分接近,优于T106的预报; T213的3~5天预报也能较好地抓住中纬度西风带大的环流调整过程,并基本上能反映西风带环流的一些小变化,明显好于T106的预报,但与EC预报的差距开始出现,在一些环流转折时期的预报不及EC; T213对6天以后中纬度西风带环流的调整与演变的预报能力明显下降,第6天预报还基本能描述大的环流演变趋势,7天以后的西风指数预报与实况出入较大,而EC第7天预报才开始出现与实况较大的偏差。
4.2 夏季西太平洋副高预报
对副高的描述,如:西伸脊点位置、120°E副高北界位置、副高面积、副高中心强度,EC模式和T213模式在初始时刻 (通常称之为0场,即经过初值化后的00时效的场) 就有差别,T213模式描述的副高西伸脊点较EC模式描述的副高西伸脊点偏西,尤其在有南海高压或有大陆高压的时候,但二者对副高进退趋势的描述是一致的; T213模式对120°E处的副高北界的描述常常要比EC模式偏北; T213的0场副高面积比EC的要大; T213的0场副高中心强度也比EC的略强。与预报员手工绘制图比较,对西伸脊点位置的描述,EC模式多偏东,而T213模式则偏西,对西太平洋副高总体分析效果还是EC的0场略好于T213的0场,与预报员的分析更接近一些。
以EC的0场作参照,对副高西伸脊点3天以内的预报,T213模式和EC模式非常相近; 不过4天以后EC对副高西伸脊点的预报与EC的0场更接近一些。T213各时效预报的副高面积,均比自己的0场副高面积偏小,但还是大于EC的0场副高面积; 而EC各时效预报的副高面积,则与自己的0场副高面积很接近。对4天以内副高中心强度的预报,T213模式比EC模式预报略强一些,同时与各自0场比较,T213和EC模式都有预报略偏强的倾向; 而对4天以后副高中心强度的预报系统偏差不明确。总体上看,对西太平洋副高的预报,EC模式比T213模式略好。
4.3 台风
T213模式对48h之内台风的移动变化描述相对较好,72h以后的预报有偏南倾向; 对140°E以东的台风预报偏差较大。与实况比较,T213对台风的预报比EC的预报偏差略大。但对2002年4号台风的预报,T213预报则好于EC的预报 (EC报台风西行登陆,而T213报近海转向),与实况吻合 (图略)。
4.4 降水预报
T213模式对降水落区、雨带位置及强度的预报在国内各种数值预报产品中居领先地位,优于T106和HLAFS; 3天以内的预报有较高的可信度; 但60h以后的雨带位置预报存在系统性偏北现象。此外,从2003年1月~8月T213与德国和日本36h及60h降水预报的全国较大降水过程的天气学对比检验,发现3种预报各有所长:日本对降水落区预报较好,尤其是对我国北方地区的降水预报较好; 德国的降水预报则对中雨的预报范围较好,其60h预报有时甚至会比36h预报好; T213对我国东部降水预报的强度较好,2003年春夏季的暴雨过程,尤其是黄淮、江淮和江南的暴雨过程与实况出现的最大值相近,但日本则对这两个地区的预报明显偏小,暴雨过程的量与实况往往相差1~2个等级。此外,T213的预报对不同地区降水预报存在不同的系统误差,如对青藏高原中南部、华北和江淮的降水预报往往偏大,但对江南和华南的降水预报则偏小。在使用其降水预报产品时要注意加以订正。
5. 结论
数值预报系统作为一个完整的系统,从观测资料的输入到预报结果的输出,要经过众多的数据处理环节,每个环节之间有着严格的顺序依赖关系。每个环节上的问题都将影响整个系统正常运行。而每个环节的命名和内容根据不同的处理方案和技术的采用有着很大的不同。因此在以不同的数值预报模式为基础形成的业务系统中,有着较大的差别,这使整个业务系统变得复杂,不利于管理和维护。T213作为国家气象中心数值预报业务的核心系统,通过对其运行流程和监控的设计开发,提炼其共性的东西,并对技术实现的细节加以屏蔽,使所有的业务系统能够在运行的层面上保持相对的一致,为所有的数值预报运行融合成一个整体提供了经验,从而大大简化数值预报运行的复杂性,提高了运行效率。从统计学检验和天气学检验还可以得到下述结论:
(1) T213形势场预报明显好于T106预报,预报可用时效延长了1天,天气系统描述较合理细致,对日常业务预报有较好的指导作用。
(2) T213的降水落区、雨带位置和强度预报比T106均有显著改进,对各级降水预报Ts评分也有较大提高,但相应的预报偏差加大,尤其是大量级降水的预报面积明显大于实况。
(3) T213的形势场预报较同类国外数值预报产品如EC及日本的形势场预报还有一定的差距,特别是与ECMWF中期时效的预报相比,性能还不够稳定,偏差还较大,对部分极端天气形势的预报还有一定的欠缺。
(4) 在降水预报方面,T213L31的产品与同类国外数值预报产品比较各有优势,日本模式的晴雨预报或者说降水落区预报较好,德国模式60h降水中心位置和雨带预报参考性能较好,T213L31对我国东部的大范围强降水预报较好,使用时可综合3家的预报优点做日常业务预报。
(5) T213的2m温度预报较实况偏差较大,表现为明显的系统性负偏差,具体原因有待进一步分析研究。
-
IBM Research, Inc.AIX Version 4.3 Base Operating System and Extensions Technical Reference, Volume 1.IBM publication SC23-4159, 1999.
颜宏, 杨学胜, 皇甫雪官等编译.资料同化和中期数值预报.北京:气象出版社, 1991.