宁小磊, 吴颖霞, 赵新, 赵军民, 张凯, 郝跳锋, 吕梅柏, 胡亚峰, 陈韵. 小样本概率关联度模型研究[J]. 西北工业大学学报, 2022, 40(5): 1164-1171. NING Xiaolei, WU Yingxia, ZHAO Xin, ZHAO Junmin, ZHANG Kai, HAO Tiaofeng, LYU Meibo, HU Yafeng, CHEN Yun. Research on small sample probability relational degree model[J]. Journal of Northwestern Polytechnical University, 2022, 40(5): 1164-1171. 1. 中国华阴兵器试验中心, 陕西 华阴 714200;
2. 西安现代控制技术研究所, 陕西 西安 710065 ;
3. 西北工业大学 航天学院, 陕西 西安 710072 收稿日期: 2021-12-21
基金项目: 国防研究重大项目(16000102351)与基础加强计划重点基础研究项目(2020-JCJQ-ZD-076-00)资助
作者简介: 宁小磊(1985—), 中国华阴兵器试验中心工程师, 主要从事常规兵器试验技术研究.
通讯作者: 赵新(1988-), 中国华阴兵器试验中心工程师, 主要从事常规兵器试验技术研究。e-mail: 273579204@qq.com .
摘要 : 针对小样本条件下多元时间序列之间的关联分析问题, 提出了一种小样本概率关联度模型。使用样本函数或样本统计量代替样本构造累积经验分布函数并计算概率关联系数。当比较序列样本容量 n < 5, 使用样本顺序统计量的经验分布函数计算概率关联系数; 当比较序列样本容量 n ≥5, 使用Bootstrap方法重抽样扩充样本后再构造经验分布函数计算概率关联系数, 改进了概率关联度模型中关联系数的计算方法, 解决了小样本条件下这一类多元数据关联分析问题。证明了小样本概率关联度模型满足的基本性质, 给出了小样本概率关联分析的基本步骤, 仿真案例和实际应用验证了文中模型的正确性和有效性。
关键词 : 数据关联 概率关联度 小样本 多元时间序列 样本统计量

关联分析是发现、查询数据之间关联性或相关性的一种实用分析技术,描述了事物中某些属性同时出现的规律和模式 [ 1 - 2 ] 。关联分析在经济学、军事学、互联网、航空航天及人工智能等领域有着广泛应用 [ 3 - 4 ] ,其中时间序列分析是数据关联分析领域的热点研究内容。

对不同工程背景及应用需求,目前已经提出了多种数据关联分析方法 [ 5 - 6 ] 。文献[ 1 ]提出了一种信息不确定条件下的时间序列关联分析法,解决了时间序列中含有不确定信息时的数据关联分析问题。文献[ 7 ]提出了一种灰色关联分析方法,解决了时间序列曲线相似性关联分析问题。常见的时间序列关联分析方法还有TIC法、相关系数法、误差分析法、EARTH方法等 [ 7 ] ,这些方法操作简单,应用广泛,但主要适用于单样本时间序列之间的分析,不适合工程中经常遇到的多样本(多元)时间序列情况 [ 4 ] 。针对多样本关联分析,文献[ 4 ]提出了一种概率关联度模型和概率关联分析方法,实现了由序列曲线关联向立体面板关联的方法拓展,但计算时需要由比较序列样本构建累积分布函数。实际应用中由于试验抽样的昂贵性、复杂性和困难性等,比较序列在实际情况中常常是小样本数据容量,构建的累积分布函数与真实分布差别一般较大,若直接应用概率关联度模型,关联分析效果较差,严重影响了概率关联度模型的工程应用范围。

针对上述问题,本文提出一种小样本概率关联度模型。使用样本函数或样本统计量代替样本构造累积经验分布函数并计算概率关联系数,发展了概率关联度模型的理论框架。当比较序列样本容量 n < 5时,使用样本函数或样本统计量构建累积分布函数计算概率关联系数;当比较序列样本容量 n ≥5时,使用Bootstrap方法重抽样扩展样本后构建积累分布函数计算概率关联系数,改进了概率关联度模型中关联系数的计算方法,从而提高了概率关联分析的效率。通过仿真案例和实际应用验证了本文方法的正确性和有效性。

1 问题描述与分析

假设有参考序列 x

式中: consistency(·)为一致性分析函数, 也称一致性检验算子, 一般有 C ( x , y )∈[0, 1]。文献[ 4 ]总结分析了目前常见的一致性分析函数consistency(·), 并提出了一种适合多样本时间序列的概率关联算子和概率关联分析方法。

参考序列 x 和比较序列 y 之间的概率关联度计算步骤如下 [ 4 ] :

步骤1 计算 k 时刻概率关联系数 p operator ( k )

式中: F y ( k ) (·)为由比较序列样本 y 1∶ n ( k )确定的累积分布函数; F y ( k ) ( x ( k ))为 x ( k )在累积分布函数 F y ( k ) 中的累积分布函数值; c (·)为概率关联度模型中的综合概率度计算公式, 可取均匀检验结果。

从(4)~(5)式可见, 步骤1中需要由比较序列样本 y 1∶ n ( k )构建累积分布函数 F y ( k ) , 当比较序列 y 1∶ n ( k )样本容量较大时(样本量 n 较大时), 可以构建比较精确的累积分布函数 F y ( k ) , 综合计算得到的概率关联度 p 比较符合实际。当比较序列 y 1∶ n ( k )样本容量较小时, 由比较序列 y 1∶ n ( k )构建的累积分布函数 F y ( k ) 因抽样误差与实际分布函数差距较大, 此时, 若应用综合计算概率关联度 p 进行分析决策风险较大。工程实际中, 由于试验抽样的昂贵性、复杂性和困难性, 经常会遇到小样本情况的比较序列数据, 限制了概率关联度模型的实际应用效果和应用范围。

2 小样本概率关联度模型 2.1 改进思路

综上可知, 小样本条件下概率关联度模型应用遇到的主要问题是: 比较序列 y 1∶ n ( k )样本容量 n 有限, 基于比较序列样本 y 1∶ n ( k )不容易构建精确的累积分布函数 F y ( k ) , 导致概率关联度模型使用效果较差。解决该问题的有效方法是使用小样本比较序列 y 1∶ n ( k )构建满足要求的累积分布函数 F y ( k )

Bootstrap方法是Efron于1979年提出的一种逼近复杂系统统计量估计值分布的统计方法 [ 8 ] , 是目前被广泛采用的小样本数据处理方法, 可以用来解决概率关联度模型面临的小样本问题, 即使用Bootstrap方法重抽样扩展样本后构建积累分布函数计算概率关联系数。但通常Bootstrap方法样本容量以 n ≥5较合适 [ 9 - 10 ] , 当 n < 5时, 其计算结果的任意性很大, 构造的经验分布函数和统计效果较差。针对样本容量 n < 5的情况, 文献[ 3 , 9 ]使用了一种样本顺序比率统计量 K , 在样本容量 n < 5的条件下应用效果较好 [ 3 ] , 认为相对于样本总体分布函数或经验分布函数, 使用样本顺序比率统计量 K 分布函数相容性检验效率更高, 可见小子样样本构建样本顺序比率统计量 K 经验分布函数比小子样样本构建样本经验分布函数精度要好。因此, 可以使用样本顺序比率统计量 K 的经验分布函数代替概率关联度模型中的经验分布函数。

2.2 变量函数概率关联度模型改进

文献[ 4 ]提出的概率关联度模型, 使用比较序列样本 y 1∶ n ( k )直接构建经验分布函数, 但样本顺序比率统计量 K 是比较序列样本的函数, 不能直接使用。为了解决该问题, 拓展概率关联度模型的使用范围, 提出了变量函数概率关联度改进模型, 使其能同时应用于样本或样本函数构建经验分布函数。

为便于描述, 首先引入2个引理。

引理1 X 是一连续随机变量, 其分布函数为 F ( X ), 则 F ( X )服从[0, 1]上的均匀分布。

引理2 Y = f ( X )是一连续随机变量, 其分布函数为 F ( f ( X )), 则 F ( f ( X ))服从[0, 1]上的均匀分布。

从上述2个引理可见, 变量或变量函数(变量统计量)均可以代人概率关联度模型中计算概率关联系数, 因此对基本概率关联度模型改进如下:

步骤1 计算 k 时刻概率关联系数 p operator ( k )

式中: f (·)为样本函数或样本统计量, 一般为线性或非线性函数关系式, 根据问题背景灵活选择。

变量函数概率关联度改进模型, 可以采用样本或样本函数构建经验分布函数, 来满足小样本概率关联度模型改进使用需求。

注1:通过上述改进, 概率关联度模型适应性更广, 但需要注意的是, 并不是每一种样本/变量函数 f (·)都可以参与计算概率关联系数, 这是因为函数计算会引入误差, 或者说抽样误差会通过函数计算放大, 所以选择合适的变量函数或样本统计量很关键。(虽然很难, 但仍可以寻找到一些有用统计量, 即样本函数 f (·), 在小样本条件下应用效果较好, 比如文献[ 9 ]找到的样本顺序比率统计量 K 。)

2.3 经验分布函数构造 2.3.1 经验分布函数

x (1), x (2), x (3), …, x ( n )为来自分布函数 F 的随机样本, 其经验分布函数 F n ( x )定义为 [ 11 ]

式中: I [·] 为示性函数; # A 为集合 A 中元素的个数。 F n ( x )为 x 的右函数, 共有 n 个跳跃点, 跳跃度为1/ n , 即 F n ( x i )- F n ( x i -1 )=1/ n , i =1, …, n , 且有 F n (-∞)=0, F n (+∞)=1。

2.3.2 样本容量 n < 5经验分布函数构造

设样本 x =[ x (1), x (2), x (3), …, x ( n +1)](其中1个样本模拟参考序列样本, 其他样本模拟比较序列样本), 对样本按自小至大顺序排列, 得到样本顺序统计量 x ′=[ x (1) , x (2) , x (3) , …, x ( n +1) ], 则样本顺序比率统计量 K ijk =( x ( j ) - x ( i ) )/( x ( k ) - x ( i ) ), 1≤ i < j < k n +1, 0≤ K ijk ≤1。

n =2时, 有1个统计量 K 123 =( x (2) - x (1) )/( x (3) - x (1) ), 且0≤ K 123 ≤1, 对于样本 x 来自总体 X ~ N ( μ , σ 2 ), K 123 的累积分布函数为 [ 3 , 9 ]

对于样本 x 来自其他形式的情况, K 123 的累积分布函数见文献[ 9 , 12 ]。当 n =3时, 有 C 4 3 =4个统计量, 分别为 K 123 , K 124 , K 134 , K 234 ; 当 n =4时, 有 C 5 3 =10个统计量, 分别为 K 123 , K 124 , K 125 , K 134 , K 135 , K 145 , K 234 , K 235 , K 245 , K 345 ; 当 n =5时, 有 C 6 3 =20个统计量, 分别为 K 123 , K 124 , K 125 , K 126 , K 134 K 135 , K 136 , K 145 , K 146 , K 156 , K 234 , K 235 , K 236 , K 245 , K 246 , K 256 , K 345 , K 346 , K 356 , K 456 。对于样本量 n =3, 4等情况或 n 更大时, 无法给出 K ijk 的具体理论分布解析式, 但可以采用数值模拟方法 [ 3 ] 得到 K ijk 的累积分布函数, 然后计算参考样本在其中的函数值,得到概率关联系数。

2.3.3 样本容量 n ≥5经验分布函数构造 2.3.3.1 经典Bootstrap方法步骤

步骤1 观测样本 x =[ x (1), x (2), …, x ( n )]的值为有限的总体样本, 把 n 个样本按值自小至大顺序编号排列, 可得到样本的顺序统计量 x ′=[ x (1) , x (2) , …, x ( n ) ], 式中 x (1) =min( x ( i )), x (2) =second smallest( x ( i )), …, x ( n ) =max( x ( i )),其中, i =1, 2, …, n 。用最简洁算法得 i 处的累积概率分布函数值为 , 由此可构造原始样本的累积经验分布函数为

步骤2 根据原始样本的累积经验分布函数, 得到 N 组随机抽样集合 x k =( x 1 k , x 2 k , …, x n k ), 其中, k =1, 2, …, N , x k 称为Bootstrap样本, 或自助样本。

步骤3 设参数 θ 是总体的一个未知参数, F n ( x )是由样本得到的累积经验分布函数(样本量为 n ), 直接可由 F n ( x )得到未知参数 θ 的估计 , 这种直接估计的估计误差 T n 可表示为

根据统计理论, 用 T n k 分布逼近 T n 分布, 当得到大量 θ ( F )样本后, 运用这些样本即可统计求出参数 θ 估计值的分布及其特征值。

2.3.3.2 Bootstrap方法改进

Bootstrap方法通过大量再生子样进行统计推断, 缓解了小样本问题, 但经典的Bootstrap方法的采样方式具有一定局限性, 主要是: ①样本的累积经验分布函数将样本的取值范围限制在[ x (1) x ( n ) ]中, 且样本的取值是离散的, 对于连续取值的变量无法获取样本点之外的信息。②从公式(10)可见, 当 i = n x = x ( n ) 时, 有 p n =1, 但理论上应是当 n →∞, 才有 p n =1;同理 x = x (1) , 有 p n =0, 但理论上应是当 x →-∞, 有 p n =0。 图 1 给出不同样本构造的经验分布函数及真实分布函数对比。为了普适性应用概率关联度模型, 对基本Bootstrap方法进行修正, 改进的主要思路是:

1) 使用样条函数代替原经验分布函数构造使用的阶跃连接, 从而解决了对于连续取值的变量无法获取样本点之外的信息问题。

2) 根据DKW(Dvoretzky-Kiefer-Wolfowitz)不等式, 对经验分布函数的尾概率进行了刻画, 由DKW不等式 得到 , 使用min( F n ( x (1) )+ ε n , F n ( x (2) )) 左平滑计算 F n ( x ), 解决 x = X (1) , 有 p n =0的问题; 使用max( F n ( x ( n ) )- ε n , F n ( x ( n -1) ))右平滑计算 F n ( x ), 解决 x = x ( n ) , 有 p n =1的问题。

2.4 小样本概率关联度模型

按照以下步骤计算参考序列 x 和比较序列 y 之间的小样本概率关联度。

步骤1 计算 k 时刻概率关联系数 p operator ( k )

2.5 小样本概率关联度模型的基本性质

性质1 小样本概率关联度具有以下基本性质。

1) 规范性, 即0≤ p ( x , y )≤1;

2) 整体性, 对于不同的相关因素序列 x i , x j , 一般有 p ( x i , x j )≠ p ( x j , x i ), i j ;

3) 可比性和唯一性;

4) 干扰因素独立性。

性质2 概率关联度不满足偶对称性, 即 χ ={ x , y }, 有 p ( x , y )≠ p ( y , x )。

性质3 概率关联度模型不满足数乘变换一致性和平移变换一致性。

3 适用于小样本问题的概率关联分析步骤

步骤1 在相同初始条件下, 分别得到参考序列 x 和比较序列 y

式中: m 为参考序列 x 1∶ m ( k )样本容量, n 为比较序列 y 1∶ n ( k )样本容量,此处可以使用矩阵型概率关联度模型 [ 4 ]

步骤2 对参考序列 x 和比较序列 y 进行预处理, 使其满足等步长、等长度的数据序列要求。

步骤3 计算 k 时刻概率关联系数 p operator ( k )

1) 当 y 1∶ n ( k )样本容量 n < 5时

① 构建样本顺序比率统计量 K ijk =( x ( j ) - x ( i ) )/( x ( k ) - x ( i ) ), 1≤ i < j < k n +1, 0≤ K ijk ≤1, 并基于样本估计 K 的经验分布函数 F y 1 n ( K )。

② 将参考样本 x ( k )带入经验分布函数 F y 1 n ( K )计算累积分布函数值, 得到关联关联系数 p operator ( k )。

2) 当 y 1∶ n ( k )样本容量 n ≥5时

① 对比较样本 y 1∶ n ( k )使用Bootstrap方法进行重抽样得到重抽样样本 y 1∶ n ( k ), 根据重抽样样本 y 1∶ n ( k )估计 y 的经验分布函数 F y 1 n ( y )。

② 将参考样本 x ( k )带入经验分布函数 F y 1 n ( K )计算累积分布函数值, 得到关联系数 p operator ( k )。

步骤4 决策。检验 p operator 在一定置信水平 α 下是否服从[0, 1]上的均匀分布。若通过检验, 说明通过关联分析。否则, 未通过概率关联分析。

4 仿真测试与分析

通过几个仿真测试案例验证本文改进模型的正确性和有效性, 仿真案例分别测试样本容量 n =2( K ijk 有具体理论分布解析式)、 n =3( K ijk 没有具体理论分布解析式)和样本容量 n ≥5时(Bootstrap方法改进)的应用场景。

仿真1 参考时间序列 X 和比较时间序列 Y 为:

仿真4 参考时间序列 X 1×10 和比较时间序列 Y 2×10 均来自正态分布 N (0, 1), 检验参考时间序列 X 1×10 和比较时间序列 Y 2×10 的一致性。分别采用概率关联分析 [ 4 ] 和本文改进的小样本概率关联分析进行检验, 验证本文所提方法的有效性, 共进行10 000次蒙特卡洛实验。很显然, 由于 X 1×10 Y 2×10 均来自正态分布 N (0, 1), X 1×10 Y 2×10 是一致的, 检验结果应为: H =0。定义误检率 为检验方法的评价指标, T 为实验总次数。运行10 000次蒙特卡洛实验后的误检率分别为: 本文改进的小样本概率关联分析方法的误检率 τ 1 =0.199 8、概率关联分析方法的误检率 τ 2 =0.472 5, 可见本文方法的误检率明显低于概率关联分析方法, 说明本文方法的有效性。

5 弹道一致性检验应用

炮射导弹是由坦克炮发射的一种精确制导武器,提高了坦克炮的远距离精确打击能力。研究不同状态下炮射导弹的弹道一致性有利于部队训练使用。由于炮射导弹价格的昂贵性,现场试验组织的复杂性,现场飞行试验样本容量一般为小子样。假设高原、平原2种状态下试验数据如表 3所示,根据炮射导弹的弹道特征 [ 13 ] ,选择了3个典型弹道特征点(第一波谷、第一波峰、平稳点)进行一致性检验。

表 1 试验数据 高亮, 孙卫, 朱荣昌. 信息不确定条件下时间序列的关联分析法[J]. 西安交通大学学报, 2010, 44(6): 67-71.
GAO Liang, SUN Wei, ZHU Rongchang. A relational analysis approach of time series with uncertain information[J]. Journal of Xi'an Jiaotong University, 2010, 44(6): 67-71. (in Chinese) 张培忠. 制导炸弹仿真试验技术[M]. 北京: 国防工业出版社, 2019.
ZHANG Peizhong. Guided bomb simulation test technology[M]. Beijing: National Defense Industry Press, 2019. (in Chinese) 张领科, 赵峰, 余永刚. 一种小子样情况下的弹道一致性评定方法[J]. 兵工学报, 2014, 35(12): 2124-2128.
ZHANG Lingke, ZHAO Feng, YU Yonggang. An evaluation method of ballistic consistency under small sample circumstance[J]. Acta Armamentarii, 2014, 35(12): 2124-2128. (in Chinese) 宁小磊, 赵新, 吴颖霞, 等. 基于概率关联分析的仿真模型验证方法研究[J]. 西北工业大学学报, 2021: 39.
NING Xiaolei, ZHAO Xin, WU Yingxia, et al. Research on simulation model validation based on probability relational analysis[J]. Northwestern Polytechnical University, 2021: 39. (in Chinese) 林圣琳, 李伟, 杨明, 等. 考虑相关性的多元输出仿真模型验证方法[J]. 自动化学报, 2019, 45(9): 1666-1678.
LIN Shenglin, LI Wei, YANG Ming, et al. Multivariate validation method under correlation for simulation model[J]. Acta Automatica Sinica, 2019, 45(9): 1666-1678. (in Chinese) 李伟, 焦松, 陆凌云, 等. 基于特征差异的仿真模型验证及选择方法[J]. 自动化学报, 2014, 40(10): 2134-2144.
LI Wei, JIAO Song, LU Lingyun, et al. Validation and selection of simulation model based on the feature differences[J]. Acta Automatica Sinica, 2014, 40(10): 2134-2144. (in Chinese) 胡玉伟, 马萍, 杨明, 等. 基于改进灰色关联分析的仿真数据综合一致性检验方法[J]. 北京理工大学学报, 2013, 33(7): 711-715.
HU Yuwei, MA Ping, YANG Ming, et al. A comprehensive consistency test method based on improved grey relational analysis for simulation results[J]. Journal of Beijing Institute of Technology, 2013, 33(7): 711-715. (in Chinese) EFRON B. Bootstrap methods[J]. The Annuals of Statistics, 1979, 7(1): 1-26. 唐雪梅. 小样本场合下相容性检验方法[J]. 系统工程与电子技术, 2001, 23(10): 66-68.
TANG Xuemei. Consistency test methods in small sample situation[J]. Systems Engineering and Electronics, 2001, 23(10): 66-68. (in Chinese) 徐颖强, 陈仙亮, 曹栋波. 样本量为2的极小样本相容性检验方法[J]. 航空学报, 2018, 39(5): 221936.
XU Yingqiang, CHEN Xianliang, CAO Dongbo. Compatibility test method in minimal samples situation with two samples[J]. Acta Aeronauticaet Astronautica Sinica, 2018, 39(5): 221936. (in Chinese) 杨振海, 程维虎, 张军舰. 拟合优度检验[M]. 北京: 科学出版社, 2011.
YANG Zhenhai, CHENG Weihu, ZHANG Junjian. Goodness of fit test[M]. Beijing: Science Press, 2011. (in Chinese) 唐雪梅, 张金槐, 邵凤昌, 等. 武器装备小子样试验分析与评估[M]. 北京: 国防工业出版社, 2001.
TANG Xuemei, ZHANG Jinhuai, SHAO Fengchang, et al. Test analysis and evaluation of weapon systems in samll-sample circumstance[M]. Beijing: National Defense Industry Press, 2001. (in Chinese) 邱荣剑, 张永录. 驾束制导导弹仿真系统的可信度评估[J]. 装备制造技术, 2011(2): 27-28.
QIU Rongjian, ZHANG Yonglu. Trustworthiness assessment of beam ride missile simulation system[J]. Equipment Manufactring Technology, 2011(2): 27-28. (in Chinese) 1. China Huayin Ordnance Test Center, Huayin 714200, China;
2. Xi'an Modern Control Technology Research Institute, Xi'an 710065, China ;
3. School of Astronautics, Northwestern Polytechnical University, Xi'an 710072, China Abstract : The probability degree model is suitable for correlation analysis between multivariate time series, but its application effect is poor under the small sample condition. An improved probability degree model for small sample problem is proposed in this paper. Firstly, by using sample function or sample statistics instead of samples to construct cumulative empirical distribution function and calculate probability correlation coefficient, the framework of probability correlation degree model is developed and expanded. Secondly, the calculation method of correlation coefficient in the original model of probability correlation degree is improved. For the problem of sample size n < 5, the empirical distribution function of sample order statistics is used to calculate the probability correlation coefficient; For the problem of comparison sequence sample size n ≥5, the Bootstrap method is used to resample to construct the empirical distribution function to calculate the probability correlation coefficient. Thus, the problem of dynamic multivariate data association analysis under the condition of small samples is solved. It is proved that the small sample probability correlation degree model satisfies the correlation theorem and its basic properties. The basic steps of small sample probabilistic correlation analysis are given. At last simulation cases and practical application verify the rationality and effectiveness of the model and method.
Keywords : data association probability correlation degree small samples multivariate time series sample statistics
NING Xiaolei, WU Yingxia, ZHAO Xin, ZHAO Junmin, ZHANG Kai, HAO Tiaofeng, LYU Meibo, HU Yafeng, CHEN Yun
小样本概率关联度模型研究
Research on small sample probability relational degree model
西北工业大学学报, 2022, 40(5): 1164-1171.
Journal of Northwestern Polytechnical University, 2022, 40(5): 1164-1171.