优化的异常值分析
使用从输入数据特征中派生的参数来执行
聚类和异常值分析 (Anselin Local Moran's I)
工具。数码相机的自动设置根据光线以及拍摄主体与背景对比度的读数来确定合适的光圈、快门速度和焦点,与此类似,
优化的异常值分析
工具对数据进行查询,从而获得产生最佳分析结果的设置。例如,如果
输入要素
数据集包含事件点数据,则该工具会将事件点聚合到加权要素。通过使用加权要素的分布,此工具可确定适当的分析范围。
输出要素
中报告的分类类型将使用
错误发现率 (FDR) 校正法
自动校正
多重测试
与
空间依赖性
。
在工具执行期间,此工具为给您带来最佳结果而做出的每个决策都将以消息形式报告,并在下方记录对这些决策的说明。
照相机具有可用于覆盖自动设置的手动模式,与此类似,
聚类和异常值分析 (Anselin Local Moran's I)
工具允许您完全控制所有参数选项。运行
优化的异常值分析
工具并记录其使用的参数设置有助于优化您提供的用于完全控制
聚类和异常值分析 (Anselin Local Moran's I)
工具的参数。
优化的异常值分析
工具的工作流包括以下部分。下面将介绍各部分使用的计算和算法。
初始数据评估
此部分将仔细检查
输入要素
和可选的
分析字段
、
限定可能发生事件的区域的边界面
以及
事件数据聚合方法
,以确保要分析的数值具有足够的要素和充足的变差。如果工具遇到几何已损坏或缺少几何的记录,或在已指定
分析字段
并存在空值的情况下,相关记录将作为错误记录列出,而且不会对其进行分析。
优化的异常值分析
工具使用 Anselin Local Moran's I 统计,与许多统计方法类似,当要素数小于 30 时结果不可靠。如果提供面
输入要素
或点
输入要素
和一个
分析字段
,则至少需要拥有 30 个要素才能使用此工具。
事件点聚合面
的最小数量也为 30。表示
限定可能发生事件的区域的边界面
要素图层可能包含一个或多个面。
Anselin Local Moran's I 统计还要求值与其分析的每个要素相关联。如果您提供的
输入要素
表示事件数据(在没有提供
分析字段
的情况下),此工具将对事件进行聚合,而事件计数将作为要分析的值。聚合过程完成后,仍必须存在至少 30 个要素,对于事件数据,也需要超过 30 个要素才能开始聚合。下表记录了每个
事件数据聚合方法
的最小要素数:
最小事件数
|
聚合方法
|
聚合后的最小要素数
|
60
|
在渔网格网内计数事件
并
在六边形格网内计数事件
,未指定
定义事件潜在发生位置的边界面
|
30
|
30
|
在渔网格网内计数事件
并
在六边形格网内计数事件
,在为
定义事件潜在发生位置的边界面
参数提供要素类时
|
30
|
30
|
在聚合面内计数事件
|
30
|
60
|
捕捉附近事件以创建加权点
|
30
|
Anselin Local Moran's I 统计也可专门用于包含各种不同值的
分析字段
。例如,此统计不适用于二进制数据。
优化的异常值分析
工具将检查
分析字段
以确保这些值至少具有一些变差。
位置异常值是指相比于数据集中的大多数要素,其与邻近要素的距离要远得多的要素。设想这样一种城市环境:中心是人口密集的大型城市,周边是人口密度较低的小型城市。在计算这些城市的平均最近邻距离时您会发现,如果排除周边的位置异常值并且只考虑靠近城区中心的城市,计算结果会比较小。此示例说明了位置异常值是如何对空间统计(如
平均最近邻
)
造成巨大影响的。由于
优化的异常值分析
工具使用平均和中位最近邻计算来进行聚合并确定相应的分析范围,此工具的初始数据评估组件也将识别
输入要素
或
事件点聚合面
中的任何位置异常值,并将报告其遇到的异常值数。为此,此工具将计算每个要素的平均最近邻距离并评估所有这些距离的分布。将那些与最近的非重合邻近要素距离超过三个标准差距离的要素视为位置异常值。
事件聚合
工作流中的下一部分将聚合事件数据。根据您选择的
事件数据聚合方法
,有三种可能的方法。下面将介绍每种方法的算法。
-
在渔网格网内计数事件
或
在六边形格网内计数事件
:
-
折叠重合点时将导致在数据集中的每个唯一位置生成单个点,使用的方法与
收集事件
工具所采用的方法相同。
-
将 N 个
输入要素
的密度与基于
输入要素
最小边界面的 N 个随机要素的密度进行比较(使用测地线米数)。计算在给定的最小边界面中 N 个随机点的平均最近邻距离。如果随机要素分布的平均最近邻距离的两倍值比最大研究区域范围除以 100 的值还要低,则认为此数据集比较密集,且所使用的格网
像元大小
距离为最大范围除以 100。
-
如果使用上述方测得的数据集不密集,那么使用的
像元大小
距离为平均或中位最近邻距离中较大值的两倍。所有唯一位置点(位置异常值除外)的平均最近邻距离 (ANN) 的计算方法是用每个要素与最近邻要素间的距离之和除以要素数量 (N)。中位最近邻距离 (MNN) 的计算方法是将最近邻距离按从小到大进行排序,然后选择位于排序列表中间位置的距离(位置异常值除外)。两者中较大的距离(ANN 或 MNN)乘以 2 就是格网
像元大小
的距离。
-
使用优化后的
像元大小
构建渔网面或六边形面格网,并使用事件点叠加格网。
-
计算每个面像元中的事件点数量。
-
如果提供
限定可能发生事件的区域的边界面
,则边界面中所有的面像元都将得到保留。如果不提供
限定可能发生事件的区域的边界面
,将移除不含事件的面像元。
-
如果聚合过程产生的面像元少于 30 个,或所有面像元的计数都是相同的,您将收到一条消息,提示您所提供的
输入要素
不适用于所选的
事件数据聚合方法
;反之,此方法的聚合部分将成功完成。
-
在聚合面内计数事件
:
-
此
事件数据聚合方法
需要
事件点聚合面
要素图层。这些聚合面将叠加事件点。
-
对每个面中的事件进行计数。
-
确保事件计数中具有足够的变差以进行分析。如果聚合过程导致所有面都具有相同数量的事件,您将收到一条消息,指示您数据不适用于所选的
事件数据聚合方法
。
-
捕捉附近事件以创建加权点
:
-
折叠重合点时将导致在数据集中的每个唯一位置生成单个点,使用的方法与
收集事件
工具所采用的方法相同。对唯一位置 (UL) 要素的数量进行计数。
-
计算所有唯一位置点(位置异常值除外)的平均和中位最近邻距离。平均最近邻距离 (ANN) 的计算方法是用每个要素与最近邻要素间的距离之和除以要素数量 (N)。中位最近邻距离 (MNN) 的计算方法是将最近邻距离按从小到大进行排序,然后选择位于排序列表中间位置的距离。
-
将初始捕捉距离 (SD) 设置为 ANN 或 MNN 中的较小者。
-
调整捕捉距离以容纳重合点。标量 = (UL/N),其中 N 是
输入要素
图层中的要素数。调整后的捕捉距离变为 SD * 标量。
-
通过三次迭代来
集成
事件点,首先用调整后的捕捉距离乘以 0.10,然后用调整后的捕捉距离乘以 0.25,最后与完全调整的捕捉距离相集成。分三次执行集成步骤可最大程度地减少起始点位置的变形。
-
折叠捕捉点将导致在每个位置生成单个点,并使用权重来表示一起捕捉到的事件点数量。聚合过程的这部分使用
收集事件
方法。
-
如果聚合过程产生的加权点少于 30 个,或所有点的计数都是相同的,您将收到一条消息,提示您所提供的
输入要素
不适用于所选的
事件数据聚合方法
;反之,此方法的聚合部分将成功完成。
分析范围
优化的异常值分析
工作流的下一部分将应用到加权要素,因为您提供了含有
分析字段
的
输入要素
,或因为
事件数据聚合方法
已通过事件计数创建权重。下一步是确定合适的分析范围。理想的分析范围是与您所提问题的范围相匹配的距离(例如,如果您正在寻找疾病暴发的聚类和异常值区域,并知晓蚊虫传病媒介的范围是 10 英里,则使用 10 英里的距离最为合适)。如果无法判定用作分析范围的任何特定距离,则可通过一些策略来帮助解决这一问题。
优化的异常值分析
工具采用了这些策略。
尝试的第一个策略是
增量空间自相关
。当看到地表上的空间聚类时,您将看到正在进行的基础空间过程。
增量空间自相关
工具为一系列增大的距离执行
Global Moran's I 统计量
,同时测量各距离空间聚类的程度。计算增量空间自相关中使用的开始和增量距离不包括位置异常值。聚类的程度由返回的
z 得分
确定。通常情况下,距离的增大(z 得分也增大)表示聚类增强。但是,对于某些特定距离,z 得分通常为峰值。峰值反映促进空间过程聚类最明显的距离。
优化的异常值分析
工具使用
增量空间自相关
来寻找峰值距离。如果找到峰值距离,该距离将成为分析范围。如果找到多个峰值距离,将选择第一个峰值距离。
如果没有找到峰值距离,
优化的异常值分析
将检查要素的空间分布,并计算可为每个要素生成 K 个近邻的平均距离。K 的计算方法为 0.05 * N,其中 N 是
输入要素
图层中的要素数。将对 K 进行调整,使其永不小于 3 或大于 30。如果可产生 K 个近邻的平均距离超过一个
标准距离
,分析范围将设置为一个标准距离;否则,分析范围将反映 K 个近邻的平均距离。
对于大型密集数据集,
增量空间自相关
步骤可能会花费大量的时间。因此,如果遇到带有 500 个或更多相邻要素的要素,将跳过增量分析,而是计算可产生 30 个相邻要素的平均距离并将其用作分析范围。
在工具执行期间,反映分析范围的距离将以
消息
形式报告,并将用于执行聚类和异常值分析。此距离相当于
聚类和异常值分析 (Anselin Local Moran's I)
工具使用的
距离范围或距离阈值
参数。
若要素在此距离内没有邻域,则
距离范围
会扩展以包括最近邻域。
输出
优化的异常值分析
工具的最后一部分是创建
输出要素
。如果
输入要素
表示需要聚合的事件数据,则
输出要素
将反映聚合的加权要素(渔网面或六边形面像元或
为事件点聚合面
参数提供的聚合面或加权点)。每个要素都包含 local Moran's I 指数值 (
LMiIndex
)、
z 得分、p 值
、聚类/异常值类型 (COType) 结果和每个要素在计算中所包括的相邻要素数。
其他资源
Anselin, Luc. "Local Indicators of Spatial Association-LISA,"
Geographical Analysis
27(2): 93-115, 1995.
空间统计资源页面
提供了短片、教程、web 研讨会、文章和多种其他材料,以帮助用户开始使用空间统计。