遥感数据分类不确定性评价方法

如题所述

自20世纪70年代以来,遥感数据就被广泛用于土地利用/土地覆被制图、资源调查、环境和自然灾害监测等领域,但直到80年代,人们才开始研究遥感数据分类的不确定性问题。遥感数据分类的不确定性评价方法也经历了一个逐步细化和严格的过程。Congalton(1994)将分类不确定性评价的发展分为四个阶段:第一阶段的精度评价方法以目视判断为主,这种精度评价方法是一种定性的评价方法,而且具有很大的主观性。第二阶段精度评价方法由定性发展到定量方法。这一阶段中,精度评价主要通过比较分类所得的专题图中各类别的面积范围(或面积百分比)与地面或其他参考数据中相应类别的面积范围(或面积百分比)。与第一阶段的方法比较,这种评价方法具有定量和客观的优点。但这种方法的最大局限在于其非定位(non-site specific)本质。因为分类专题图中的某些类别面积即使占有正确的百分比,但它可能在错误的位置。因此,这种评价方法可能掩盖分类结果的真实精度。第三个阶段以定位(site specific)类别比较和精度测量(accuracy metrics)为特征。在这一阶段,精度评价通过比较特定位置的分类结果中的类别和地面实况或其他参考数据中相应点的类别为基础,并在此比较基础上发展了各种精度测量(如总体精度等)。第四阶段的评价方法是在第三阶段方法基础上的细化和发展。其核心是误差矩阵方法,特点是在充分利用误差矩阵信息的基础上,发展各种精度测量(如kappa系数),且统计上更为严格。

误差矩阵精度评价方法依然是当前遥感分类精度评价的核心方法,而且有人建议将其作为分类精度评价的标准方法(Smits et al.,1999)。但以误差矩阵为基础的精度评价方法存在诸多局限性。随着对遥感数据分类问题认识的深入,以及不同精度评价目标的需求,科学家们发展了许多新的误差评价方法和指标。同时,基于误差矩阵的精度评价方法也在不断发展和完善。

表2-1列举了一些主要的遥感分类精度评价方法及其精度测量指标。从评价方法的角度,可以将它们归类为基于误差矩阵的方法、基于模糊分析的方法和其他各种方法三大类。

一、基于误差矩阵的分类精度评价方法

1.误差矩阵及其精度测量

误差矩阵(Error matrix)又称混淆矩阵(Confusion matrix),是一个用于表示分为某一类别的像元个数与地面检验为该类别数的比较阵列(Congalton,1991)。通常,阵列中的列代表参考数据,而行代表由遥感数据分类所得的类别数据。一个典型的误差矩阵如图2-3所示。从误差矩阵中可以直观地得到每一类别的包含误差(commission error)和丢失误差(omission error)。包含误差指不该属于某类别的像元被分为该类别的误差,它由该类别所在行的非对角线元素之和除以该行总和而得;丢失误差指该属于某一类别的像元未被分为该类别的误差,它由该类别所在列的非对角线元素之和除以该列的总和而得。

表2-1 各种分类精度评价方法及特点

图2-3 误差矩阵示意图

误差矩阵除了清楚地显示各类别的包含误差和丢失误差外,还可以从误差矩阵中计算出各种精度测量指标,如总体精度(Overall accuracy),生产者的精度(Producer's accuracy)和用户的精度(User's accuracy)(Story and Congalton,1986)。总体精度是误差矩阵内主对角线元素之和(正确分类的个数)除以总的采样个数。生产者精度和用户精度可以表示某一单个类别的精度。生产者精度为某类别正确分类个数除以该类的总采样个数(该类的列总和);而用户精度定义为正确分类的该类的个数除以分为该类的采样个数(该类的行总和)。总体精度、生产者精度和用户精度的计算公式见R.G.Congalton and K.Green(1998)。

除了以上各种描述性的精度测量,在误差矩阵基础上利用各种统计分析技术,可以用于比较不同的分类方法,其中最常用的是Kappa分析技术。

Kappa分析技术(Cohen,1960;Stehman,1996;Congalton and Mead,1983)是一种多变量统计分析技术,它在统计意义上反映分类结果在多大程度上优于随机分类结果,并可以用于比较两个分类器的误差矩阵是否具有显著差别(Congalton,1999;Smits,1999)。Kappa分析的结果是KHAT统计。从误差矩阵中可以计算总体分类的KHAT统计值和各类别的条件Kappa系数(Conditional Kappa Coefficient)。其计算公式见R.G.Congalton and K.Green(1998)。

一般的Kappa系数及其方差的估计方法是在假设采样模型为多项式模型的基础上发展的,而只有简单随机采样方法满足这个假设(Congalton,et al.,1999)。Stehman(1996)探讨了分层采样条件下的Kappa系数及其方差的估计方法。

除了Kappa分析技术,可以通过“边际拟合(Margfit)”技术将误差矩阵归一化(或标准化)以便于不同误差矩阵之间的比较。通过对误差矩阵做归一化处理,可以消除误差矩阵生成过程中因样本数的不同而造成的差异,使不同误差矩阵中任意相应对应的元素之间具有可比性。由于在归一化过程中考虑了非对角线元素的信息,因此,与误差矩阵中的总体精度相比,归一化的精度更能代表分类的真实精度(Congalton et al.,1998)。

2.基于误差矩阵精度评价方法的问题

(1)精度测量指标。虽然从误差矩阵可以得到诸如总体精度、生产者精度、用户精度,以及Kappa系数等多个精度度量指标,并且已经成为遥感数据分类精度评价的核心方法(Foody,2001;Smits,1999)。但在实际应用中,仍然存在许多问题(Foody,1992;Pontius,2000)。

Foody(1992)认为,由于在Kappa系数计算过程中实际高估了偶然一致性(chance agree),使总体分类精度被低估。Ma and Redmond(1995)同样认识到这个问题,并建议用Tau系数代替Kappa系数作为误差矩阵的精度指标。有些科学家甚至认为,作为一个非基于概率的测量,Kappa系数不适合作为一个精度测量指标(Stehman and Czaplewski,1998)。也有一些科学家认为,应该根据不同的目标使用不同的精度测量(Lark,1995;Stehman,1997,1999;Koukoulas and Blackburn,2001),且在精度评价报告中提供原始的误差矩阵和多个精度测量以全面描述分类精度(Arbia et al.,1998;Muller et al.,1998;Stehman,1997)。

(2)采样问题。由于误差矩阵的基础是一定大小样本的地面实况类别与分类类别之间的比较,不同的采样设计和样本大小直接和精度评价结果有关。Stehman(1995;1996;1997;1998;1999;2000;2001)对遥感分类精度评价中的采样问题做了非常深入的研究。就样本大小而言,大样本数一般会提高评价结果的可靠性,但会增加分析成本。对于采样方法,首先,必须保证采样的无偏性,这是保证精度评价结果可靠的基础;其次,在误差矩阵基础上的进一步分析与采用何种采样方法有关,因为不同的采样模型需要不同的方差估计方法;最后,采样方法决定样本的空间分布,这直接影响精度评价的成本(Congalton et al.,1999)。常用的采样方法包括简单随机采样、系统采样、层次随机采样、聚集采样以及层次系统采样等。Wang Jinfeng 等(2002)发展了适用于小样本问题的Sandwich采样方法,并在耕地面积监测采样中得到成功应用。Congalton等(1999)详细探讨了各种采样方法的优缺点。一般来说,简单的随机采样具有较好的统计特性,且适合于基于误差矩阵的精度分析,但由于随机的样本可能位于人迹罕至的地区,在实际评价过程中,获取地面实况信息十分困难。而且当样本数比较小时,部分面积较小的类别可能没有样本点,但大样本点有会增加成本和样本获取的难度,这在实际应用中是一个十分尖锐的矛盾。理论上,层次随机采样可以解决小面积类别没有样本点的问题。Stehman(1996)发展了层次随机采样下的KHAT统计方差估计方法。但是,实际评价过程中可能并不现实,因为选取样本前可能无法知道各类别的位置(Congalton et al.,1999)。对于其他采样方法,如何进行KHAT统计的方差估计依然是一个问题。

(3)参考数据的精度问题。基于误差矩阵的分类精度评价,其基本假设之一是参考数据完全正确。实际评价过程中这种假设常常难以保证。许多情况下,地面参考数据也含有误差(Congalton and Green,1999;Khorram,1999;Lunetta et al.,2001;Zhou and Robson et al.,1998),甚至含有比分类数据更大的误差(Abrams,Bianchi and Pieri,1996;Bauer et al.,1994;Bowers and Rowan,1996;Merchant et al.,1994)。参考数据中的误差既有专题误差,也有因参考数据和分类数据的配准而带来的位置误差(Dicks and Lo,1990)。在精度评价时,总是将误差矩阵中的参考数据和分类数据的不一致归咎于分类数据的误差(Congalton,1991;Fitzgerald and Lees,1994),因此可能导致低估分类结果的精度(Zhu,Yang,Stehman and Czaplewski,2000)。

参考数据一般有两种来源。一种是通过地面实况调查获得,另一种是用更高空间分辨率的遥感数据分类结果作为参考数据。地面实况信息的获取受地面景的复杂程度,空间分布及采样单元大小,以及人的主观判断的影响。在地面目标分布复杂的地区,常常难以确定某一位置属于哪一个类别。同时,在采样单元较大时,由于混合像元的存在,可能无法找到一个“纯”的像元大小的地面实况。在更多情况下,用更高空间分辨率的分类结果作为参考数据来“验证”较粗空间分辨率遥感数据的分类结果(Justice et al.,2000;Thomlinson et al.,1999)。在不同分辨率的数据之间比较时,混合像元的存在,以及两个数据集分类系统的差别带来的诸如类别定义方面的差异也会给精度评价结果带来严重偏差(Bird et al.,2000;Czaplewski,1992;Scepan et al.,1999;Zhou et al.,1998)。由于参考数据的问题,一些科学家认为基于误差矩阵的精度评价方法只适用于区域尺度上较高分辨率遥感数据的分类精度评价,而不适用于粗分辨率遥感数据的分类精度评价(Merchant et al.,1994)。大尺度上粗分辨率遥感数据分类精度评价已经受到广泛关注(Justice et al.,2000;Stehman,Wickham,Yang and Smith,2000),并取得了一定进展。如Lewis and Brown(2001)发展了一般的误差矩阵(generalized confusion matrix)以评价亚像元分类和面积估计精度;结合模糊分类方法在大尺度低分辨率遥感数据分类中的应用,发展了不同的模糊分类精度评价方法(Foody,1996;Canters,1997;Townsend,2000;Atkinson,1999)。

(4)误差严重程度。在基于误差矩阵的分类精度评价中,所有的分类错误是等权重的(Foody,2002)。也就是说,任何分类错误的严重程度被认为是相同的。实际上,不同类别之间的混淆,其错误的严重程度是不同的(Forbes,1995;Naesset,1996;Stehman,1999)。误差有时候发生在相对相似的类别之间,而有时候却发生在毫不相关的类别之间。相似类别之间的错误在应用中可能并不重要,但差别很大的类别之间的分类错误可能导致应用中严重的后果(Defries and Los,1999)。例如,在土地覆被分类中,针叶林和水体之间的分类错误远比针叶林和阔叶林之间的分类错误严重得多。

由于地表物质分布的连续性,不同类别之间并不具有显的边界,而是从一个类别逐渐过渡到另一个类别。而一般的分类器(硬分类器)结果是用一组离散的类别来表达这一连续分布,将特征相似的像元根据分类判别规则赋予不同的类别(Foody,2000;Steele et al.,1998;Townsend,2000)。相似类别光谱特征的相似性决定了在分类误差矩阵中,类别混淆大部分发生在类别之间的过渡区域。这种情况下,相似类别在误差矩阵中混淆度可能很大,但因为是相似类别之间的混淆,因此在实际应用中该分类结果实际质量较高。有些类别在误差矩阵中虽然混淆程度不大,但因为是毫不相干的类别之间有混淆(如水体和阴影),因此数据质量有严重问题。所以,从应用的角度来说,可能出现误差矩阵总混淆程度大并不一定数据质量低,反之亦然。解决这种问题的方法之一是对不同类别之间的误差采用不同的权重,计算加权Kappa系数(Weighted Kappa Coefficient)(Naesset,1996)。但权重的选择具有很大的主观性,为不同的目的的评价结果之间不具有可比性(Stehman,1997b)。

(5)误差的空间分布和可视化问题。遥感分类数据中误差在空间上并不是随机分布的(Congalton,1988;1999)。根据不同的地面特征和传感器特性,遥感分类数据中的误差具有一定的空间分布结构。但在传统的基于误差矩阵的精度评价中,每一种类别对应一个精度测量值,这意味这每一类别内所有被分类像元具有相同的不确定性,这显然不符合事实。由于混合像元的存在,一般误差主要分布在类别之间的边缘区域(Congalton,1988;Edwards and Lowell,1996;Steele et al.,1998;Vieira and Mather,2000)。误差的空间分布不但有助于探测误差源,而且在以遥感分类结果为数据源的环境模型中误差的传播分析中非常重要(Lanter and Veregin,1992;Michele et al.,2001)。但是误差矩阵以及从误差矩阵中得到的精度测量不能提供任何关于误差空间分布的信息(Canters,1997;Morisete et al.,1999;Steele et al.,1998;Vaesen et al.,2000)。为了表达和探测遥感分类精度的空间分布结构,许多研究致力于分类不确定性的可视化(Fisher,1994;Vieira and Mather,2000;Maselli,Conese and Petkov,1994;Wel Van Der and Gorte,1998)。最大似然分类过程中的后验概率可以较好的刻划分类不确定性的空间变化分布(Canters,1997;Goodchild et al.,1992),而且便于可视化表达。但是,后验概率只能从最大似然分类方法中得到,这限制了它的应用。McIver and Friedl(2001)利用非参数机器学习方法估计像元尺度上土地覆被分类不确定性。另外,信息熵(Zhu,1997)、模糊推理方法(Foody,2000)以及地统计学方法等(deBruin,2000)也被用于提供误差的空间变化信息。

二、基于模糊集理论的精度评价方法

正如上文在探讨误差矩阵精度评价中参考数据的问题时所述,由于混合像元的存在,在实际中有时难以找到“纯”的属于某一类别的参考数据,从而使精度评价结果具有偏差。针对这种情况,Gopal and Woodcock(1994,2000)发展了用模糊集理论评价遥感分类专题图精度的方法。此方法将分类精度在语义上分为绝对错误,可理解但错误,可接受的,好的和完全正确的五个语义精度尺度。通过专家知识得到每个语义尺度的模糊隶属度,然后用模糊推理方法得到分类图像误差的频率,严重程度以及误差源等信息。模糊集理论评价方法提供了混合像元情况下的误差评价方法,并且可以提供误差的严重程度信息。然而,通过利用专家知识获取模糊隶属度的方法具有很大的主观性和随意性(Knight and Khorram,2000),不同的评价结果之间不便比较。而且,它只提供了参考数据中类别之间的混淆的信息,因此它的精度信息远不如Kappa统计丰富(Smits,1999)。同时,在实际应用中,建立模糊逻辑推理的规则并不是一件容易的工作(Congalton,1999)。另外,基于模糊集理论的精度评价方法仍然存在基于误差矩阵的分析中的采样问题以及误差的空间分布和可视化表达问题。

三、其他分类不确定性评价方法

除了基于误差矩阵和基于模糊集理论的遥感分类不确定性评价方法外,还有许多分析技术被用于分类精度评价。如Rosenfield(1981)提出的方差分析技术,Maxim(1983)的多变量伪贝叶斯估计技术,Richards(1996)的贝叶斯精度估计技术,基于成本的精度评价方法(Smits,1999),基于模糊相似性的精度测量(Gunther Jager and Ursula Benz,2000),最小精度值分析方法(Aronoff,1985),错分概率估计(Steele et al.,1998)以及后验概率估计(Canters,1997;Goodchild et al.,1992)等。其中后验概率估计因为能在像元尺度上反映分类不确定性的空间分布结构和变化,以及便于可视化表达的特点,在空间数据不确定性传播研究方兴未艾的今天,越来越受到人们的关注。但基于后验概率估计的评价方法一般只适用与基于贝叶斯分类的情况,如何对其他常用分类方法的结果进行像元尺度的不确定性评价,是本书要研究的内容之一。

温馨提示:答案为网友推荐,仅供参考
相似回答