Иерархический кластерный алгоритм для анализа загрязнения отходами производств территории по спутниковым данным дистанционного зондирования .

Сидорова В.С.

Аннотация

Рассматривается приложение делимого иерархического гистограммного алгоритма, предложенного Сидоровой В.С., для картирования областей загрязнения по спектральным признакам.

ABSTRACT

We consider the application of the dividend hierarchical histogram algorithm proposed VS Sidorova for mapping areas of pollution on the spectral features.

Если спектральные данные дистанционного зондирования загрязненных областей Земли составляют кластеры в какой-либо спектральной части, то представляется возможным применить к данным кластерный анализ. Проведенная глобальная сегментация по результатам кластеризации позволит визуально сопоставить полученные области кластеров с известными наземными наблюдениями. Если часть объектов какого-то кластера известна, то кластерный анализ позволит найти и другие его объекты, более точно отследить границы объектов, позволит также “поиграть” с окраской кластеров и более четко их увидеть. Кроме того, кластерный анализ определяет спектральные признаки кластеров как характеристики наиболее плотной (модальные) части кластера, разброс по каждому спектральному каналу, площадь кластеров и др. Кластеризация тем более актуальна, что многоспектральные данные ДЗЗ имеют огромный объем.

Кластеризация большого объема данных ДЗЗ обычно осуществляется двумя способами: по K центрам (заранее должно быть известно число кластеров K и положение их центров) и гистограммными. Здесь рассматривается гистограммный алгоритм. В отличие от K-центров, гистограмма (функция количества от значения многомерного вектора спектральных признаков) непосредственно отображает сгущения признаков. Наиболее популярен алгоритм Нарендры [1]. Многомерная гистограмма рассматривается в нем как аппроксимация плотности вероятности векторов признаков. Это не параметрический алгоритм, он не требует заранее никаких предположений ни о форме распределений, ни о числе кластеров. Этот алгоритм является быстрым и решает одновременно все задачи кластеризации: находит локальные максимумы гистограммы и соответствующие им модальные векторы, разделяет пространство векторов по унимодальным кластерам, проводит границы между кластерами по долинам гистограммы. Достоинство алгоритма также в том, что запасаются только присутствующие различные вектора в список, а не пустое многомерное пространство для них. Кроме того, этот список специальным образом упорядочивается, и это обеспечивает быстродействие алгоритма. Вообще, в алгоритмах кластеризации не заложен механизм оценки разделимости кластеров. Хотя достоверность, качество полученных распределений векторов оценивается именно по разделимости кластеров [2]. То есть, после проведения кластеризации требовалась дополнительная работа по оценке разделимости и слиянию плохо разделенных кластеров. Но при этом слиянии терялась унимодальность кластеров.

Поэтому автором был предложен следующий подход [3]. Для различной детализации пространства признаков строились кластерные распределения и сравнивалась средняя разделимость их кластеров. Таким образом, сохранялась унимодальность полученных кластеров, хотя и в системе новых, усредненных векторов. Было предложен способ усреднения векторов и меры оценки разделимости кластеров [3]. Способ детализации или усреднения векторов сводился к постепенному увеличению числа уровней квантования векторного пространства признаков [3].

Дальнейшее развитие алгоритма было связано с дифференциацией подхода к разным областям данных. Математически это вылилось в то, что был разработан иерархический делимый гистограммный алгоритм. Было замечено, что для различных областей данных требуется разная детальность, чтобы получить наилучшую разделимость кластеров. Для исследования взаимодействия детальности и разделимости и более тщательного исследования сложной иерархической структуры данных ДЗЗ былo предложено: провести иерархическую кластеризацию таким образом, чтобы получить кластеры не хуже заданной отделимости d и при этом найти максимальную детальность представления данных, различную в разных областях данных [4,5].

Другим важным аспектом является выбор спектральных каналов, особенно, если каналов достаточно много. Собственные числа ковариационной матрицы данных спектральных векторов характеризуют разброс векторов в направлении соответствующего собственного вектора (при нормальном распределении векторов). Если выбирать ячейку квантования гиперкубической (а именно эта форма ячейки обеспечивает наименьшую потерю информации при квантовании), то собственные числа должны быть пропорциональны числам уровней квантования в соответствующих измерениях собственного пространства. Если известно максимальное число уровней квантования в каком-то измерении, то можно вычислить абсолютные значения и в других измерениях. Рассматриваемый кластерный алгоритм находит это число для заданной минимальной отделимости каждого кластера. Поэтому можно исключить некоторые измерения (для которых число уровней квантования окажется меньше двух), и тем самым сократить размерность собственного пространства спектральных признаков [6].

Изображение Омской области в семи спектральных каналах со спутника ИСЗ “ Landsat-8” (разрешение 15 м, 08.02.2014) любезно предоставлено сибирским центром ФГПУ “НИЦ “ПЛАНЕТА” (рис.1). Новый алгоритм кластеризации предварительно осуществляет сокращение размерности векторного пространства спектральных признаков с семи до трех. Эти три компоненты собственного пространства векторов представляют линейную комбинацию исходных (в видимом и инфракрасном диапазонах). Показано, что их достаточно для требуемой детальности кластеризации. Детальность, различная по полученным кластерам, определяется делимым иерархическим гистограммным алгоритмом для предельной отделимости кластеров d=0.15 (0<d<1). Детальность увеличивается с ростом числа этапов иерархии. Иерархичность кластерных карт отражает иерархичность реальных данных, реальных объектов. Выбор числа этапов осуществляется совместно с экспертом. Например, на первом этапе иерархии (рис.2) получено всего 6 кластеров. Два из них (красный и черный) соответствуют дымам ТЭЦ Омской области (координаты ТЭЦ на географической карте подтверждают это). Для десяти этапов иерархии получено 27 унимодальных кластеров (рис. 3). Положение красного, ярко розового и фиолетового кластеров показало, что они соответствуют загрязнению территории Омской области, это установили специалисты “НИЦ “ПЛАНЕТА”.

Рис. 1. Изображение (Омская обл.) в семи спектральных каналах с ИСЗ “ Landsat-8”.
Первые три канала в видимом диапазоне (RGB), остальные в инфракрасном.
Рис. 2. Первый этап иерархии. Получено 6 кластеров. Два из них (красный и черный) соответствуют дымам ТЭЦ Омской обл.
Рис. 3. Кластеризация для десяти этапов иерархии. Получено 27 унимодальных кластеров. Они имеют различное значение модальных векторов. Различные цвета кластеров
снежного покрова в Омской области (розовый, желтый, темно-серый) расцениваются специалистами как соответствующие областям различной степени загрязнения снега.
Красный и фиолетовый соответствуют дымам.

ССЫЛКИ