×
01.08.2019
219.017.badb

СПОСОБ РАСПОЗНАВАНИЯ ОБРАЗОВ БИОХИМИЧЕСКИХ НАЗЕМНЫХ ОБЪЕКТОВ С ТОНКИМИ СПЕКТРАЛЬНЫМИ РАЗЛИЧИЯМИ НА ОСНОВЕ ГИПЕРСПЕКТРАЛЬНЫХ ДАННЫХ

Вид РИД

Изобретение

Юридическая информация Свернуть Развернуть
№ охранного документа
0002695963
Дата охранного документа
29.07.2019
Краткое описание РИД Свернуть Развернуть
Аннотация: Изобретение относится к способам обработки гиперспектральных данных и может быть использовано для распознавания образов биохимических наземных объектов с тонкими спектральными различиями. Сущность: записывают на магнитном носителе цифровые гиперспектральные данные наземного и космического зондирования, обработанные до коэффициента спектральной яркости. Получают репрезентативную обучающую выборку минимально необходимого объема в условиях оценки нижней границы вероятности ошибки классификации. Извлекают на основе найденной неоднородной обучающей выборки информативные спектральные признаки, потенциально содержащие информацию об изменении процентного содержания химического вещества в растительности. Уточняют объем обучающей выборки по оптимальному отношению количества найденных спектральных признаков к объему обучающей выборки. Строят классификатор на основе уточненной обучающей выборки. Технический результат: повышение точности классификации образов биохимических наземных объектов с тонкими спектральными различиями. 4 табл.
Реферат Свернуть Развернуть

Изобретение относится к области обработки информации, способам формирования признаков для распознавания образов биохимических наземных объектов с тонкими спектральными различиями в случае двух классов на основе гиперспектральных данных, реализуется программными и техническими средствами, и может быть использовано для распознавания образов в случае двух классов различных типов растительности путем извлечения информативных спектральных признаков.

Для интерпретации данных гиперспектрального дистанционного зондирования и решения тематических природоресурсных задач требуется разработка алгоритмов, в основе которых лежат методы статистического распознавания объектов. Однако в случае рассмотрения методов классификации с обучением недостаточно проработан вопрос выбора обучающей выборки минимального объема. Этот вопрос важен, поскольку каждый собранный обучающий образец требует вычислительных затрат при обработке и поэтому объем обучающей выборки должен сводиться к минимуму, что также влияет на точность классификации.

В работе (Mader S., Vohland M., Jarmer T., Crop classification with hyperspectral data of the HyMAP sensor using different feature extraction techniques- Proceedings of the 2nd Workshop of the EARSeL SIG on Land Use and Land Cover. 28-30 September 2006), посвященной классификации сельскохозяйственных культур с помощью гиперспектральных данных HYMAP, выбирается два набора данных, каждый из которых содержит 6 классов. Объем обучающей выборки из каждого класса выбирается равным 15% от общего количества пикселей. Первый из двух наборов данных используется для обучения алгоритма классификации методом максимума правдоподобия. Второй набор данных необходим для оценки точности классификации данных.

В работе (A. Plaza et al, Recent advances in techniques for hyperspectral image processing, Remote Sensing of Environment, 009, №13, S110-S122) рассматриваются 16 классов лесных и сельскохозяйственных объектов, при этом отмечено, что используя малый объем обучающей выборки 10, 20, 40, 60, 80, 100 для каждого класса, случайно извлеченной из более широкого ряда, метод опорных векторов позволяет распознать с точностью 92% с 10-пиксельной выборкой. Полный обучающий набор не увеличивает значительно точность распознавания выбранных объектов.

В работе (Li C., Wang J., Wang L., Hu L., Gong P. Comparison of Classification Algorithms and training sample sizes in Urban Land Classification with Landsat Thematic Mapper Imagery -Remote Sensing. 2014. №6. P.964-983) классифицируются такие объекты, как реки, лесные объекты, сельскохозяйственные угодья, крыши домов, земли с застройкой, на мультиспектральном изображении (6 каналов), полученном с оптического датчика ТМ космического аппарата Landsat различными методами классификации с использованием 12 наборов обучающих выборок объемами 20, 40, 60, 80, 100, 120, 140, 160, 180, 200, 220, 240.

В работе (Doma M.L., Gomaa M.S., Amer R.A. Sensitivity of pixel-based classifiers to training sample size in case of high resolution satellite imagery - Journal of Geomatics. 2015. V.9. № 1. P.53-58) исследуется точность классификации наземных объектов в случае шести классов на изображении высокого разрешения c оптического сенсора космического аппарата Quickbird методом опорных векторов, методом расстояния Махаланобиса, методом максимума правдоподобия и т.д. при различных объемах обучающей выборки 100, 200, 300, 400 для каждого класса. Наивысшая точность 80% достигается при использовании метода опорных векторов при размере обучающей выборки 200. Метод максимума правдоподобия обеспечивает точность распознавания 78.33% при том же объеме обучающей выборки.

Недостатком способов распознавания объектов в приведенных работах является отсутствие четкого правила выбора объема обучающей выборки. Также в некоторых приведенных работах исследуется влияние объема обучающих выборок и количества информативных признаков на точность классификации хорошо различимых объектов (водные объекты, почвенные объекты, растительность, здания, дороги и т.д.), в то время как разработанное изобретение позволяет распознавать объекты с тонкими спектральными различиями.

Ближайшим аналогом представляемого изобретения является СПОСОБ РАСПОЗНАВАНИЯ ОБРАЗОВ ПРИРОДНО-ТЕХНОГЕННЫХ ОБЪЕКТОВ И ОЦЕНКИ ПАРАМЕТРОВ ИХ СОСТОЯНИЯ ПО ГИПЕРСПЕКТРАЛЬНЫМ ДАННЫМ АЭРОКОСМИЧЕСКОГО ЗОНДИРОВАНИЯ (Автор Козодеров Владимир Васильевич RU 2422858 C1). Данный метод позволяет распознавать растительные объекты, однако недостатком является то, что вопрос определения минимального объема обучающей выборки не рассматривается.

Представляемое изобретение позволяет отыскать не только минимальный необходимый объем обучающей выборки, но и репрезентативную выборку для рассматриваемых объектов относительно всего обучающего набора, что влияет на точность классификации. На основе найденной репрезентативной обучающей выборки минимального необходимого объема проводится поиск информативных спектральных признаков распознавания образов биохимических наземных объектов. Понижая размерность пространства спектральных признаков можно увеличить точность классификации в случае ограниченности объема обучающей выборки.

Цель понижения размерности уменьшить количество признаков без потерь значимой информации. Один из самых известных методов, описанных в многочисленных работах, является метод главных компонент. В работах (Свейн Ф., Дейвис Ш. Дистанционное зондирование Земли: количественный подход. -М.: Издательство «Недра», 1983. - 401 с., Thenkabail Prasad S., Lyon G. John, Huete A. Hyperspectral Remote Sensing of Vegetation, CRC Press, USA, 2011, 782 p.) описывается данный метод, как способ трансформации данных в новую систему координат, в которой сконцентрированная в коррелированных данных информация переходит в несколько независимых переменных (главных компонент). Как правило, количество новых главных компонент более одной.

Представляемое изобретение на основе полученной репрезентативной обучающей выборки, которая по определению является однородной, позволяет получить одну главную компоненту и рассмотреть детально спектральные каналы, коррелирующие наибольшим образом с одной главной компонентой. В случае рассмотрения различных типов растительности этот метод позволяет определить длины волн, в которых потенциально может содержаться информация об изменении процентного содержания химического вещества в растительности.

В основу предлагаемого изобретения положена задача повышения точности классификации образов двух классов произвольных типов растительности. Цель достигается путем определения репрезентативной обучающей выборки минимального объема, снижения количества спектральных признаков распознавания на основе полученной однородной обучающей выборки, и извлечения информативных спектральных признаков, потенциально содержащих информацию об изменении химического вещества в растительности, на примерах обнаружения пораженной пшеницы на фоне здоровой и распознавания образов двух классов произвольных типов растительности.

Анализ научно-технической и патентной документации показал, что cовокупность существенных признаков заявляемого способа решения неизвестна из уровня техники, следовательно, он соответствует такому условию патентоспособности изобретения как «новизна».

Сущность изобретения заключается в том, что сначала производят прием и регистрацию на магнитном носителе цифровых гиперспектральных данных наземного и космического зондирования, проводят предварительную обработку полученных измерений до коэффициента спектральной яркости (КСЯ) с учетом радиометрических, геометрических искажений данных, производят получение обучающей выборки минимально необходимого объема, причем проверяют ее репрезентативность относительно всего обучающего набора, производят извлечение на основе найденной однородной обучающей выборки информативных спектральных признаков, потенциально содержащих информацию об изменении процентного содержании химического вещества, с учетом их корреляции, проводят уточнение объема обучающей выборки по оптимальному отношению количества найденных спектральных признаков к объему обучающей выборки, проводят построение автоматизированного классификатора на основе уточненной обучающей выборки, причем на каждой итерации формирования спектральных признаков контролируется вероятность ошибки классификации.

Технический результат представленного изобретения - повышение точности классификации образов для двух классов произвольных типов растительности. Достигается путем определения репрезентативной обучающей выборки минимального объема в условиях оценки нижней границы вероятности ошибки классификации, снижения количества спектральных признаков распознавания образов за счет полученной однородной обучающей выборки, и извлечения информативных спектральных признаков на примерах обнаружения пораженной пшеницы на фоне здоровой и распознавания образов для двух классов произвольных типов растительности.

Примеры реализации

Изобретение с реализацией назначения осуществляется на примерах обработки двух типов данных: наземных гиперспектральных оптических измерениях сельскохозяйственных культур на кубанском полигоне (здоровой и пораженной бурой ржавчиной пшеницы) и космическом снимке произвольных типов растительности с гиперспектральной аппаратуры Hyperion.

В первом случае проводятся следующие операции:

1. Регистрируются цифровые наземные гиперспектральные оптические измерения в диапазоне от 400 до 1100 нм в 1637 спектральных каналах с помощью спектрометра Ocean Optics MAYA 2000-Pro с разрешением 1 нм с присоединяемым световодом Ocean Optics P1000-2-UV-VIS и объективом Ocean Optics-UV в соответствии со стадиями вегетации сельхозкультуры на однородных участках площадью 3х3 м2 здоровой пшеницы и пораженной пшеницы с проективным покрытием пшеницы не ниже 60% в количестве 1000 измерений. Одновременно с измерением спектра пшеницы измеряется спектр диффузной отражающей «белой мишени» (эталонный отражатель ASD 60х60 см) с известными значениями коэффициента отражения. Контролируются метеорологические параметры: температура воздуха +31 °C, влажность воздуха 30%, влажность почвы 40%, температура почвы +28 °C. Определяются географические координаты: 45°03'10.01'' с.ш., 38°52'18.56'' в.д. Дата съемки: 22.05.2015 года. Погода- ясная солнечная с минимальным количеством облаков.

2. Полученные гиперспектральные измерения для пшеницы и диффузной отражающей поверхности обрабатываются с помощью программы на языке FORTRAN до спектральной плотности энергетической яркости (СПЭЯ). СПЭЯ для пшеницы и отражательной поверхности корректируется на величину темнового тока прибора, после чего с учётом коэффициентов пропускания фильтров, световодов и объективов, выполняется вычисление коэффициента спектральной яркости КСЯ путём деления яркости (освещённости) объекта на яркость (освещённость) эталона, тем самым ликвидируя радиометрические искажения.

3. Предобработанные гиперспектральные измерения в виде КСЯ делятся на валидационный и обучающий набор в количестве 500 каждый. Обучающий набор поступает в модуль поиска репрезентативной обучающей выборки минимального объема, включающий:

- выбор случайным образом спектров из обучающего набора для каждого класса;

- проверку гипотезы о равенстве дисперсий в одноименных спектральных каналах для двух классов для установления условия равенства ковариационных матриц, необходимого для обеспечения минимальной вероятности ошибки классификации;

- проверку гипотезы о равенстве вектора математических ожиданий обучающей выборки вектору математических ожиданий всего обучающего набора для обеспечения репрезентативности обучающей выборки.

Результатом работы модуля является обучающая выборка минимального объема, репрезентативная относительно всего обучающего набора.

4. Данная выборка поступает на статистический модуль извлечения спектральных признаков (отбор признаков по дисперсии), который включает в себя:

- вычисление ранга ковариационной матрицы одного из классов объектов для вычисления верхней границы количества признаков;

- проверка однородности данных для принятия решения о центрировании и нормировании;

- принятие решения о нормировании и центрировании данных;

- SVD-разложение (разложение по сингулярным значениям аналогично методу главных компонент) матрицы входных данных;

- разбиение спектрального диапазона на поддиапазоны в соответствии с цветовой шкалой длин волн;

- выделение спектральных каналов с наибольшими нагрузками;

- поиск дополнительных спектральных каналов в поддиапазоне по критерию значимости коэффициента корреляции между спектральными каналами.

Результатом работы модуля является уменьшенный набор спектральных признаков в информативных спектральных каналах. На длине волны 740 нм наблюдается эффект смещения Red Edge в сторону коротких длин волн для пораженной пшеницы.

Минимальный объем обучающей выборки обеспечивает отсутствие переобучения классификатора, а уменьшенная размерность данных – отсутствие недообучения в случае наличия ограниченной обучающей выборки. Следующим шагом является нахождение оптимума между недообучением и переобучением классификатора.

5. Уточняется объем обучающей выборки по известному теоретическому оптимальному отношению количества найденных спектральных признаков к объему обучающей выборки.

6. Строится классификатор на основе уточненной обучающей выборки.

7.Проводится классификация образов типов растительности по информативным спектральным признакам с помощью различных мер разделимости и классических методов классификации.

Особенностью является контроль функционирования процесса формирования спектральных признаков по вероятности ошибки классификации на каждой итерации.

Способ может быть использован для дальнейших научных исследований возможности выявления признаков поражения с/х культур на полях больших площадей.

Результаты классификации на основе найденной обучающей выборки представлены в таблице 1.

Во втором случае в качестве входных данных используется реальный геопривязанный и геометрически откорректированный гиперспектральный снимок, сделанный с помощью гиперспектральной аппаратуры Hyperion над территорией полуострова Крым 29.05.2013. Снимок содержит 220 спектральных каналов в диапазоне длин волн от 357 нм до 2576 нм.

Во втором случае проводятся следующие операции:

1. Удаляются зашумленные спектральные каналы и проводится атмосферная коррекция гиперспектрального изображения в соответствии с методикой «EO-1 Hyperion Vegetation Indices Tutorial» в программном продукте ENVI5.2. В результате обработки гиперспектрального изображения после удаления зашумленных спектральных каналов имеем новое радиометрически откорректированное гиперспектральное изображение в 163 каналах в диапазоне от 477 до 2365 нм, из которого могут быть извлечены КСЯ.

2. Выделяется область интереса на гиперспектральном изображении.

3.Из выделенной области интереса обработанного изображения выбирается пара классов наземных объектов: класс растительности 1 и класс растительности 2.

4. Для двух классов формируется обучающий и тестовый набор. Размер индивидуального класса для обучающего набора выбирается равным 450, для тестового набора данных 389.

Далее обработка идет как в первом случае с единственным отличием, что дополнительно рассматривается второй вариант статистического модуля извлечения информативных признаков (отбор признаков по разнице матожиданий):

- вычисление ранга ковариационной матрицы одного из классов объектов для вычисления верхней границы количества признаков;

- отбор спектральных каналов, в которых разница матожиданий для двух классов максимальна;

- разбиение спектрального диапазона на поддиапазоны в соответствии с цветовой шкалой длин волн для более детального рассмотрения спектральных каналов по всему диапазону;

- поиск в спектральном поддиапазоне спектрального канала с максимальной разницей матожиданий для отыскания признаков, относительно которых будут извлекаться новые признаки;

- поиск дополнительных спектральных каналов в поддиапазоне по критерию значимости коэффициента корреляции между спектральными каналами.

Результат работы модуля- набор квазиоптимальных спектральных каналов, потенциально содержащих информацию об изменении процентного содержания химического вещества в растительности.

Предпочтительно, проверку гипотезы о равенстве дисперсий в одноименных спектральных каналах для двух классов осуществлять следующим образом:

После применения двухвыборочного анализа дисперсий проанализировать зависимость количества спектральных каналов от объема выборки на наличие локальных минимумов, после отыскания локального минимума необходимо добавить новые КСЯ к имеющейся выборке для проверки наличия нового минимума. Для сокращения объема вычислений проверку на репрезентативность предпочтительно осуществить также через проверку отношения количества спектральных каналов к объему выборки на превышение порога 0.5.

Предпочтительно, порядок отбора дополнительных спектральных каналов проводить следующим образом:

В выбранных поддиапазонах выбрать по одному спектральному каналу, обладающему максимальной нагрузкой для одного класса или с наибольшей разницей матожиданий для двух классов в поддиапазоне. Далее проводить поиск следующего спектрального канала в поддиапазоне, который меньше всего коррелирует с выбранным спектральным каналом, при этом по критерию оценки значимости коэффициента корреляции найденный спектральный канал должен быть независим. Следующим шагом отыскать еще один спектральный канал, который должен быть в наименьшей корреляции с предыдущим каналом (Условие 1), одновременно выполнив проверку на значимость коэффициента корреляции с предыдущими спектральными каналами (Условие 2) и т.д. Описанную процедуру повторять пока не останется спектрального канала, удовлетворяющего критерию независимости двух спектральных каналов. Особенностью является то, что, если не отыскивается спектральный канал, удовлетворяющий обоим условиям, то необходимо искать следующий канал, коэффициент корреляции которого с предыдущим находится на втором месте после наименьшего, и т.д.

Результаты классификации на основе найденных обучающих выборок для образов двух произвольных типов растительности с учетом дополнительного варианта исполнения статистического модуля представлены в таблице 2.

Техническим результатом является повышение точности классификации образов двух произвольных типов растительности путем определения репрезентативной обучающей выборки минимального объема, снижения количества спектральных признаков распознавания и извлечения информативных признаков. В таблице 3 представлен технический результат, достигаемый с помощью разработанного изобретения.

Извлеченные информативные спектральные признаки, потенциально содержащие информацию об изменении процентного содержания химического вещества в растительности, подтверждают возможность использования изобретения для распознавания образов биохимических наземных объектов с тонкими спектральными различиями, таких как растительные покровы, в случае двух классов на основе гиперспектральных данных (таблица 4).

Таблица 1

Результаты обнаружения образов пораженной пшеницы на фоне здоровой разработанным способом

Кол-во обучающих образов Кол-во спектральных признаков Вероятность ошибки классификации Pe, % Метод прямой (косвенной) оценки Pe
Шаг 1 62 - - -
Шаг 2 62 6 0.01 Дивергенция
Шаг 3 62 6 0.01 Расстояние Джеффриса-Матусита
Шаг 4
Объем валидационной выборки
500
6 для пораженной пшеницы 0% Метод максимума правдоподобия
Отношение
количества правильно классифицированных наземных объектов к общему количеству наземных объектов
для здоровой
пшеницы
12%
Средняя суммарная вероятность ошибки 6%
для пораженной пшеницы 0% *Метод опорных векторов
Отношение количества правильно классифицированных наземных объектов к общему количеству наземных объектов
для здоровой
пшеницы
11.2%
Средняя суммарная вероятность ошибки 5.6%

*Ошибка первого рода (вероятность ошибки классификации образов здоровой пшеницы) составляет 11.2%, ошибка второго рода (вероятность ошибки классификации образов пораженной пшеницы) составляет 0%. Метод опорных векторов дает более точный результат распознавания, чем метод максимума правдоподобия, при этом обоими методами достигается ошибка второго рода, равная 0%, что гораздо более критичнее при распознавании пораженной пшеницы, чем ошибка первого рода.

Таблица 2

Результаты классификации образов произвольных типов растительности на основе найденной обучающей выборки разработанным способом с учетом второго варианта извлечения спектральных признаков

Кол-во обучающих образов Кол-во спектраль-ных признаков Метод прямой (косвенной) оценки Pe Вероятность ошибки классификации Pe, %
(отбор признаков по дисперсии)
Вероятность ошибки классификации Pe, %
(*отбор признаков по разнице матожиданий)
Шаг 1 84 - - -
Шаг 2 84 17 Дивергенция 0.01 0.01
Шаг 3 450 17 Расстояние Джеффриса-Матусита 10% 6%
Шаг 4
Классификация контрольной выборки
(объем 389)
17 Метод максимума правдоподобия
Отношение количества правильно классифицированных наземных объектов к общему количеству наземных объектов
для растительности Класс 1
6.9%
для растительности Класс 1
6.4%
для растительности Класс 2
3.9%
для растительности Класс 2
3.9%
Средняя суммарная вероятность ошибки
5.4%
Средняя суммарная вероятность ошибки
5.15%
Метод опорных векторов
Отношение количества правильно классифицированных наземных объектов к общему количеству наземных объектов
для растительности Класс 1
22.5%
для растительности Класс 1
8.6%
Для растительности Класс 2
5.9%
Для растительности Класс 2
11.8%
Средняя суммарная вероятность ошибки
14.37%
Средняя суммарная вероятность ошибки
10.2%

*Метод извлечения спектральных признаков по разнице матожиданий дает более точный результат при тематической классификации образов произвольных типов растительности, чем метод извлечения признаков по дисперсии.

Таблица 3

Технический результат, полученный с использованием разработанного изобретения на примере распознавания образов двух типов растительности

Способы, Показатели Классический метод распознавания *Разработанный способ распознавания
Метод определения объема обучающей выборки Отбор случайным образом Отбор репрезентативной выборки минимально необходимого объема с последующим уточнением
Объем обучающей выборки 450 450
Метод отбора признаков Метод главных компонент По дисперсии По разнице матожиданий
Количество признаков 3 17 17
Метод оценки вероятности ошибки классификации Расстояние Джеффриса-Матусита Расстояние Джеффриса-Матусита
Вероятность ошибки классификации, % 33 10 6

*Результаты показывают, что разработанное изобретение в различных вариантах исполнения статистического модуля извлечения информативных признаков позволяет улучшить точность распознавания образов двух выбранных произвольных типов растительности на 23% и 27% по сравнению с классическим методом.

Таблица 4

Набор квазиоптимальных информативных спектральных каналов для исследования изменений в растительности на основе информации о содержании химического вещества

Длина волны, нм Длины волн (зарубежные исследования*), нм Полезная информация
1 487.86 490 чувствительность к потере хлорофилла
2 559.09 550 общее содержание хлорофилла
3 569.27 570 пигментация, азот
4 681.20 687 биофизические параметры
5 742.25 740 накопление азота, стресс, сдвиг red edge в сторону длинных волн для здоровой растительности
9 1104.18 1100 биофизические параметры
17 2365.19 2359 целлюлоза, протеин, азот

*Полученные в рассматриваемых примерах информативные спектральные зоны позволяют частично синтезировать исследования в данной работе с исследованиями спектральных характеристик растительности, проведенными зарубежными учеными в других частях мира в поиске оптимального набора информативных спектральных каналов.

Способ распознавания образов биохимических наземных объектов в случае двух классов с тонкими спектральными различиями, таких как растительные покровы, на основе гиперспектральных данных, включающий прием и регистрацию на магнитном носителе цифровых гиперспектральных данных наземного и космического зондирования с проведением предварительной обработки полученных измерений до коэффициента спектральной яркости с учетом радиометрических, геометрических искажений данных (изображений), отличающийся тем, что производят получение репрезентативной обучающей выборки минимально необходимого объема в условиях оценки нижней границы вероятности ошибки классификации, извлечение на основе найденной однородной обучающей выборки информативных спектральных признаков, потенциально содержащих информацию об изменении процентного содержания химического вещества в растительности, с учетом их корреляции, уточнение объема обучающей выборки по оптимальному отношению количества найденных спектральных признаков к объему обучающей выборки, построение автоматизированного классификатора на основе уточненной обучающей выборки, причем на каждой итерации формирования спектральных признаков контролируют вероятность ошибки классификации.
Источник поступления информации: Роспатент
+ добавить свой РИД