×
10.05.2015
216.013.4a5c

Результат интеллектуальной деятельности: СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ

Вид РИД

Изобретение

Аннотация: Изобретение относится к области обработки данных, а именно к распознаванию текстовой информации. Техническим результатом является повышение производительности системы содержательной обработки электронных документов и увеличение числа анализируемых источников информации. В способе распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет электронный документ разбивают на области, предположительно содержащие абзацы и строки текста. Причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Осуществляют удаление избыточной и излишней информации. Анализируют корректность кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка. Вычисляют статистические характеристики частей речи и их форм. Из полученных значений статистических характеристик формируют вектор признаков рабочего словаря, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов. Оценивают полноту текстовой информации на основе мажоритарного способа принятия решения. 5 ил.
Основные результаты: Способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, отличающийся тем, что после процедуры анализа корректности кодировки символов вычисляют статистические характеристики частей речи и их форм, затем из полученных значений статистических характеристик формируют вектор признаков рабочего словаря системы распознавания, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов, после чего осуществляют процедуру оценки полноты текстовой информации на основе мажоритарного способа принятия решения.

Изобретение относится к области обработки данных, а именно к способам распознавания текстовой информации, полученной из электронного документа сети Интернет, и может быть использовано для автоматизированного формирования контента корпоративных информационных систем, систем мониторинга и анализа новостной информации.

Известен метод автоматизированного извлечения знаний из слабоструктурированных источников информации, активно применяемый в современных корпоративных информационных системах (Березкин Д.В. Метод автоматизированного извлечения знаний из слабоструктурированных источников и его применение для создания корпоративных информационных систем, НИС НУК ИУ МГТУ им. Н.Э. Баумана, 2007 г.).

Метод основан на анализе HTML-структуры страниц источника информации и предполагает использование механизма посредника - программы, идентифицирующей искомую информацию на веб-странице и отображающей ее в некоторый промежуточный формат данных, например XML.

На практике использование данного подхода, как правило, предполагает получение априорной информации о структуре HTML-страниц источника. Для этого, в ходе настройки системы автоматизированного извлечения, изучаются образцы всех типов страниц сайта (основной страницы, страниц разделов и всех подразделов). По результатам анализа элементов логической и визуальной разметки для каждого типа страниц на языке регулярных выражений разрабатывается так называемый шаблон разбора страницы. Физически данный шаблон представляет собой файл формата XML, загружаемый в настройки интернет-паука, программы-посредника, которая на основании регулярных выражений шаблона извлекает с заданных веб-страниц требуемые фрагменты информации. Применительно к новостным сообщениям, к таким фрагментам относятся текст новости, ее заголовок, автор, источник, дата и время публикации. Результаты извлечения информации также хранятся в файле формата XML, который в последующем, на этапе анализа полученной информации, может быть преобразован к любому другому удобному для информационного работника формату (DOC, DOCX, TXT, RTF, PDF, FB2). Общий подход к извлечению информации, ориентированный на анализ HTML-структуры сайта, поясняет схема, изображенная на фиг.2.

Недостатком данного метода является необходимость знания априорной информации о структуре веб-страницы, а также необходимость корректировать сформированные шаблоны разбора каждый раз при изменении дизайна сайта, что существенно сокращает число анализируемых источников.

Наиболее близким по своей сущности к заявляемому изобретению (прототипом) является способ распознавания текстовой информации из векторно-растрового изображения (см. патент РФ №2309456, МПК G06K 9/36, опубл. 20.06.2007), заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка.

Недостатком данного способа является отсутствие возможности оценивать полноту распознанной текстовой информации, таким образом, снижается производительность системы содержательной обработки электронных документов.

Задачей изобретения является способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, позволяющий повысить производительности системы содержательной обработки электронных документов и увеличить число анализируемых источников информации.

Задача изобретения решается тем, что способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, согласно изобретению дополнен тем, что после процедуры анализа корректности кодировки символов вычисляют статистические характеристики частей речи и их форм, затем из полученных значений статистических характеристик формируют вектор признаков рабочего словаря системы распознавания, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов, после чего осуществляют процедуру оценки полноты текстовой информации на основе мажоритарного способа принятия решения.

Перечисленная новая совокупность существенных признаков позволяет повысить производительности системы содержательной обработки электронных документов и увеличить число анализируемых источников информации.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на решение указанной задачи. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

«Промышленная применимость» способа обусловлена наличием элементной базы, на основе которой могут быть выполнены устройства, реализующие данный способ с достижением указанного в изобретении назначения.

Заявленный способ поясняется чертежами, на которых показаны:

фиг.1 - последовательность операций способа распознавания текстовой информации из электронного документа сети Интернет и оценки ее полноты:

1 - процедура разбиения электронного документа на области, предположительно содержащие абзацы и строки текста;

2 - процедура обработки текстовых объектов;

3 - процедура анализа корректности кодировки символов с учетом заданного языка;

4 - процедура вычисления статистических характеристик частей речи и их форм;

5 - процедура формирования вектора признаков рабочего словаря системы распознавания;

6 - процедура компонентного анализа;

7 - процедура классификации текстовой информации;

8 - процедура оценки полноты текстовой информации мажоритарным методом;

9 - процедура обучения классификаторов;

фиг.2 - схема реализации метода извлечения информации, основанного на анализе HTML-структуры страниц источника;

фиг.3 - статистические характеристики частей речи и их форм для английского языка;

фиг.4 - вероятности обнаружения документов при использовании различных классификаторов и предлагаемого способа;

фиг.5 - вероятности ложной тревоги при использовании различных классификаторов и предлагаемого способа.

На фиг.1 представлена последовательность операций способа распознавания текстовой информации из электронного документа сети Интернет и оценки ее полноты. Из входного информационного потока сети Интернет на вход системы распознавания поступает электронный документ, который подвергается процедуре разбиения на области, предположительно содержащие абзацы и строки текста, причем разбивка документа осуществляется до получения областей, содержащих неразрывный логически связанный текст наибольшего размера (блок 1). После выделения из документа текстовых объектов они подвергаются обработке, в результате которой из них удаляется избыточная и излишняя информация (блок 2). Обработанные таким образом текстовые объекты подвергаются анализу корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка (блок 3). После процедуры анализа корректности кодировки символов с помощью морфоанализатора для заданного языка осуществляется процедура вычисления статистических характеристик частей речи и их форм (блок 4). Например, для английского языка, набором таких характеристик выступают характеристики, указанные на фиг.3. Далее выполняется процедура формирования вектора признаков рабочего словаря системы распознавания, элементами которого являются рассчитанные характеристики (блок 5):

Сформированный вектор признаков рабочего словаря системы распознавания с помощью математического аппарата компонентного анализа преобразуется в вектор главных компонент (блок 6). В результате данного преобразования получается вектор исходной размерности, элементами которого становятся безразмерные некоррелированные между собой величины, представляющие собой некоторую линейную комбинацию признаков исходного вектора и называемые главными компонентами:

где yij - исходное значение признака;

a ij - вес i-й компоненты в j-м признаке сформированного вектора признаков.

Полученный вектор главных компонент классифицируется тремя предварительно обученными классификаторами (блок 7). В качестве первого классификатора используются классификатор Байеса (КБ)

где Y - множество классов распознавания;

- оценка функции правдоподобия класса (плотность распределения объекта ξ, в классе y∈Y).

Значение оценки рассчитывается по гистограмме значений, как частота появления j-го признака в классе y∈Y.

В качестве второго классификатора используются линейно-дискриминантный анализ (ЛДА)

где - сформированная на этапе обучения классификатора матрица объектов распознавания в i-м классе, у которой по строкам расположены координаты центрированных векторов , j=1,…n; i=1, 2;

V - оценка ковариационной матрицы.

В качестве третьего классификатора используются метод опорных векторов с радиальной базисной функцией Гаусса (MOB)

где yj - анализируемый класс;

λj - множители Лагранжа;

K(ξj,ξ) - ядровая функция, вычисляющая оценку близости объекта ξ к опорному вектору ξj;

ω0 - скалярный порог;

β - параметр алгоритма, подбираемый экспериментально.

В результате классификации каждый из вышеперечисленных классификаторов выносит решение о том, описывает ли данный вектор признаков электронный документ, содержащий полный текст статьи о событии или явлении реального мира (например, веб-страница, содержащая новостную статью в ее полном виде), или только некоторые ее фрагменты (например, веб-страница, содержащая лишь заголовки новостных статей с их кратким описанием). Формально решение классификатора оформляется в виде значения переменной, называемой коэффициентом принадлежности

при этом, когда отдельный классификатор делает вывод о том, что вектор признаков описывает электронный документ, содержащий текст статьи в полном виде, он присваивает коэффициенту значение αi=-1, в противном случае αi=+1.

После процедуры классификации на основе рассчитанных значений коэффициентов принадлежности αi, (выражение 1) вычисляется мажоритарная сумма (блок 8)

где N - количество используемых классификаторов;

kзнач.i - значения весовых коэффициентов значимости классификаторов, рассчитываемых на этапе их обучения (блок 9) по следующей формуле:

где N - количество используемых классификаторов;

Рл.т.i - значения вероятностей ложной тревоги, допущенные классификаторами при классификации объектов из обучающей выборки на этапе обучения классификаторов.

На основе значения полученной мажоритарной суммы (выражение 2) осуществляется принятие решение по следующему правилу: если значение мажоритарной суммы S>0, то анализируемый электронный документ содержит текст статьи в полном виде, в противном случае, документ не содержит текст статьи в полном виде.

Для проверки эффективности заявляемого способа была сформирована тестовая выборка из 10000 веб-страниц (по 5000 страниц каждого класса), источниками которых стали 10 зарубежных новостных порталов, предоставляющих своим пользователям информацию прессового характера на английском языке. В качестве частных показателей эффективности способа были использованы значения вероятности обнаружения документов, содержащих текст статьи в полном виде Робн., и значения вероятности ложной тревоги Рл.т.. В результате классификации объектов тестовой выборки с помощью предварительно обученных классификаторов частные показатели эффективности составили следующие значения Робн.=0,912, Рл.т.=0,068 (фиг.4, 5). Таким образом, результаты эксперимента подтверждают, что разработанный способ позволяет повысить производительности системы содержательной обработки электронных документов и увеличить число анализируемых источников информации.

Способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, отличающийся тем, что после процедуры анализа корректности кодировки символов вычисляют статистические характеристики частей речи и их форм, затем из полученных значений статистических характеристик формируют вектор признаков рабочего словаря системы распознавания, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов, после чего осуществляют процедуру оценки полноты текстовой информации на основе мажоритарного способа принятия решения.
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
Источник поступления информации: Роспатент

Показаны записи 41-49 из 49.
20.12.2015
№216.013.9bea

Способ поиска похожих электронных документов, размещенных на устройствах хранения данных

Изобретение относится к способам поиска на устройствах хранения данных электронных документов, похожих стилистически и по смыслу на выбранный документ. Техническим результатом является повышение точности поиска подобных электронных документов в массиве документов различного стиля. В способе...
Тип: Изобретение
Номер охранного документа: 0002571539
Дата охранного документа: 20.12.2015
20.01.2016
№216.013.a298

Способ мониторинга цифровых систем передачи и устройство, его реализующее

Группа изобретений относится к области технической диагностики и используется в системах автоматизированного контроля цифровых систем передачи (ЦСП). Техническим результатом является повышение достоверности диагностирования ЦСП. В устройство, реализующее способ мониторинга цифровых систем...
Тип: Изобретение
Номер охранного документа: 0002573266
Дата охранного документа: 20.01.2016
20.01.2016
№216.013.a299

Способ сравнительной оценки структур информационно-вычислительной сети

Изобретение относится к области информационной безопасности информационно-вычислительных сетей (ИВС) и систем связи и может быть использовано при сравнительной оценке структур ИВС на предмет их устойчивости к отказам, вызванным воздействиями случайных и преднамеренных помех. Техническим...
Тип: Изобретение
Номер охранного документа: 0002573267
Дата охранного документа: 20.01.2016
10.03.2016
№216.014.be36

Способ синтеза формы отражающей поверхности антенной системы зеркального типа

Изобретение относится к области радиотехники и предназначено для использования в подвижных системах радиосвязи и радиолокации. Технический результат - повышение эффективности задания необходимой формы отражающей поверхности антенной системы (АС) зеркального типа (ЗТ). Для этого внешний контур...
Тип: Изобретение
Номер охранного документа: 0002576493
Дата охранного документа: 10.03.2016
10.04.2016
№216.015.2ecf

Способ (варианты) фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки

Изобретения относятся к области цифровой связи и технологиям обработки речи в условиях зашумления. Технический результат заключается в повышении отношения сигнал-шум очищенного речевого сигнала. Применяют способы фильтрации зашумленного речевого сигнала в условиях сложной помеховой обстановки....
Тип: Изобретение
Номер охранного документа: 0002580796
Дата охранного документа: 10.04.2016
10.04.2016
№216.015.2ed9

Способ динамической фильтрации дейтаграмм интернет-протокола

Изобретение относится к области электросвязи и может быть использовано в сетях передачи данных для фильтрации и маршрутизации фрагментированных дейтаграмм Интернет-протокола. Технический результат заключается в повышении эффективности системы защиты от DDoS-атак. Указанный технический результат...
Тип: Изобретение
Номер охранного документа: 0002580808
Дата охранного документа: 10.04.2016
10.04.2016
№216.015.3190

Устройство синхронизации на основе комбинированного применения двойственного базиса поля gf(2) и выделения "скользящего окна" с ошибками

Изобретение относится к технике передачи дискретной информации и может быть использовано для синхронизации псевдослучайных последовательностей. Достигаемым техническим результатом является снижение вероятности пропуска синхропосылки на канале связи с помехами. Устройство синхронизации на...
Тип: Изобретение
Номер охранного документа: 0002580806
Дата охранного документа: 10.04.2016
10.04.2016
№216.015.31f9

Способ тренировки активных технических действий в игровых видах спорта

Изобретение относится к физической культуре и спорту и предназначено для тренировки активных технических действий в игровых видах спорта, в частности проведения атакующих действий. Задачей изобретения является расширение номенклатуры используемых для тренировки игровых видов спорта, а также...
Тип: Изобретение
Номер охранного документа: 0002580782
Дата охранного документа: 10.04.2016
26.08.2017
№217.015.ea1d

Способ определения параметров помехоустойчивого кода

Изобретение относится к радиотехнике и может быть использовано для идентификации параметров помехоустойчивого кода. Техническим результатом является повышение производительности системы приема информации. В способе, если число ненулевых синдромов меньше порогового значения, накапливают кодовые...
Тип: Изобретение
Номер охранного документа: 0002628191
Дата охранного документа: 15.08.2017
Показаны записи 41-50 из 78.
20.03.2015
№216.013.33ff

Способ формирования защищенной системы связи, интегрированной с единой сетью электросвязи в условиях внешних деструктивных воздействий

Изобретение относится к системам и сетям связи и может быть использовано для формирования защищенных систем связи. Техническим результатом является повышение своевременности предоставления телекоммуникационных услуг абонентам системы связи с учетом интенсивности их перемещения (изменения...
Тип: Изобретение
Номер охранного документа: 0002544786
Дата охранного документа: 20.03.2015
10.04.2015
№216.013.36cc

Устройство обнаружения атак в беспроводных сетях стандарта 802.11g

Изобретение относится к области электросвязи и может быть использовано для определения состояния беспроводной сети связи, обнаружения в ней атак и повышения достоверности принятия решения системами обнаружения атак в беспроводных сетях. Технический результат, на достижение которого направлено...
Тип: Изобретение
Номер охранного документа: 0002545516
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.399c

Способ анализа информационного потока и определения состояния защищенности сети на основе адаптивного прогнозирования и устройство для его осуществления

Изобретение относится к области передачи цифровой информации. Технический результат - повышенная защита сети за счет использования механизма адаптивного прогнозирования и весовых коэффициентов критических параметров сетевого трафика. Способ анализа информационного потока и определения состояния...
Тип: Изобретение
Номер охранного документа: 0002546236
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.3ade

Способ встраивания информации в изображение, сжатое фрактальным методом, с учетом мощности пикселей домена

Изобретение относится к стеганографии. Техническим результатом является обеспечение возможности скрытой передачи конфиденциальных данных, используя контейнер, представленный в виде фрактально сжатого изображения. Способ включает этапы формирования вектора параметров сжатия изображения, ввода...
Тип: Изобретение
Номер охранного документа: 0002546558
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.3adf

Способ (варианты) определения психофизиологического состояния

Изобретение относится к средствам психофизиологического обследования человека по различным каналам взаимодействия с техническими средствами и может быть использовано для определения психоэмоционального состояния при реализации перцептивных услуг в полимодальных инфокоммуникационных системах, а...
Тип: Изобретение
Номер охранного документа: 0002546559
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.3ae0

Устройство контроля ошибок в цифровых системах передачи на базе технологии ethernet

Изобретение относится к устройству контроля ошибок в цифровых системах передачи на базе технологии АТМ. Технический результат заключается в повышении надежности обнаружения одиночных и кратных ошибок в кадре Ethernet переменой длины и обнаружения в проверяемой цифровой системе передачи данных...
Тип: Изобретение
Номер охранного документа: 0002546560
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.3f0b

Способ структурно-функционального синтеза защищенной иерархической сети связи

Изобретение относится к области связи, а именно к топологии самоорганизующихся сетей связи для передачи конфиденциальной информации между различными электронными устройствами. Техническим результатом является повышение защищенности передаваемых в иерархической сети связи данных без...
Тип: Изобретение
Номер охранного документа: 0002547627
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.3f0c

Способ и устройство управления потоками данных распределенной информационной системы

Группа изобретений относится к средствам управления потоками данных в защищенных распределенных информационных системах. Технический результат заключается в повышении защищенности распределенных информационных систем. Задают таблицу эталонных файлов трассировки распределенной информационной...
Тип: Изобретение
Номер охранного документа: 0002547628
Дата охранного документа: 10.04.2015
10.04.2015
№216.013.3f0f

Способ эффективного использования коммуникационных ресурсов мультисервисной сети в условиях перегрузки

Изобретение относится к мультисервисным сетям связи. Технический результат заключается в повышении эффективности использования коммуникационных ресурсов в мультисервисных сетях. В способе задают таблицу приоритетов, в которой каждому терминалу пользователя присваивают приоритет по его...
Тип: Изобретение
Номер охранного документа: 0002547631
Дата охранного документа: 10.04.2015
10.05.2015
№216.013.499e

Способ оценки качества маскирующего шума

Изобретение относится к области защиты информации и может быть использовано для оценки качества маскирующего шума. Технический результат - повышение точности оценки качества маскирующего акустического шума. Способ оценки качества маскирующего шума включает, в том числе, получение с помощью...
Тип: Изобретение
Номер охранного документа: 0002550353
Дата охранного документа: 10.05.2015
+ добавить свой РИД