×
10.05.2015
216.013.4a5c

СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ

Вид РИД

Изобретение

Юридическая информация Свернуть Развернуть
Краткое описание РИД Свернуть Развернуть
Аннотация: Изобретение относится к области обработки данных, а именно к распознаванию текстовой информации. Техническим результатом является повышение производительности системы содержательной обработки электронных документов и увеличение числа анализируемых источников информации. В способе распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет электронный документ разбивают на области, предположительно содержащие абзацы и строки текста. Причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера. Осуществляют удаление избыточной и излишней информации. Анализируют корректность кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка. Вычисляют статистические характеристики частей речи и их форм. Из полученных значений статистических характеристик формируют вектор признаков рабочего словаря, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов. Оценивают полноту текстовой информации на основе мажоритарного способа принятия решения. 5 ил.
Основные результаты: Способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, отличающийся тем, что после процедуры анализа корректности кодировки символов вычисляют статистические характеристики частей речи и их форм, затем из полученных значений статистических характеристик формируют вектор признаков рабочего словаря системы распознавания, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов, после чего осуществляют процедуру оценки полноты текстовой информации на основе мажоритарного способа принятия решения.
Реферат Свернуть Развернуть

Изобретение относится к области обработки данных, а именно к способам распознавания текстовой информации, полученной из электронного документа сети Интернет, и может быть использовано для автоматизированного формирования контента корпоративных информационных систем, систем мониторинга и анализа новостной информации.

Известен метод автоматизированного извлечения знаний из слабоструктурированных источников информации, активно применяемый в современных корпоративных информационных системах (Березкин Д.В. Метод автоматизированного извлечения знаний из слабоструктурированных источников и его применение для создания корпоративных информационных систем, НИС НУК ИУ МГТУ им. Н.Э. Баумана, 2007 г.).

Метод основан на анализе HTML-структуры страниц источника информации и предполагает использование механизма посредника - программы, идентифицирующей искомую информацию на веб-странице и отображающей ее в некоторый промежуточный формат данных, например XML.

На практике использование данного подхода, как правило, предполагает получение априорной информации о структуре HTML-страниц источника. Для этого, в ходе настройки системы автоматизированного извлечения, изучаются образцы всех типов страниц сайта (основной страницы, страниц разделов и всех подразделов). По результатам анализа элементов логической и визуальной разметки для каждого типа страниц на языке регулярных выражений разрабатывается так называемый шаблон разбора страницы. Физически данный шаблон представляет собой файл формата XML, загружаемый в настройки интернет-паука, программы-посредника, которая на основании регулярных выражений шаблона извлекает с заданных веб-страниц требуемые фрагменты информации. Применительно к новостным сообщениям, к таким фрагментам относятся текст новости, ее заголовок, автор, источник, дата и время публикации. Результаты извлечения информации также хранятся в файле формата XML, который в последующем, на этапе анализа полученной информации, может быть преобразован к любому другому удобному для информационного работника формату (DOC, DOCX, TXT, RTF, PDF, FB2). Общий подход к извлечению информации, ориентированный на анализ HTML-структуры сайта, поясняет схема, изображенная на фиг.2.

Недостатком данного метода является необходимость знания априорной информации о структуре веб-страницы, а также необходимость корректировать сформированные шаблоны разбора каждый раз при изменении дизайна сайта, что существенно сокращает число анализируемых источников.

Наиболее близким по своей сущности к заявляемому изобретению (прототипом) является способ распознавания текстовой информации из векторно-растрового изображения (см. патент РФ №2309456, МПК G06K 9/36, опубл. 20.06.2007), заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка.

Недостатком данного способа является отсутствие возможности оценивать полноту распознанной текстовой информации, таким образом, снижается производительность системы содержательной обработки электронных документов.

Задачей изобретения является способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, позволяющий повысить производительности системы содержательной обработки электронных документов и увеличить число анализируемых источников информации.

Задача изобретения решается тем, что способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, согласно изобретению дополнен тем, что после процедуры анализа корректности кодировки символов вычисляют статистические характеристики частей речи и их форм, затем из полученных значений статистических характеристик формируют вектор признаков рабочего словаря системы распознавания, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов, после чего осуществляют процедуру оценки полноты текстовой информации на основе мажоритарного способа принятия решения.

Перечисленная новая совокупность существенных признаков позволяет повысить производительности системы содержательной обработки электронных документов и увеличить число анализируемых источников информации.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие изобретения условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность влияния предусматриваемых существенными признаками заявленного изобретения преобразований на решение указанной задачи. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

«Промышленная применимость» способа обусловлена наличием элементной базы, на основе которой могут быть выполнены устройства, реализующие данный способ с достижением указанного в изобретении назначения.

Заявленный способ поясняется чертежами, на которых показаны:

фиг.1 - последовательность операций способа распознавания текстовой информации из электронного документа сети Интернет и оценки ее полноты:

1 - процедура разбиения электронного документа на области, предположительно содержащие абзацы и строки текста;

2 - процедура обработки текстовых объектов;

3 - процедура анализа корректности кодировки символов с учетом заданного языка;

4 - процедура вычисления статистических характеристик частей речи и их форм;

5 - процедура формирования вектора признаков рабочего словаря системы распознавания;

6 - процедура компонентного анализа;

7 - процедура классификации текстовой информации;

8 - процедура оценки полноты текстовой информации мажоритарным методом;

9 - процедура обучения классификаторов;

фиг.2 - схема реализации метода извлечения информации, основанного на анализе HTML-структуры страниц источника;

фиг.3 - статистические характеристики частей речи и их форм для английского языка;

фиг.4 - вероятности обнаружения документов при использовании различных классификаторов и предлагаемого способа;

фиг.5 - вероятности ложной тревоги при использовании различных классификаторов и предлагаемого способа.

На фиг.1 представлена последовательность операций способа распознавания текстовой информации из электронного документа сети Интернет и оценки ее полноты. Из входного информационного потока сети Интернет на вход системы распознавания поступает электронный документ, который подвергается процедуре разбиения на области, предположительно содержащие абзацы и строки текста, причем разбивка документа осуществляется до получения областей, содержащих неразрывный логически связанный текст наибольшего размера (блок 1). После выделения из документа текстовых объектов они подвергаются обработке, в результате которой из них удаляется избыточная и излишняя информация (блок 2). Обработанные таким образом текстовые объекты подвергаются анализу корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка (блок 3). После процедуры анализа корректности кодировки символов с помощью морфоанализатора для заданного языка осуществляется процедура вычисления статистических характеристик частей речи и их форм (блок 4). Например, для английского языка, набором таких характеристик выступают характеристики, указанные на фиг.3. Далее выполняется процедура формирования вектора признаков рабочего словаря системы распознавания, элементами которого являются рассчитанные характеристики (блок 5):

Сформированный вектор признаков рабочего словаря системы распознавания с помощью математического аппарата компонентного анализа преобразуется в вектор главных компонент (блок 6). В результате данного преобразования получается вектор исходной размерности, элементами которого становятся безразмерные некоррелированные между собой величины, представляющие собой некоторую линейную комбинацию признаков исходного вектора и называемые главными компонентами:

где yij - исходное значение признака;

a ij - вес i-й компоненты в j-м признаке сформированного вектора признаков.

Полученный вектор главных компонент классифицируется тремя предварительно обученными классификаторами (блок 7). В качестве первого классификатора используются классификатор Байеса (КБ)

где Y - множество классов распознавания;

- оценка функции правдоподобия класса (плотность распределения объекта ξ, в классе y∈Y).

Значение оценки рассчитывается по гистограмме значений, как частота появления j-го признака в классе y∈Y.

В качестве второго классификатора используются линейно-дискриминантный анализ (ЛДА)

где - сформированная на этапе обучения классификатора матрица объектов распознавания в i-м классе, у которой по строкам расположены координаты центрированных векторов , j=1,…n; i=1, 2;

V - оценка ковариационной матрицы.

В качестве третьего классификатора используются метод опорных векторов с радиальной базисной функцией Гаусса (MOB)

где yj - анализируемый класс;

λj - множители Лагранжа;

K(ξj,ξ) - ядровая функция, вычисляющая оценку близости объекта ξ к опорному вектору ξj;

ω0 - скалярный порог;

β - параметр алгоритма, подбираемый экспериментально.

В результате классификации каждый из вышеперечисленных классификаторов выносит решение о том, описывает ли данный вектор признаков электронный документ, содержащий полный текст статьи о событии или явлении реального мира (например, веб-страница, содержащая новостную статью в ее полном виде), или только некоторые ее фрагменты (например, веб-страница, содержащая лишь заголовки новостных статей с их кратким описанием). Формально решение классификатора оформляется в виде значения переменной, называемой коэффициентом принадлежности

при этом, когда отдельный классификатор делает вывод о том, что вектор признаков описывает электронный документ, содержащий текст статьи в полном виде, он присваивает коэффициенту значение αi=-1, в противном случае αi=+1.

После процедуры классификации на основе рассчитанных значений коэффициентов принадлежности αi, (выражение 1) вычисляется мажоритарная сумма (блок 8)

где N - количество используемых классификаторов;

kзнач.i - значения весовых коэффициентов значимости классификаторов, рассчитываемых на этапе их обучения (блок 9) по следующей формуле:

где N - количество используемых классификаторов;

Рл.т.i - значения вероятностей ложной тревоги, допущенные классификаторами при классификации объектов из обучающей выборки на этапе обучения классификаторов.

На основе значения полученной мажоритарной суммы (выражение 2) осуществляется принятие решение по следующему правилу: если значение мажоритарной суммы S>0, то анализируемый электронный документ содержит текст статьи в полном виде, в противном случае, документ не содержит текст статьи в полном виде.

Для проверки эффективности заявляемого способа была сформирована тестовая выборка из 10000 веб-страниц (по 5000 страниц каждого класса), источниками которых стали 10 зарубежных новостных порталов, предоставляющих своим пользователям информацию прессового характера на английском языке. В качестве частных показателей эффективности способа были использованы значения вероятности обнаружения документов, содержащих текст статьи в полном виде Робн., и значения вероятности ложной тревоги Рл.т.. В результате классификации объектов тестовой выборки с помощью предварительно обученных классификаторов частные показатели эффективности составили следующие значения Робн.=0,912, Рл.т.=0,068 (фиг.4, 5). Таким образом, результаты эксперимента подтверждают, что разработанный способ позволяет повысить производительности системы содержательной обработки электронных документов и увеличить число анализируемых источников информации.

Способ распознавания текстовой информации и оценки ее полноты в электронных документах сети Интернет, заключающийся в том, что электронный документ разбивают на области, предположительно содержащие абзацы и строки текста, причем разбивку документа выполняют до получения областей, содержащих неразрывный логически связанный текст наибольшего размера, после чего осуществляют обработку текстовых объектов удалением избыточной и излишней информации, затем проводят анализ корректности кодировки символов путем анализа текста на принадлежность букв к алфавиту и слов текста к словарю с учетом заданного языка, отличающийся тем, что после процедуры анализа корректности кодировки символов вычисляют статистические характеристики частей речи и их форм, затем из полученных значений статистических характеристик формируют вектор признаков рабочего словаря системы распознавания, который с помощью процедур компонентного анализа преобразуют в вектор главных компонент и классифицируют с помощью предварительно обученных классификаторов, после чего осуществляют процедуру оценки полноты текстовой информации на основе мажоритарного способа принятия решения.
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
СПОСОБ РАСПОЗНАВАНИЯ ТЕКСТОВОЙ ИНФОРМАЦИИ И ОЦЕНКИ ЕЕ ПОЛНОТЫ В ЭЛЕКТРОННЫХ ДОКУМЕНТАХ СЕТИ ИНТЕРНЕТ
Источник поступления информации: Роспатент

Показаны записи 1-10 из 49.
10.02.2014
№216.012.9fe4

Способ идентификации кадров-вставок в потоке мультимедийных данных

Изобретение относится к средствам обработки данных изображений. Техническим результатом является уменьшение количества ошибочных распознаваний кадров-вставок в потоке мультимедийных данных. В способе вычисляют суммарную дифференциальную яркость каждого кадра-разности и пороговое значение...
Тип: Изобретение
Номер охранного документа: 0002506640
Дата охранного документа: 10.02.2014
27.04.2014
№216.012.bd15

Способ моделирования поиска подвижных абонентов на сетях связи

Изобретение относится к области моделирования сетей связи. Техническим результатом является повышение достоверности оценки моделируемых процессов функционирования и состояний динамически перемещающихся абонентов сетей связи относительно реально функционирующих (существующих) в реальном масштабе...
Тип: Изобретение
Номер охранного документа: 0002514144
Дата охранного документа: 27.04.2014
10.07.2014
№216.012.dcc9

Способ и устройство помехоустойчивого декодирования сигналов, полученных с использованием кода проверки на четность с низкой плотностью

Изобретение относится к вычислительной технике. Технический результат заключается в снижении вероятности ошибки декодирования сигналов. Способ помехоустойчивого декодирования сигналов, полученных с использованием кода проверки на четность с низкой плотностью, в котором после декодирования кода...
Тип: Изобретение
Номер охранного документа: 0002522299
Дата охранного документа: 10.07.2014
27.09.2014
№216.012.f85d

Способ подготовки полиграфолога

Изобретение относится к области медицины, а именно к области проведения психофизических опытов, и может быть использовано в психологии, физиологии, подготовке специалиста полиграфолога, оценке пригодности полиграфолога для задач функциональной диагностики, требующих развития и тренировки...
Тип: Изобретение
Номер охранного документа: 0002529418
Дата охранного документа: 27.09.2014
10.10.2014
№216.012.fbed

Способ встраивания информации в изображение, сжатое фрактальным методом, на основе сформированной библиотеки доменов

Изобретение относится к области стеганографии. Технический результат заключается в обеспечении возможности скрытой передачи конфиденциальных данных. Способ встраивания информации в изображение, сжатое фрактальным методом, на основе сформированной библиотеки доменов, включающий этапы...
Тип: Изобретение
Номер охранного документа: 0002530339
Дата охранного документа: 10.10.2014
10.10.2014
№216.012.fd3b

Способ пространственно-временной коммутации

Изобретение относится к области телекоммуникаций и может быть использовано для построения цифровых систем коммутации. Технический результат заключается в снижении загрузки ЭВМ цифровой системы коммутации. Способ пространственно-временной коммутации заключается в следующем: принимают...
Тип: Изобретение
Номер охранного документа: 0002530673
Дата охранного документа: 10.10.2014
10.10.2014
№216.012.fd4d

Способ защищенного удаленного доступа к информационным ресурсам

Изобретение относится к области передачи цифровой информации, а именно к шифровальным устройствам секретной связи с ключевым распределением, и предназначено для установления защищенного удаленного доступа к информационным ресурсам на основе одношаговой аутентификации с симметричными ключами и...
Тип: Изобретение
Номер охранного документа: 0002530691
Дата охранного документа: 10.10.2014
20.11.2014
№216.013.0933

Устройство двухпараметрового контроля толщины электропроводных покрытий

Изобретение относится к неразрушающему контролю качества материалов и изделий и может быть использовано для измерения толщины немагнитных металлических покрытий на диэлектрической основе или на немагнитной основе с другой удельной электрической проводимостью. Технический результат заключается в...
Тип: Изобретение
Номер охранного документа: 0002533756
Дата охранного документа: 20.11.2014
27.11.2014
№216.013.0a3a

Способ сопряжения передачи, приема информации и питания импульсным током в двухпроводной линии связи

Использование: в области приборостроения при построении распределенных измерительных систем, систем контроля, телеметрии и дистанционного управления. Технический результат - уменьшение энергопотребления и повышение достоверности обмена информацией. Согласно способу от ведущего устройства по...
Тип: Изобретение
Номер охранного документа: 0002534026
Дата охранного документа: 27.11.2014
10.01.2015
№216.013.1d5f

Способ управления скоростью передачи видеопотока

Изобретение относится к области управления скоростью передачи видеопотока по протоколам RTP/RTCP при организации многоточечных сеансов видеосвязи. Техническим результатом является адаптация видеоформатов оконечных терминалов многоточечных сеансов видеосвязи под значения параметров качества...
Тип: Изобретение
Номер охранного документа: 0002538947
Дата охранного документа: 10.01.2015
Показаны записи 1-10 из 78.
10.01.2013
№216.012.1a91

Способ неблокируемой маршрутизации

Изобретение относится к радиотехнике, а именно к технике электросвязи, и, в частности, может применяться на волоконно-оптических сетях связи при необходимости обеспечения неблокируемой маршрутизации для любого из узлов сети. Технический результат заключается в уменьшении аппаратурной сложности...
Тип: Изобретение
Номер охранного документа: 0002472293
Дата охранного документа: 10.01.2013
20.01.2013
№216.012.1dc4

Устройство диагностирования каналов передачи цифровой информации

Изобретение относится к вычислительной технике. Технический результат заключается в повышении достоверности диагностирования КПЦИ за счет вероятностного прогнозирования возможности возникновения отказов (сбоев) в измеряемых приемниках и комплектах оконечной аппаратуры на заданный интервал...
Тип: Изобретение
Номер охранного документа: 0002473114
Дата охранного документа: 20.01.2013
27.01.2013
№216.012.210f

Способ обнаружения идентификационных признаков для различных буквенно-знаковых систем письменности

Изобретение относится к области информатики и вычислительной техники и может использоваться для обработки информационных потоков и обнаружения в них заданных эталонных признаков, представленных в различных буквенно-знаковых системах письменности. Техническим результатом является расширение...
Тип: Изобретение
Номер охранного документа: 0002473964
Дата охранного документа: 27.01.2013
10.05.2013
№216.012.3f0e

Способ передачи мультипротокольных информационных потоков и устройство для его осуществления

Изобретения относятся к области многоканальных волоконно-оптических систем передачи, в частности к системам, использующим спектральное мультиплексирование каналов. Технический результат состоит в разработке способа передачи мультипротокольных информационных потоков и устройства для его...
Тип: Изобретение
Номер охранного документа: 0002481709
Дата охранного документа: 10.05.2013
20.05.2013
№216.012.424c

Способ установления подлинности оригиналов бумажных документов

Изобретение относится к средствам установления подлинности бумажного документа при его получении исполнителем для ознакомления с цифровой копией его оригинала, согласованного, подписанного и утвержденного ответственными лицами оригинала, единожды занесенного в электронную базу данных....
Тип: Изобретение
Номер охранного документа: 0002482542
Дата охранного документа: 20.05.2013
20.06.2013
№216.012.4e1a

Система управления жизненным циклом компьютерных систем на основе интегрированной модели

Изобретение относится к средствам управления компьютерными системами и приложениями. Техническим результатом является повышение результативности управления компьютерными системами и приложениями. Система содержит компонент концептуального управления, компонент интеграции и управления, компонент...
Тип: Изобретение
Номер охранного документа: 0002485576
Дата охранного документа: 20.06.2013
20.06.2013
№216.012.4e24

Способ идентификации сигналов

Изобретение относится к способам идентификации сигналов. Техническим результатом является снижение временной длительности процедуры идентификации анализируемого сигнала с эталонами и сокращение памяти, необходимой для хранения эталонных образцов сигналов. Технический результат заявленного...
Тип: Изобретение
Номер охранного документа: 0002485586
Дата охранного документа: 20.06.2013
27.06.2013
№216.012.5261

Устройство синхронизации псевдослучайной последовательности с функцией исправления ошибок

Изобретение относится к технике передачи дискретной информации и предназначено для синхронизации псевдослучайных последовательностей. Технический результат - обеспечение правильной синхронизации при снижении качества канала связи одновременно с отсутствием возможности ложной синхронизации. Для...
Тип: Изобретение
Номер охранного документа: 0002486682
Дата охранного документа: 27.06.2013
20.08.2013
№216.012.6229

Рамочная двухвитковая антенна в защитном корпусе

Изобретение относится к области радиотехники, в частности к антенной технике, и может быть использовано в качестве приемных и передающих антенн средств связи декаметрового диапазона радиоволн. Технический результат - повышение КПД антенны, защита от климатических и механических воздействий....
Тип: Изобретение
Номер охранного документа: 0002490761
Дата охранного документа: 20.08.2013
10.10.2013
№216.012.7497

Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение скорости передачи данных по каналам связи при эффективном...
Тип: Изобретение
Номер охранного документа: 0002495504
Дата охранного документа: 10.10.2013
+ добавить свой РИД