×
20.04.2016
216.015.3689

Результат интеллектуальной деятельности: СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ

Вид РИД

Изобретение

№ охранного документа
0002581766
Дата охранного документа
20.04.2016
Аннотация: Изобретение относится к средствам автоматизированного анализа текстовых документов. Технический результат заключается в повышении точности определения наличия в документах конфиденциальной информации. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм документа с указанием их позиций в каждой форме. Выявляют поля эталонных форм документа в электронном файле анализируемого документа. Выявляют количество полей эталонных форм документа в анализируемом документе. Осуществляют поиск эталонных форм в анализируемом документе. Формируют список найденных эталонных форм документа в анализируемом документе. Проверяют порядок следования полей из каждой найденной эталонной формы документа в анализируемом документе, если в конкретной эталонной форме порядок не совпадает, ее удаляют из списка найденных. Определяют позицию полей эталонных форм документа из отобранного списка в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Определяют наличие данной эталонной формы документа в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст. Помещают имя текущей формы в список эталонных форм документа, найденных в анализируемом тексте. 2 з.п. ф-лы, 1 ил.

Область техники, к которой относится изобретение

Настоящее изобретение относится к автоматизированному анализу эталонных форм и может быть использовано при разработке новых и совершенствовании существующих систем проверки текстовых документов на наличие в них частей, принадлежащих к заданной эталонной форме. К эталонным формам можно отнести анкеты, платежные формы, формы заявлений.

Уровень техники

В настоящее время весьма остро стоит проблема так называемого перехвата данных. Такая проблема может встретиться в случае отслеживания документов, проходящих по сети компании, на предмет наличия в них конфиденциальной информации.

В настоящее время известно несколько систем или способов, позволяющих решить эту проблему.

Например, в патенте РФ №2282889 (опубл. 27.08.2006 г.), который можно считать ближайшим аналогом настоящего изобретения, раскрыт способ обработки информации для обнаружения полей формы в информационных потоках, где предварительно формируют базу эталонных полей форм, подлежащих выявлению в информационном потоке, принимают информационный поток, последовательно выделяют и запоминают фрагменты принимаемого информационного потока, из которых выделяют поля форм, сравнивают их с эталонными полями форм из базы эталонных полей форм и по результатам сравнения фиксируют наличие и отсутствие в каждом фрагменте информационного потока полей форм, подлежащих выявлению. Этот способ достаточно трудоемок, требует длительного времени на обработку и пригоден лишь в ограниченной области.

Раскрытие изобретения

Таким образом, существует потребность в расширении арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволил бы выявлять в каком-либо документе информацию из заданной эталонной формы и который бы не имел недостатков относительно известных решений. Также, способ позволяет детектировать только заполненные эталонные формы, что должно снижать количество ложноположительных срабатываний.

Для решения этой задачи и получения указанного технического результата в настоящем изобретении предложен способ автоматизированного анализа эталонных форм, заключающийся в том, что: преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме; сохраняют преобразованные поля эталонных форм на запоминающем устройстве; выявляют поля эталонных форм в электронном файле анализируемого документа; выявляют количество полей эталонных форм в анализируемом документе; формируют список найденных эталонных форм в анализируемом документе; проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе для исключения из списка; определяют позицию полей эталонных форм из отобранного списка в анализируемом документе; выявляют текст в анализируемом документе, находящийся между найденными полями; определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте, если между любыми соседними полями выявлен текст; помещают имя текущей формы в список эталонных форм, найденных в анализируемом тексте.

Особенность способа по настоящему изобретению состоит в том, что для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм.

Еще одной особенностью по настоящему изобретению является то, что если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

Еще одной особенностью по настоящему изобретению является то, что исключают «стоп-слова» в анализируемом документе.

Краткое описание чертежей

На Фиг.1 представлен пример эталонной формы, к которой применяется способ по настоящему изобретению.

Подробное описание изобретения

Настоящее изобретение может быть реализовано в любой вычислительной системе, например в персональном компьютере, на сервере и т.п.

Способ автоматизированного анализа эталонных форм по настоящему изобретению предназначен для осуществления защиты от утечек информации, хранящейся в заполненных формах, например анкетах сотрудников, содержащих личную информацию. Анализ производится в несколько этапов. Цель каждого этапа сузить список эталонных форм, которыми может являться анализируемый текст.

На первом этапе необходимо подготовить эталонные данные. Преобразуют в заранее заданный формат все информационно-значимые поля эталонных форм с указанием их позиций в каждой форме.

К эталонным данным в данном изобретении можно отнести следующую информацию:

1. Непосредственно форму с незаполненными полями.

2. Идентификатор формы (название).

3. Параметры чувствительности алгоритма.

Непосредственно эталонные данные, относящиеся к эталонной форме, готовят следующим образом:

1) каждое поле формы разбивается на слова либо числа (разделителем считаются все символы кроме букв и цифр);

2) из получившегося списка удаляются «стоп-слова»;

3) для каждого выделенного слова снимается HASH;

4) для полученных HASH значений записывается местоположение полей, в которых они встречаются (имя эталонной формы, номер поля).

«Стоп-слова» - это слова, не несущие какой-либо самостоятельной смысловой нагрузки (см. http://ru.wikipedia.org/wiki/стоп-слова).

HASH представляет собой число фиксированной длины, которое ставится в соответствие данным произвольной длины таким образом, чтобы вероятность появления различных данных с одинаковым хешем стремилась к нулю, а восстановить данные по их хешу было как можно труднее (см. http://ru.wiktionary.org/wiki/хэш).

Преобразованные поля эталонной формы, а также параметры чувствительности сохраняют на запоминающем устройстве. В совокупности эти данные образуют цифровой отпечаток эталонной формы.

Далее перед началом автоматизированного анализа эталонных форм цифровые отпечатки эталонных форм загружаются в память. Согласно требованиям безопасности, тексты эталонных форм не сохраняются, что позволяет предотвратить их несанкционированное чтение.

Следующий этап настоящего изобретения заключается в том, что выявляют поля эталонных форм в электронном файле анализируемого документа, таким образом происходит анализ того, содержит ли электронный документ часть эталонной формы или нет. Выявляют степень соответствия между эталонными формами и анализируемым документом. Таким образом, выявляют количество полей эталонных форм в анализируемом документе.

Для этого составляют список найденных полей эталонных форм. Основной целью данного этапа является создание списка эталонных форм, данные из которых присутствуют в анализируемом документе. Один из вариантов данного этапа выявления количества полей эталонных форм в анализируемом документе происходит следующим образом.

Этап создания данного списка состоит из нескольких шагов:

1) входной текст разбивается на слова и числа (разделителем считаются все символы кроме букв и цифр), формируется вектор;

2) из полученного вектора удаляются «стоп-слова» и дубликаты, таким образом, получается вектор, состоящий из уникальных слов и чисел, принадлежащих анализируемому документу;

3) от каждого элемента в векторе считается HASH сумма;

4) каждый HASH из полученного вектора ищется во внутреннем хранилище эталонных форм;

5) каждое поле, где найден текущий HASH, помечается;

6) как только становится ясно, что все HASH значения в каком-либо поле формы присутствуют в анализируемом тексте, то соответствующий счетчик для текущей эталонной выгрузки увеличивается;

7) после того как все HASH входного вектора обработаны, формируется список из эталонных форм, счетчики полей которых больше 0.

В результате формируют список эталонных форм, поля которых присутствуют в анализируемом тексте. Далее весь анализ производится только с этими эталонами. Если список эталонов не пустой, то для последующих этапов анализа анализируемый текст разбивается на слова, и от каждого слова снимается HASH, важно не потерять порядок слов. Дальнейшим этапом способа проверяют порядок следования полей из каждой найденной эталонной формы в анализируемом документе, и если порядок полей не совпадает с конкретной эталонной формой, то найденная эталонная форма исключается из списка и не участвует в дальнейшем анализе. Определяют позицию полей эталонной формы в анализируемом документе. Выявляют текст в анализируемом документе, находящийся между найденными полями. Если между любыми соседними полями найден текст, то определяют наличие данной эталонной формы в заполненном виде в анализируемом тексте.

Помещают имя текущей формы в список форм, найденных в анализируемом тексте.

В частном варианте осуществления настоящего изобретения для каждой эталонной формы задают условие, определяющее необходимость эталонной формы быть заполненной для ее детектирования на этапе формирования эталонных форм. И если на этапе проверки порядка следования полей для текущей эталонной формы достаточно только присутствия ее в анализируемом тексте и поля расположены в заданном порядке, то имя текущей эталонной формы помещают в список эталонных форм, выявленных в анализируемом тексте, и анализ для данной формы не продолжается.

Еще в одном из частных случаев осуществления настоящего изобретения исключают «стоп-слова» эталонных формах и в анализируемом документе. Таким образом, способ автоматизированного анализа эталонных форм по настоящему изобретению обеспечивает расширение арсенала технических средств и позволяет сравнительно быстро выявлять в каком-либо документе присутствие данных из эталонных форм, а также определять, заполнены ли данные формы, преодолевая тем самым недостатки известных решений в виде ограниченности их применения.

В заключение следует отметить, что приведенные в описании сведения являются примерами, которые не ограничивают объем настоящего изобретения, определенного формулой. Специалисту в данной области становится понятным, что могут существовать и другие варианты осуществления настоящего изобретения, согласующиеся с сущностью и объемом настоящего изобретения.


СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ
СПОСОБ АВТОМАТИЗИРОВАННОГО АНАЛИЗА ЭТАЛОННЫХ ФОРМ
Источник поступления информации: Роспатент

Показаны записи 1-10 из 11.
10.02.2013
№216.012.2498

Способ автоматизированного анализа текстовых документов

Изобретение относится к автоматизированному анализу текстовых документов. Техническим результатом является расширение арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволяет выявлять в документе выражения, фразы или даже текстовые отрывки...
Тип: Изобретение
Номер охранного документа: 0002474870
Дата охранного документа: 10.02.2013
27.08.2013
№216.012.6581

Способ классификации документов по категориям

Изобретение относится к способу классификации документов по категориям. Техническим результатом является повышение скорости классификации и сокращение потребного объема памяти. Для достижения этого результата в способе классификации документов по категориям строят онтологию в виде совокупности...
Тип: Изобретение
Номер охранного документа: 0002491622
Дата охранного документа: 27.08.2013
27.09.2013
№216.012.70a9

Способ создания токопроводящих дорожек

Изобретение относится к электронной технике и может быть использовано при формировании токопроводящих дорожек для коммутации электронных схем и полупроводниковых приборов. Сущность изобретения: способ создания токопроводящих дорожек включает нанесение сплошных слоев металлизации на непроводящую...
Тип: Изобретение
Номер охранного документа: 0002494492
Дата охранного документа: 27.09.2013
10.11.2013
№216.012.7fd8

Способ обнаружения текстовых объектов

Изобретение относится к способу обнаружения текстовых объектов. Техническим результатом является расширение арсенала технических средств за счет создания сравнительно быстрого способа обнаружения текстовых объектов. Способ обнаружения текстовых объектов заключается в том, что формируют для...
Тип: Изобретение
Номер охранного документа: 0002498401
Дата охранного документа: 10.11.2013
27.11.2013
№216.012.862a

Способ автоматизированного определения языка и (или) кодировки текстового документа

Изобретение относится к автоматизированному определению языка и (или) кодировки текстового документа. Техническим результатом является расширение арсенала технических средств, позволяющее автоматически определять язык и (или) кодировку текста по заранее набранной статистике в любых текстовых...
Тип: Изобретение
Номер охранного документа: 0002500024
Дата охранного документа: 27.11.2013
10.04.2015
№216.013.3af7

Способ автоматизированного анализа выгрузок из баз данных

Изобретение относится к вычислительной технике. Технический результат заключается в защите информации, хранящейся в защищаемой базе данных, от утечек за счет автоматизированного анализа выгрузок из баз данных. Способ автоматизированного анализа выгрузок из баз данных, в котором преобразуют в...
Тип: Изобретение
Номер охранного документа: 0002546583
Дата охранного документа: 10.04.2015
10.07.2015
№216.013.6157

Способ автоматизированного поиска эталонных печатей

Изобретение относится к области обработки данных, а в частности к способам распознавания данных, в том числе считывания знаков, изображений, образов. Техническим результатом является повышение быстродействия при выявлении в любом документе заранее заданной эталонной круглой печати. Предложен...
Тип: Изобретение
Номер охранного документа: 0002556461
Дата охранного документа: 10.07.2015
20.08.2016
№216.015.4e9d

Скважинная насосная установка для добычи битуминозной нефти

Изобретение относится к нефтяной промышленности и может быть использовано при термическом способе добычи тяжелых высоковязких и битуминозных нефтей. Скважинная насосная установка содержит колонны насосно-компрессорных труб (НКТ) с пакером в нижней части и штанги, спущенные в наклонный участок...
Тип: Изобретение
Номер охранного документа: 0002595032
Дата охранного документа: 20.08.2016
29.12.2017
№217.015.fed0

Способ автоматизированного анализа векторных изображений

Изобретение относится к автоматизированному анализу векторных изображений. Технический результат – расширение арсенала технических средств посредством выявления схожих с эталоном векторных изображений. Способ автоматизированного анализа векторных изображений заключается в том, что: каждому...
Тип: Изобретение
Номер охранного документа: 0002633156
Дата охранного документа: 11.10.2017
29.12.2017
№217.015.fed1

Способ автоматизированного анализа растровых изображений

Изобретение относится к автоматизированному анализу растровых изображений. Техническим результатом является расширение арсенала технических средств по выявлению в растровых изображениях схожих с эталоном пикселей растровых изображений. Предложен способ автоматизированного анализа растровых...
Тип: Изобретение
Номер охранного документа: 0002633159
Дата охранного документа: 11.10.2017
Показаны записи 1-10 из 10.
10.02.2013
№216.012.2498

Способ автоматизированного анализа текстовых документов

Изобретение относится к автоматизированному анализу текстовых документов. Техническим результатом является расширение арсенала технических средств за счет создания сравнительно быстрого и универсального способа, который позволяет выявлять в документе выражения, фразы или даже текстовые отрывки...
Тип: Изобретение
Номер охранного документа: 0002474870
Дата охранного документа: 10.02.2013
27.08.2013
№216.012.6581

Способ классификации документов по категориям

Изобретение относится к способу классификации документов по категориям. Техническим результатом является повышение скорости классификации и сокращение потребного объема памяти. Для достижения этого результата в способе классификации документов по категориям строят онтологию в виде совокупности...
Тип: Изобретение
Номер охранного документа: 0002491622
Дата охранного документа: 27.08.2013
27.09.2013
№216.012.70a9

Способ создания токопроводящих дорожек

Изобретение относится к электронной технике и может быть использовано при формировании токопроводящих дорожек для коммутации электронных схем и полупроводниковых приборов. Сущность изобретения: способ создания токопроводящих дорожек включает нанесение сплошных слоев металлизации на непроводящую...
Тип: Изобретение
Номер охранного документа: 0002494492
Дата охранного документа: 27.09.2013
10.11.2013
№216.012.7fd8

Способ обнаружения текстовых объектов

Изобретение относится к способу обнаружения текстовых объектов. Техническим результатом является расширение арсенала технических средств за счет создания сравнительно быстрого способа обнаружения текстовых объектов. Способ обнаружения текстовых объектов заключается в том, что формируют для...
Тип: Изобретение
Номер охранного документа: 0002498401
Дата охранного документа: 10.11.2013
27.11.2013
№216.012.862a

Способ автоматизированного определения языка и (или) кодировки текстового документа

Изобретение относится к автоматизированному определению языка и (или) кодировки текстового документа. Техническим результатом является расширение арсенала технических средств, позволяющее автоматически определять язык и (или) кодировку текста по заранее набранной статистике в любых текстовых...
Тип: Изобретение
Номер охранного документа: 0002500024
Дата охранного документа: 27.11.2013
10.04.2015
№216.013.3af7

Способ автоматизированного анализа выгрузок из баз данных

Изобретение относится к вычислительной технике. Технический результат заключается в защите информации, хранящейся в защищаемой базе данных, от утечек за счет автоматизированного анализа выгрузок из баз данных. Способ автоматизированного анализа выгрузок из баз данных, в котором преобразуют в...
Тип: Изобретение
Номер охранного документа: 0002546583
Дата охранного документа: 10.04.2015
10.07.2015
№216.013.6157

Способ автоматизированного поиска эталонных печатей

Изобретение относится к области обработки данных, а в частности к способам распознавания данных, в том числе считывания знаков, изображений, образов. Техническим результатом является повышение быстродействия при выявлении в любом документе заранее заданной эталонной круглой печати. Предложен...
Тип: Изобретение
Номер охранного документа: 0002556461
Дата охранного документа: 10.07.2015
20.08.2016
№216.015.4e9d

Скважинная насосная установка для добычи битуминозной нефти

Изобретение относится к нефтяной промышленности и может быть использовано при термическом способе добычи тяжелых высоковязких и битуминозных нефтей. Скважинная насосная установка содержит колонны насосно-компрессорных труб (НКТ) с пакером в нижней части и штанги, спущенные в наклонный участок...
Тип: Изобретение
Номер охранного документа: 0002595032
Дата охранного документа: 20.08.2016
29.12.2017
№217.015.fed0

Способ автоматизированного анализа векторных изображений

Изобретение относится к автоматизированному анализу векторных изображений. Технический результат – расширение арсенала технических средств посредством выявления схожих с эталоном векторных изображений. Способ автоматизированного анализа векторных изображений заключается в том, что: каждому...
Тип: Изобретение
Номер охранного документа: 0002633156
Дата охранного документа: 11.10.2017
29.12.2017
№217.015.fed1

Способ автоматизированного анализа растровых изображений

Изобретение относится к автоматизированному анализу растровых изображений. Техническим результатом является расширение арсенала технических средств по выявлению в растровых изображениях схожих с эталоном пикселей растровых изображений. Предложен способ автоматизированного анализа растровых...
Тип: Изобретение
Номер охранного документа: 0002633159
Дата охранного документа: 11.10.2017
+ добавить свой РИД