×
20.12.2015
216.013.9bea

СПОСОБ ПОИСКА ПОХОЖИХ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ

Вид РИД

Изобретение

Юридическая информация Свернуть Развернуть
Краткое описание РИД Свернуть Развернуть
Аннотация: Изобретение относится к способам поиска на устройствах хранения данных электронных документов, похожих стилистически и по смыслу на выбранный документ. Техническим результатом является повышение точности поиска подобных электронных документов в массиве документов различного стиля. В способе поиска похожих по смысловому содержимому электронных документов, размещенных на устройствах хранения данных, осуществляют загрузку двух электронных документов. Определяют параметры поиска путем задания правил формирования множества уникальных слов, формируют множество взвешенных уникальных слов и взвешенных связей между ними. Строят семантическую сеть и производят поиск похожих по смыслу документов путем сравнения семантических сетей. При этом дополнительно задают правила формирования стилистических образов документов путем определения размера матриц частот переходов и выбора элементов матриц частот переходов. Причем элементы матриц частот переходов представляют собой одно из: биграммы и триграммы. Затем формируют матрицы частот переходов документов и сравнивают матрицы частот переходов документов на подобие путем вычисления коэффициента сходства. 2 ил.
Основные результаты: Способ поиска похожих электронных документов, размещенных на устройствах хранения данных, заключающийся в том, что осуществляют загрузку двух электронных документов с устройств хранения данных, определяют параметры поиска путем задания правил формирования множества уникальных слов, формируют множество взвешенных уникальных слов и взвешенных связей между ними, строят семантическую сеть и производят поиск похожих по смыслу документов путем сравнения семантических сетей, отличающийся тем, что дополнительно задают правила формирования стилистических образов документов путем определения размера матриц частот переходов и выбора элементов матриц частот переходов, причем элементы матриц частот переходов представляют собой одно из: биграммы и триграммы; формируют матрицы частот переходов документов, сравнивают матрицы частот переходов документов на подобие путем вычисления коэффициента сходства.
Реферат Свернуть Развернуть

Изобретение относится к способам поиска информации, размещенной на локальных и удаленных устройствах хранения данных. В частности, изобретение относится к способам поиска размещенных на устройствах хранения данных электронных документов, семантически и стилистически похожих на выбранный документ.

Известен метод поиска и извлечения документов при помощи приложений для автоматического персонализированного поиска в базе данных по патенту US 5926812, класс G06F 017/30. Известный способ включает следующую последовательность действий. Определяют множество слов, наиболее часто встречаемых в документах, хранимых в архиве на пользовательском устройстве. При этом учитывается число вхождений слов в документы и их важность, определяемая расположением в заголовках, пересылают полученное множество слов удаленному устройству хранения данных и осуществляют поиск на нем документов, соответствующих упомянутому множеству слов. Формируют множество документов, соответствующих запросу, извлекают из архива, хранимого на удаленном устройстве документов, имеющих наивысшую степень сходства с документами, хранимыми на пользовательском устройстве, и отображают их пользователю.

Недостатком данного способа является низкая точность поиска в связи с тем, что не учитываются связи между словами в формируемом множестве. При этом изобретение не предусматривает расширение поисковых запросов какими-либо аналогами (морфологическими словоформами и синонимами). Т.е. метод осуществляет поиск документов, похожих лишь по текстовому содержимому, и не позволяет находить документы, имеющие смысловое и стилистическое сходство с выбранным документом.

Известен метод и устройство для поиска текста с помощью сигнатур документов по патенту US 6029167, класс G06F 017/00. Метод позволяет кодировать фрагменты текстов документов при помощи последовательности маркеров и включает следующую последовательность действий. Каждому фрагменту присваивается идентифицирующий маркер. Закодированный фрагмент сравнивают с закодированными таким же образом фрагментами, хранимыми в базе данных. Сравнение осуществляют по последовательностям маркеров, присущих фрагментам. В случае обнаружения в базе данных фрагментов, похожих на выбранный (с идентичными маркерами), осуществляют извлечение из базы данных документов, содержащих фрагменты, похожие на выбранный. После чего осуществляют сравнение выбранного фрагмента с найденными в базе данных документами при помощи поиска по последовательным строкам символов, либо каждое слово из исходного фрагмента сравнивают с каждым словом из найденных документов.

Недостатком данного способа является то, что поиск документов и их фрагментов осуществляется лишь по формальным признакам соответствия слов, т.е. метод осуществляет поиск похожих лишь по текстовому содержимому и не позволяет находить документы, имеющие смысловое и стилистическое сходство с выбранным.

Следующим недостатком изобретения является низкая оперативность в связи с тем, что каждое слово из исходного фрагмента сравнивают с каждым словом из найденных документов.

Наиболее близким по технической сущности к заявляемому изобретению (прототипом) является способ поиска похожих по смысловому содержимому электронных документов, размещенных на устройствах хранения данных (патент RU №2420800, МПК G06F 17/30, 10.01.2011 г.). Он включает следующую последовательность действий. Определяются параметры поиска путем задания правил формирования множества уникальных слов. Формируют множество взвешенных уникальных слов и взвешенных связей между ними, на основе которых строят семантическую сеть, и производят поиск похожих по смыслу документов путем сравнения семантических сетей двух документов.

Недостатком этого способа является невысокая точность поиска в массиве документов различного стиля (газетные статьи, новостные сообщения, уведомления чата, почта и др.), обусловленная тем, что при проведении поиска не учитываются стилистические особенности документов.

Задачей изобретения является разработка способа поиска похожих электронных документов, размещенных на устройствах хранения данных, повышающего точность поиска в массиве документов различного стиля.

Эта задача решается тем, что в способ поиска похожих электронных документов, размещенных на устройствах хранения данных после загрузки двух электронных документов с устройств хранения данных, задания правил формирования множества уникальных слов, формирования семантических сетей пары текстов, поиска общих уникальных слов для пары документов, вычисления коэффициента общих ключевых слов, вычисления коэффициента удаленности векторов весов общих уникальных слов, вычисления коэффициента удаленности матриц весов связей общих уникальных слов, вычисления комплексного коэффициента близости пары текстов по смыслу дополнительно введены процедура задания правил формирования стилистических образов документов, процедура формирования стилистических образов документов, процедура сравнения стилистических образов документов на подобие, процедура ранжирования найденных в результате поиска документов с учетом семантического и стилистического подобия.

Введение новых процедур позволяет повысить точность поиска подобных электронных документов в массиве документов различного стиля.

Проведенный анализ уровня техники позволил установить, что аналоги, характеризующиеся совокупностью признаков, тождественных всем признакам заявленного технического решения, отсутствуют, что указывает на соответствие заявленного способа условию патентоспособности «новизна».

Результаты поиска известных решений в данной и смежных областях техники с целью выявления признаков, совпадающих с отличительными от прототипа признаками заявленного объекта, показали, что они не следуют явным образом из уровня техники. Из уровня техники также не выявлена известность отличительных существенных признаков, обусловливающих тот же технический результат, который достигнут в заявляемом способе. Следовательно, заявленное изобретение соответствует условию патентоспособности «изобретательский уровень».

Заявленный способ поясняется чертежами, на которых показано:

фиг.1 - блок-схема реализации способа поиска похожих электронных документов, размещенных на устройствах хранения данных;

фиг.2 - сравнение результатов имитационного моделирования для способа-прототипа и заявленного способа.

Алгоритм сравнения пары текстовых документов (вычисление коэффициента близости), представленный на фиг.1, включает:

Блок №1 - осуществляют загрузку двух электронных документов, один из которых указан пользователем в качестве эталона, с устройств хранения данных.

Блок №2 - задают правила формирования множества уникальных слов, такие как минимальный вес уникального слова, позволяющий включить его в формируемое множество, и максимальное число уникальных слов.

Блок №3 - формируют семантические сети пар документов, представляющие собой набор взвешенных уникальных слов и взвешенных связей между ними. Для построения семантической сети используется модуль обработки документов определенного типа. Все уникальные слова за счет морфологических преобразований приводятся к нормальной форме.

Блок №4 - осуществляют поиск общих уникальных слов для пары электронных документов путем попарного сравнением каждого уникального слова из семантической сети первого документа с каждым уникальным словом из семантической сети второго документа с учетом синонимии слов.

Блок №5 - вычисляют коэффициент k1, показывающий долю общих уникальных слов и рассчитывающийся как отношение суммы весов уникальных слов, общих для этих документов, к сумме весов всех уникальных слов обоих документов.

,

где V1′ - массив весов общих уникальных слов первого документа;

V2′ - массив весов общих уникальных слов второго документа;

t - количество общих уникальных слов обоих документов;

V1 - массив весов уникальных слов первого документа;

V2 - массив весов уникальных слов второго документа;

n - количество уникальных слов первого документа;

m - количество уникальных слов второго документа.

Блок №6 - вычисляют коэффициент удаленности векторов общих уникальных слов (k2) путем измерения евклидова расстояния между двумя векторами весов общих уникальных слов:

Блок №7 - вычисляют коэффициент удаленности матриц весов связей общих уникальных слов (k3) путем расчета евклидова расстояния между матрицами связи общих уникальных слов:

,

где М1′ - матрица связности весов общих уникальных слов первого документа;

М2′ - матрица связности весов общих уникальных слов второго документа;

Блок №8 - вычисляют комплексный коэффициент близости пары текстов по смыслу (K):

Блок №9 - осуществляют задание правил формирования стилистических образов, характеризующих стилистические особенности документов. В качестве стилистических образов принимаются матрицы частот переходов (Поддубный В.В., Шевелев О.Г., Фатыхов А.А. сравнительный анализ эффективности алгоритмов распознавания авторства текстов по частотам переходов // Вестн. Том. гос. ун-та. 2006. №290. С.232-234). В качестве правил формирования определяются размер матриц частот переходов и осуществляется выбор элементов таких матриц (биграммы, триграммы и т.д.).

Блок №10 - формируют стилистические образы документов. В матрицы частот переходов заносятся данные о переходах между элементами матриц, полученные из документов.

Блок №11 - сравнивают стилистические образы документов на подобие путем вычисления коэффициент сходства стилистических образов документов (5), например, с помощью статистики хи-квадрат (Поддубный В.В., Шевелев О.Г., Фатыхов А.А. сравнительный анализ эффективности алгоритмов распознавания авторства текстов по частотам переходов // Вестн. Том. гос. ун-та. 2006. №290. С.232-234), рассчитывающейся по формуле:

где m1ijm2ij - число переходов из i элемента в j в матрицах частот переходов 1 и 2 документов соответственно;

n1in2i - общее число переходов из i элемента в матрицах частот переходов 1 и 2 документов соответственно, причем .

Коэффициент сходства стилистических образов документов принимает значения в интервале от 0 до 1. Причем, чем ниже значение коэффициента, тем более похожи друг на друга стилистические образы.

Блок №12 - осуществляют ранжирование найденных в результате поиска документов с учетом семантического и стилистического подобия путем вычисления обобщенного коэффициента близости пары текстов (H) на основе коэффициента близости пары текстов по смыслу (K) и коэффициента сходства стилистических образов документов(S):

H=α*K+β*(1-S),

где α и β - коэффициенты значимости семантической и стилистической составляющих соответственно, причем α+β=1;

K - коэффициент близости пары текстов по смыслу;

S - коэффициент сходства стилистических образов.

Коэффициенты значимости определяют вклад семантической и стилистической составляющих в зависимости от задачи поиска и принимают значения в интервале от 0 до 1. Чем выше коэффициент, тем больший вклад вносится соответствующей составляющей. В общем случае они задаются значениями, равными 0.5.

Коэффициент H отнормирован от 0 до 1: значение 1 означает полную идентичность текстов, а 0 - полное несоответствие.

Для примера возьмем несколько электронных документов - «A», «B» и «C». «A» определим в качестве эталона. Необходимо определить сходство документов «B» и «C», причем «A» и «C» - документы одного стиля.

На первом этапе осуществляют вычисление коэффициента близости пар текстов по смыслу. Для пары текстов «A» и «B» коэффициент K=0,751, для «A» и «C» коэффициент K=0,727.

На втором этапе формируют стилистические эталоны в виде матриц частот переходов для двух документов и сравнивают их на подобие. Для пары текстов «A» и «B» коэффициент сходства стилистических образов документов S=0,352, для «A» и «C» - S=0,0187.

На последнем этапе вычисляют обобщенный коэффициент близости пары текстов при равных коэффициентах значимости (где α=0,5 и β=0,5).

Для пары текстов «A» и «B»:

H=0,5*0,751+0,5*(1-0,352)=0,6995.

Для пары текстов «A» и «C»:

H=0,5*0,727+0,5*(1-0,0187)=0,85415.

Несмотря на большую близость по смыслу документ «B» имеет различные стилистические особенности по сравнению с документом-эталоном. Полученное в результате расчетов значение обобщенного коэффициента 0,85415 (против 0,6995) говорит о большем стилистическом и смысловом сходстве документа «C» по отношению к документу «A», нежели документа «B».

Правомерность теоретических предпосылок проверялась с помощью имитационных моделей системы-прототипа и системы, реализующей заявленный способ поиска похожих электронных документов, размещенных на устройствах хранения данных.

Показателем эффективности способов поиска похожих электронных документов, размещенных на устройствах хранения данных, является точность.

Для оценки качества функционирования разработанного способа были проведены эксперименты по поиску похожих электронных документов. С этой целью были сформированы эталонные документы различных стилей, по которым затем осуществлялся поиск. Тестовый массив электронных документов составлял 500 файлов. Были проведены эксперименты, показывающие зависимость точности поиска от количества различных стилей в массиве электронных документов, в котором осуществляется поиск (фиг.2).

Результаты, представленные на фиг.2, подтверждают существенное повышение точности поиска при внедрении нового способа.

Промышленная применимость изобретения обусловлена тем, что устройство, реализующее предложенный способ, может быть осуществлено с помощью современной элементной базы с достижением указанного в изобретении назначения.

Способ поиска похожих электронных документов, размещенных на устройствах хранения данных, заключающийся в том, что осуществляют загрузку двух электронных документов с устройств хранения данных, определяют параметры поиска путем задания правил формирования множества уникальных слов, формируют множество взвешенных уникальных слов и взвешенных связей между ними, строят семантическую сеть и производят поиск похожих по смыслу документов путем сравнения семантических сетей, отличающийся тем, что дополнительно задают правила формирования стилистических образов документов путем определения размера матриц частот переходов и выбора элементов матриц частот переходов, причем элементы матриц частот переходов представляют собой одно из: биграммы и триграммы; формируют матрицы частот переходов документов, сравнивают матрицы частот переходов документов на подобие путем вычисления коэффициента сходства.
СПОСОБ ПОИСКА ПОХОЖИХ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ
СПОСОБ ПОИСКА ПОХОЖИХ ЭЛЕКТРОННЫХ ДОКУМЕНТОВ, РАЗМЕЩЕННЫХ НА УСТРОЙСТВАХ ХРАНЕНИЯ ДАННЫХ
Источник поступления информации: Роспатент

Показаны записи 1-10 из 48.
10.04.2014
№216.012.b0ba

Способ восстановления искаженных сжатых файлов

Изобретение относится к средствам сокращения и восстановления передаваемой информации без потерь цифровых данных, сформированных согласно формату Deflate, в информационных системах и системах электросвязи. Технический результат заключается в уменьшении потерь информации при декомпрессии...
Тип: Изобретение
Номер охранного документа: 0002510957
Дата охранного документа: 10.04.2014
27.04.2014
№216.012.bd15

Способ моделирования поиска подвижных абонентов на сетях связи

Изобретение относится к области моделирования сетей связи. Техническим результатом является повышение достоверности оценки моделируемых процессов функционирования и состояний динамически перемещающихся абонентов сетей связи относительно реально функционирующих (существующих) в реальном масштабе...
Тип: Изобретение
Номер охранного документа: 0002514144
Дата охранного документа: 27.04.2014
27.05.2014
№216.012.c973

Способ встраивания сообщения в цифровое изображение формата jpeg 2000

Изобретение относится к вычислительной технике. Технический результат заключается в обеспечении возможности сохранения целостности внедренной информации. Способ встраивания сообщения в цифровое изображение формата JPEG 2000, заключающийся в замене кодирующих коэффициентов среднечастотных и...
Тип: Изобретение
Номер охранного документа: 0002517337
Дата охранного документа: 27.05.2014
27.09.2014
№216.012.f85d

Способ подготовки полиграфолога

Изобретение относится к области медицины, а именно к области проведения психофизических опытов, и может быть использовано в психологии, физиологии, подготовке специалиста полиграфолога, оценке пригодности полиграфолога для задач функциональной диагностики, требующих развития и тренировки...
Тип: Изобретение
Номер охранного документа: 0002529418
Дата охранного документа: 27.09.2014
10.10.2014
№216.012.fbed

Способ встраивания информации в изображение, сжатое фрактальным методом, на основе сформированной библиотеки доменов

Изобретение относится к области стеганографии. Технический результат заключается в обеспечении возможности скрытой передачи конфиденциальных данных. Способ встраивания информации в изображение, сжатое фрактальным методом, на основе сформированной библиотеки доменов, включающий этапы...
Тип: Изобретение
Номер охранного документа: 0002530339
Дата охранного документа: 10.10.2014
10.10.2014
№216.012.fd3b

Способ пространственно-временной коммутации

Изобретение относится к области телекоммуникаций и может быть использовано для построения цифровых систем коммутации. Технический результат заключается в снижении загрузки ЭВМ цифровой системы коммутации. Способ пространственно-временной коммутации заключается в следующем: принимают...
Тип: Изобретение
Номер охранного документа: 0002530673
Дата охранного документа: 10.10.2014
10.10.2014
№216.012.fd4d

Способ защищенного удаленного доступа к информационным ресурсам

Изобретение относится к области передачи цифровой информации, а именно к шифровальным устройствам секретной связи с ключевым распределением, и предназначено для установления защищенного удаленного доступа к информационным ресурсам на основе одношаговой аутентификации с симметричными ключами и...
Тип: Изобретение
Номер охранного документа: 0002530691
Дата охранного документа: 10.10.2014
20.11.2014
№216.013.0933

Устройство двухпараметрового контроля толщины электропроводных покрытий

Изобретение относится к неразрушающему контролю качества материалов и изделий и может быть использовано для измерения толщины немагнитных металлических покрытий на диэлектрической основе или на немагнитной основе с другой удельной электрической проводимостью. Технический результат заключается в...
Тип: Изобретение
Номер охранного документа: 0002533756
Дата охранного документа: 20.11.2014
27.11.2014
№216.013.0a3a

Способ сопряжения передачи, приема информации и питания импульсным током в двухпроводной линии связи

Использование: в области приборостроения при построении распределенных измерительных систем, систем контроля, телеметрии и дистанционного управления. Технический результат - уменьшение энергопотребления и повышение достоверности обмена информацией. Согласно способу от ведущего устройства по...
Тип: Изобретение
Номер охранного документа: 0002534026
Дата охранного документа: 27.11.2014
10.01.2015
№216.013.1d5f

Способ управления скоростью передачи видеопотока

Изобретение относится к области управления скоростью передачи видеопотока по протоколам RTP/RTCP при организации многоточечных сеансов видеосвязи. Техническим результатом является адаптация видеоформатов оконечных терминалов многоточечных сеансов видеосвязи под значения параметров качества...
Тип: Изобретение
Номер охранного документа: 0002538947
Дата охранного документа: 10.01.2015
Показаны записи 1-10 из 77.
10.01.2013
№216.012.1a91

Способ неблокируемой маршрутизации

Изобретение относится к радиотехнике, а именно к технике электросвязи, и, в частности, может применяться на волоконно-оптических сетях связи при необходимости обеспечения неблокируемой маршрутизации для любого из узлов сети. Технический результат заключается в уменьшении аппаратурной сложности...
Тип: Изобретение
Номер охранного документа: 0002472293
Дата охранного документа: 10.01.2013
20.01.2013
№216.012.1dc4

Устройство диагностирования каналов передачи цифровой информации

Изобретение относится к вычислительной технике. Технический результат заключается в повышении достоверности диагностирования КПЦИ за счет вероятностного прогнозирования возможности возникновения отказов (сбоев) в измеряемых приемниках и комплектах оконечной аппаратуры на заданный интервал...
Тип: Изобретение
Номер охранного документа: 0002473114
Дата охранного документа: 20.01.2013
27.01.2013
№216.012.210f

Способ обнаружения идентификационных признаков для различных буквенно-знаковых систем письменности

Изобретение относится к области информатики и вычислительной техники и может использоваться для обработки информационных потоков и обнаружения в них заданных эталонных признаков, представленных в различных буквенно-знаковых системах письменности. Техническим результатом является расширение...
Тип: Изобретение
Номер охранного документа: 0002473964
Дата охранного документа: 27.01.2013
10.05.2013
№216.012.3f0e

Способ передачи мультипротокольных информационных потоков и устройство для его осуществления

Изобретения относятся к области многоканальных волоконно-оптических систем передачи, в частности к системам, использующим спектральное мультиплексирование каналов. Технический результат состоит в разработке способа передачи мультипротокольных информационных потоков и устройства для его...
Тип: Изобретение
Номер охранного документа: 0002481709
Дата охранного документа: 10.05.2013
20.05.2013
№216.012.424c

Способ установления подлинности оригиналов бумажных документов

Изобретение относится к средствам установления подлинности бумажного документа при его получении исполнителем для ознакомления с цифровой копией его оригинала, согласованного, подписанного и утвержденного ответственными лицами оригинала, единожды занесенного в электронную базу данных....
Тип: Изобретение
Номер охранного документа: 0002482542
Дата охранного документа: 20.05.2013
20.06.2013
№216.012.4e1a

Система управления жизненным циклом компьютерных систем на основе интегрированной модели

Изобретение относится к средствам управления компьютерными системами и приложениями. Техническим результатом является повышение результативности управления компьютерными системами и приложениями. Система содержит компонент концептуального управления, компонент интеграции и управления, компонент...
Тип: Изобретение
Номер охранного документа: 0002485576
Дата охранного документа: 20.06.2013
20.06.2013
№216.012.4e24

Способ идентификации сигналов

Изобретение относится к способам идентификации сигналов. Техническим результатом является снижение временной длительности процедуры идентификации анализируемого сигнала с эталонами и сокращение памяти, необходимой для хранения эталонных образцов сигналов. Технический результат заявленного...
Тип: Изобретение
Номер охранного документа: 0002485586
Дата охранного документа: 20.06.2013
27.06.2013
№216.012.5261

Устройство синхронизации псевдослучайной последовательности с функцией исправления ошибок

Изобретение относится к технике передачи дискретной информации и предназначено для синхронизации псевдослучайных последовательностей. Технический результат - обеспечение правильной синхронизации при снижении качества канала связи одновременно с отсутствием возможности ложной синхронизации. Для...
Тип: Изобретение
Номер охранного документа: 0002486682
Дата охранного документа: 27.06.2013
20.08.2013
№216.012.6229

Рамочная двухвитковая антенна в защитном корпусе

Изобретение относится к области радиотехники, в частности к антенной технике, и может быть использовано в качестве приемных и передающих антенн средств связи декаметрового диапазона радиоволн. Технический результат - повышение КПД антенны, защита от климатических и механических воздействий....
Тип: Изобретение
Номер охранного документа: 0002490761
Дата охранного документа: 20.08.2013
10.10.2013
№216.012.7497

Способ снижения скорости передачи низкоскоростных вокодеров с линейным предсказанием

Изобретение относится к области цифровой связи и может быть использовано в системах телеинформационных коммуникаций для эффективного кодирования речевых сигналов. Техническим результатом предлагаемого способа является уменьшение скорости передачи данных по каналам связи при эффективном...
Тип: Изобретение
Номер охранного документа: 0002495504
Дата охранного документа: 10.10.2013
+ добавить свой РИД