×
08.07.2018
218.016.6dce

СПОСОБ И УСТРОЙСТВО ИЕРАРХИЧЕСКОЙ ФИЛЬТРАЦИИ ДОКУМЕНТОВ

Вид РИД

Изобретение

Юридическая информация Свернуть Развернуть
№ охранного документа
0002660636
Дата охранного документа
06.07.2018
Краткое описание РИД Свернуть Развернуть
Аннотация: Изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов. Техническим результатом является сокращение времени ответа при поиске и снижение расходов на вычисление. В способе иерархической фильтрации документов выбирают несколько документов из фильтруемого набора документов текущего иерархического слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов и формируют первый список документов. Вычисляют значение качества каждого документа в первом списке документов. Переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа, чтобы получить второй список документов. Фильтруют фильтруемый набор документов текущего иерархического слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов. В соответствии с изобретением фильтруется фильтруемый набор документов текущего слоя фильтрации документов, так что значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. 2 н. и 10 з.п. ф-лы, 3 ил.
Реферат Свернуть Развернуть

Область техники, к которой относится изобретение

Настоящее изобретение относится к области техники поиска информации и, в частности, к способу и устройству иерархической фильтрации документов.

Предпосылки создания изобретения

В повседневной жизни пользователь часто использует ключевые слова, чтобы осуществлять поиск требуемого контента посредством использования поисковой машины. Поисковой машине требуется найти связанные документы из значительного количества документов в соответствии с ключевым словом с тем, чтобы пользователь смог прочитать требуемый контент из связанных документов.

В настоящее время, во время поиска документа, поисковая машина сначала использует алгоритм релевантности с определенным количеством признаков, чтобы вычислить релевантность между каждым документом из значительного количества документов и ключевым словом, т.е. значение качества документа, и отфильтровывает документы со значениями качества меньше, чем текущая пороговая величина фильтрации. Когда в алгоритм релевантности добавляются еще признаки, вычисляются значения качества оставшихся документов, и дополнительно отфильтровываются документы со значениями качества меньше, чем текущая пороговая величина фильтрации. По аналогии, вычисление значения качества документов и отфильтровывание документов со значениями качества, меньшими, чем пороговая величина фильтрации, выполняются несколько раз вышеупомянутым образом до тех пор, пока количество документов, получаемых в результате фильтрации, не достигает ожидаемого количества, и итоговые оставшиеся документы определяются в качестве связанных документов, найденных посредством поиска.

Во время реализации настоящего изобретения авторы изобретения обнаружили, что когда присутствует некоторое количество документов в поиске, каждый раз после фильтрации, по-прежнему остается много документов. Вычисление значений качества большого количества документов занимает всякий раз длительное время, и в целом, это занимает много времени, что приводит к более высоким накладным расходам на вычисления и длительному времени ответа при поиске.

Сущность изобретения

В связи с этим, цель вариантов осуществления настоящего изобретения состоит в предоставлении способа и устройства иерархической фильтрации документов, тем самым реализуя иерархическую фильтрацию документов, сокращая время ответа при поиске, и снижая накладные расходы на вычисления.

В соответствии с первым аспектом, вариант осуществления настоящего изобретения предоставляет способ иерархической фильтрации документов, при этом способ включает в себя этапы, на которых:

выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формируют первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов;

вычисляют значение качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и

фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет первую возможную реализацию первого аспекта, где этап, на котором выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, включает в себя этапы, на которых:

определяют, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов, и второе количество документов, которое требуется выбрать из каждого из подмножеств документов;

делят фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

выбирают второе количество документов из каждого из подмножеств документов соответственно, чтобы получить несколько документов.

Со ссылкой на первую возможную реализацию первого аспекта, данный вариант осуществления настоящего изобретения предоставляет третью возможную реализацию первого аспекта, где этап, на котором выбирают второе количество документов из каждого из подмножеств документов соответственно, включает в себя этапы, на которых:

выбирают второе количество документов из передней части каждого из подмножеств документов соответственно; или,

выбирают второе количество документов из каждого из подмножеств документов с предварительно определенным интервалом соответственно; или,

выбирают второе количество документов из каждого из подмножеств документов соответственно случайным образом.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет вторую возможную реализацию первого аспекта, где этап, на котором выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, включает в себя этапы, на которых:

определяют интервал отбора образцов документов в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и

выбирают документы из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет четвертую возможную реализацию первого аспекта, где этап, на котором фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, включает в себя этапы, на которых:

оценивают, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисляют значение качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивают документы в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывают документы, удовлетворяющие предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

Со ссылкой на первый аспект, данный вариант осуществления настоящего изобретения предоставляет пятую возможную реализацию первого аспекта, где после этапа, на котором фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов, способ дополнительно включает в себя этапы, на которых:

оценивают, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определяют документы в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, используют отфильтрованный фильтруемый набор документов в качестве нового набора документов, и фильтруют новый набор документов посредством использования нижерасположенного слоя фильтрации документов.

В соответствии со вторым аспектом, вариант осуществления настоящего изобретения предоставляет устройство иерархической фильтрации документов, где устройство включает в себя:

модуль выбора, выполненный с возможностью выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формирования первого списка документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов;

модуль вычисления, выполненный с возможностью вычисления значения качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

модуль упорядочивания, выполненный с возможностью переупорядочивания документов в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и

модуль фильтрации, выполненный с возможностью фильтрации фильтруемого набора документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет первую возможную реализацию второго аспекта, где модуль выбора включает в себя:

первый блок определения, выполненный с возможностью определения, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первого количества подмножеств документов на которое требуется разделить фильтруемый набор документов, и второго количества документов, которое требуется выбрать из каждого из подмножеств документов;

блок деления, выполненный с возможностью деления фильтруемого набора документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и

первый блок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов соответственно, чтобы получить несколько документов.

Со ссылкой на первую возможную реализацию второго аспекта, данный вариант осуществления настоящего изобретения предоставляет третью возможную реализацию второго аспекта, где первый блок выбора включает в себя:

первый субблок выбора, выполненный с возможностью выбора второго количества документов из передней части каждого из подмножеств документов соответственно; или,

второй субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов с предварительно определенным интервалом соответственно; или,

третий субблок выбора, выполненный с возможностью выбора второго количества документов из каждого из подмножеств документов соответственно случайным образом.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет вторую возможную реализацию второго аспекта, где модуль выбора включает в себя:

второй блок определения, выполненный с возможностью определения интервала отбора образцов документов в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и

второй блок выбора, выполненный с возможностью выбора документов из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет четвертую возможную реализацию второго аспекта, где модуль фильтрации включает в себя:

блок фильтрации, выполненный с возможностью определения, является ли степень согласованности между первым списком документов и вторым списком документов больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывания документов, удовлетворяющих предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисления значения качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивания документов в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывания документов, удовлетворяющих предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

Со ссылкой на второй аспект, данный вариант осуществления настоящего изобретения предоставляет пятую возможную реализацию второго аспекта, где устройство дополнительно включает в себя:

модуль оценки остановки, выполненный с возможностью определения, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определения документов в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, использования отфильтрованного фильтруемого набора документов в качестве нового набора документов, и фильтрации нового набора документов посредством использования нижерасположенного слоя фильтрации документов.

В соответствии со способом и устройством, предоставляемыми вариантом осуществления настоящего изобретения, первый список документов формируется посредством выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов; значение качества каждого документа в первом списке документов вычисляется соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов; документы в первом списке документов переупорядочиваются в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и фильтруемый набор документов текущего слоя фильтрации документов фильтруется в соответствии со степенью согласованности между первым списком документов и вторым списком документов. Так как фильтруется фильтруемый набор документов текущего слоя фильтрации документов, значительно сокращается количество документов, которое требуется обработать на нижерасположенном слое фильтрации документов. На каждом слое, фильтруемый набор документов текущего слоя может фильтроваться в соответствии с данным решением. Вследствие этого, реализуется иерархическая фильтрация документов, сокращается время ответа при поиске, и снижаются накладные расходы на вычисления.

Для того чтобы сделать цели, признаки, и преимущества настоящего изобретения более понятными, подробное описание предоставляется ниже посредством использования предпочтительных вариантов осуществления со ссылкой на сопроводительные чертежи.

Краткое описание чертежей

Чтобы проиллюстрировать технические решения в вариантах осуществления настоящего изобретения более четко, сопроводительные чертежи, требуемые для описания вариантов осуществления, кратко описываются ниже. Должно быть понятно, что сопроводительные чертежи ниже лишь показывают некоторые варианты осуществления настоящего изобретения, и, вследствие этого, не должны толковаться в качестве ограничивающих объем. Специалисты в соответствующей области техники по-прежнему могут получить другие чертежи из этих сопроводительных чертежей, без приложения творческих усилий.

Фиг. 1A является блок-схемой способа иерархической фильтрации в соответствии с Вариантом 1 Осуществления настоящего изобретения;

Фиг. 1B является принципиальной блок-схемой выбора документа в соответствии с Вариантом 1 Осуществления настоящего изобретения; и

Фиг. 2 является принципиальной структурной схемой устройства иерархической фильтрации в соответствии с Вариантом 2 Осуществления настоящего изобретения.

Подробное описание

Технические решения в соответствии с вариантами осуществления настоящего изобретения четко и полностью описываются ниже со ссылкой на сопроводительные чертежи. Очевидно, что варианты осуществления нижеследующего описания являются лишь некоторыми, а не всеми вариантами осуществления настоящего изобретения. Как правило, компоненты вариантов осуществления настоящего изобретения, описанные или показанные на сопроводительных чертежах, могут быть организованы или исполнены в соответствии с разнообразными конфигурациями. Вследствие этого, нижеследующее подробное описание вариантов осуществления настоящего изобретения, предоставленное на сопроводительных чертежах, не предназначено для того, чтобы ограничивать объем правовой охраны настоящего изобретения, а лишь показывает выбранные варианты осуществления настоящего изобретения. Все другие варианты осуществления, полученные специалистами в соответствующей области техники на основании вариантов осуществления настоящего изобретения без приложения творческих усилий, должны лежать в рамках объема правовой охраны настоящего изобретения.

В области техники поиска, к которой принадлежит настоящее изобретение, количество документов в сети Интернет очень большое, так что поисковая машина может находить большое количество связанных документов в соответствии с ключевым словом, предоставленным пользователем, но значительная часть большого количества связанных документов обладает очень низкой релевантностью по отношению к ключевому слову, и качество документа большого числа документов является очень низким. Если такие документы отправляются к пользователю, вероятность того, что пользователь просматривает такие документы очень низкая, и передача таких документов требует растраты большого объема трафика данных. Чтобы сократить трафик данных и улучшить информативный характер и качество документа у документов, которые в итоге передаются пользователю, требуется сначала отфильтровать найденные документы.

В ходе осмысления решения фильтрации документов настоящего изобретения, учитывалось, что в известном уровне техники, когда количество документов, найденных посредством поиска, является очень большим, фильтрация выполняется в соответствии со значениями качества документов несколько раз, причем количество оставшихся документов после каждой фильтрации по-прежнему очень большое, и по-прежнему каждый раз вычисление значений качества большого количества документов занимает очень длительное время, приводя к тому, что накладные расходы на вычисления являются очень высокими, а время ответа при поиске является очень длительным. На основании этого, варианты осуществления настоящего изобретения предоставляют способ и устройство иерархической фильтрации документов. Описание предоставляется ниже посредством использования вариантов осуществления.

Вариант 1 Осуществления

Данный вариант осуществления настоящего изобретения предоставляет способ иерархической фильтрации документов. В данном варианте осуществления присутствует несколько слоев фильтрации документов от верхнего к нижнему, способ вычисления релевантности является предварительно установленным для каждого слоя фильтрации документов, и способы вычисления релевантности слоев могут быть разными, как исходя из количества признаков, которые используются, так и исходя из сложности алгоритма. Для нижерасположенного слоя фильтрации документов, может быть использован алгоритм более высокой сложности и большее число признаков с тем, чтобы улучшить точность вычисления.

Во время фильтрации документов на каждом слое фильтрации документов способ фильтрации документов на первом слое является точно таким же, как существующий способ фильтрации документов, т.е., документы удовлетворяющие предварительно установленному условию фильтрации фильтруются в соответствии со значением качества каждого документа, и оставшиеся документы переносятся на второй слой с тем, чтобы фильтроваться в дальнейшем. Предварительно установленное условие фильтрации может состоять в том, что отфильтровываются все документы со значениями качества меньшими, чем предварительно установленная пороговая величина качества; или может состоять в том, что оставляется предварительно определенное количество документов с самыми высокими значениями качества, а другие документы отфильтровываются. Применительно к каждому из этих слоев фильтрации, за исключением первого слоя, фильтруемый набор документов текущего слоя фильтрации документов фильтруется посредством использования способа, предоставленного посредством данного варианта осуществления настоящего изобретения, и набор документов, после того как фильтрация выполняется на текущем слое фильтрации документов, используется в качестве набора документов, который должен быть отфильтрован на нижерасположенном слое фильтрации документов, до тех пор, пока набор документов, полученный посредством фильтрации, уже не удовлетворяет требованию, например, количество наборов документов уже достигло ожидаемого количества, или до тех пор, пока набор документов уже не отфильтрован последним слоем.

Обращаясь к Фиг. 1A, Фиг. 1A является блок-схемой способа иерархической фильтрации документов, предоставленного данным вариантом осуществления настоящего изобретения, и способ, в частности, включает в себя следующие этапы:

Этап 101: Выбирают несколько документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формируют первый список документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов.

Фильтруемый набор документов текущего слоя фильтрации документов является набором документов, сформированным документами, которые остались после фильтрации, выполненной на вышерасположенном слое фильтрации документов. Документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов. Т.е., во время фильтрации на вышерасположенном слое фильтрации документов, значение качества каждого документа в фильтруемом наборе документов вычисляется в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и документы в фильтруемом наборе документов упорядочиваются в соответствии с предварительно установленной упорядоченностью значений качества. Предварительно установленная упорядоченность может быть упорядоченностью по убыванию значений качества или упорядоченностью по возрастанию значений качества.

Способ вычисления релевантности состоит в том, что значение качества документа вычисляется посредством использования предварительно установленного алгоритма в соответствии с некоторым количеством признаков, и в данном варианте осуществления настоящего изобретения, соответствующий способ вычисления релевантности конфигурируется для каждого слоя. Предварительно установленный алгоритм может быть алгоритмом ранжирования релевантности, таким как алгоритм BM25. Значение качества может указывать, является ли качество документа хорошим или низким. Большее значение качества указывает более высокое качество документа, а меньшее значение качества указывает на более низкое качество документа. Признаки, используемые способом вычисления релевантности, могут быть признаками, таким как длина документа и количество раз или частота, с которой ключевое слово встречается в документе.

В данном варианте осуществления настоящего изобретения, предварительно установленная стратегия отбора образцов может включать в себя количество документов, выбираемых из фильтруемого набора документов текущего слоя фильтрации документов, и способ выбора. Способ выбора может быть случайным выбором документов, выбором документов из передней части фильтруемого набора документов, выбором документов с предварительно определенным интервалом, или подобным. Количество выбранных документов связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может включать в себя предварительно установленный коэффициент выбора. Во время выбора документа, количество выбираемых документов может определяться в соответствии с количеством документов, включаемых фильтруемым набором документов, и коэффициентом выбора.

В данном варианте осуществления настоящего изобретения, несколько документов может быть выбрано из фильтруемого набора документов текущего слоя фильтрации документов непосредственно в соответствии с предварительно установленной стратегией отбора образцов, и первый список документов формируется посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов. Способ упорядочивания документов в первом списке документов, полученном данным путем, является точно таким же, как способ упорядочивания документов в фильтруемом наборе документов, и все документы в первом списке документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов, так что достоверность упорядоченности документов в первом списке документов является очень близкой к достоверности упорядоченности документов в фильтруемом наборе документов, и первый список документов может быть использован, чтобы представлять фильтруемый набор документов. Количество документов в первом списке документов много меньше количества документов в фильтруемом наборе документов, так что выполнение последующей обработки посредством использования первого списка документов, чтобы представлять фильтруемый набор документов, может значительно сократить объем вычислений, упростить процесс обработки и снизить накладные расходы на вычисления.

Чтобы облегчить понимание вышеупомянутой операции выбора документов и формирования первого списка документов, ниже в качестве примера предоставляется описание. Например, предполагается, что предварительно установленным коэффициентом выбора, включенным в предварительно установленную стратегию отбора образцов, является 20%, способ выбора состоит в том, что выбор выполняется с предварительно определенным интервалом, равным 10, и количество документов в фильтруемом наборе документов текущего слоя фильтрации документов составляет 5000. Один документ выбирается, с интервалом каждые 10 документов, из 5000 документов, включенных в фильтруемый набор документов текущего слоя фильтрации документов, суммарно выбирается 500 документов, и первый список документов формируется, посредством использования 500 документов в соответствии с упорядоченностью 500 документов в фильтруемом наборе документов.

Когда документы выбираются из фильтруемого набора документов посредством отбора образцов, если выбор является более равномерным, степень, в которой полученный первый список документов представляет фильтруемый набор документов, является более высокой. Вследствие этого, для того, чтобы выбирать документы равномерно из фильтруемого набора документов, перед вышеупомянутой операцией выбора документа, фильтруемый набор документов может быть дополнительно разделен равномерно на несколько подмножеств документов, и затем документы выбираются из каждого подмножества документов соответственно. Количество подмножеств документов, полученных посредством деления, связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может дополнительно включать в себя предварительно установленное правило деления, количество документов, выбираемых из подмножества документов, и способ выбора. Предварительно установленное правило деления может состоять в том, что количество документов в подмножестве документов, получаемом посредством деления, является фиксированным значением; или, предварительно установленное правило деления может состоять в том, что когда количество документов в фильтруемом наборе документов больше, чем предварительно установленная пороговая величина, фильтруемый набор документов делится на первое предварительно установленное количество подмножеств документов, или в противном случае, фильтруемый набор документов делится на второе предварительно установленное количество подмножеств документов. Предварительно установленное правило деления также может быть другим правилом, и может быть установлено в соответствии с фактическими потребностями на практике.

Как показано на Фиг. 1B, вышеупомянутая операция получения подмножеств документов посредством сначала деления и затем выбора документов, может быть в частности реализована посредством операции из следующих этапов с S1 по S4, которые в частности включают в себя:

S1: Определяют, в соответствии с количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов и предварительно установленным правилом деления, включенным в предварительно установленную стратегию отбора образцов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов.

S2: Определяют, в соответствии с предварительно установленной стратегией отбора образцов, второе количество документов, которое требуется выбрать из каждого подмножества документов.

S3: Делят фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов.

S4: Выбирают второе количество документов из каждого подмножества документов соответственно, чтобы получить несколько документов.

Операция выбора второго количества документов из каждого подмножества документов соответственно может быть выполнена посредством использования нескольких способов выбора, которые в частности включают в себя:

выбор второго количества документов из передней части каждого подмножества документов соответственно; или, выбор второго количества документов из каждого подмножества документов с предварительно определенным интервалом соответственно; или, выбор второго количества документов из каждого подмножества документов соответственно случайным образом.

Непосредственный выбор документов из передних частей подмножеств документов обеспечивает быстрый выбор второго количества документов из каждого подмножества документов, тем самым сокращая время выбора документов из фильтруемого набора документов. Выполнение выбора с предварительно определенным интервалом или выполнение случайного выбора обеспечивает равномерный выбор документов из каждого подмножества документов, так что итоговый формируемый первый список документов может лучше представлять фильтруемый набор документов.

Чтобы облегчить понимание вышеупомянутого способа получения подмножеств документов посредством сначала деления и затем выбора документов, ниже в качестве примера предоставляется описание. Например, предполагается, что предварительно установленное правило деления, включенное в предварительно установленную стратегию отбора образцов, состоит в том, что количество документов в подмножестве документов, получаемых посредством деления, равно 200, количество документов выбираемых из подмножества документов является 20, и способ выбора является случайным выбором; и количество документов в фильтруемом наборе документов текущего слоя фильтрации документов составляет 5000. Количество подмножеств документов, которые должны быть получены посредством деления, определяется равным 25 в соответствии с правилом о том, что количество документов в фильтруемом наборе документов текущего слоя фильтрации документов равно 5000 и что количество документов в подмножестве документов предварительно установлено равным 200 в предварительно установленном правиле деления. Соответственно, 20 документов случайным образом выбираются из каждого из 25 подмножеств документов, полученных посредством деления, и, вследствие этого, суммарно выбирается 500 документов. Первый список документов формируется посредством использования 500 документов в соответствии с упорядоченностью 500 документов в фильтруемом наборе документов.

В данном варианте осуществления настоящего изобретения, когда документы выбираются из фильтруемого набора документов текущего слоя фильтрации документов посредством использования способа разнесенного отбора образцов, если документы выбираются с предварительно определенным интервалом, когда количество документов в фильтруемом наборе документов текущего слоя фильтрации документов является очень большим, большое количество документов выбираются из фильтруемого набора документов, и, как результат, объем вычислений по-прежнему является очень большим, когда последующая обработка фильтрации выполняется в соответствии со сформированным первым списком документов. Вследствие этого, во время разнесенного отбора образцов, интервал отбора образцов может быть адаптирован к количеству документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов. Большее количество документов приводит к большему интервалу отбора образцов, а меньшее количество документов приводит к меньшему интервалу отбора образцов. Конкретная операция выбора разнесенного отбора образцов включает в себя:

Несколько интервалов отбора образцов может быть установлено в предварительно установленной стратегии отбора образцов, и каждый интервал отбора образцов является соответствующим диапазону количества документов соответственно. Диапазон количества документов, соответствующий количеству документов, включаемых фильтруемым набором документов, определяется в соответствии с предварительно установленной стратегией отбора образцов и количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, интервал отбора образцов, соответствующий диапазону количества, определяется в качестве интервала отбора образцов документов, и затем документы выбираются из фильтруемого набора документов в соответствии с интервалом отбора образцов документов с тем, чтобы получить несколько документов.

Например, предполагается, что в предварительно установленной стратегии отбора образцов установлено, что интервал отбора образцов равный 10 является соответствующим диапазону количества документов [2000, 5000], и установлено, что интервал отбора образцов равный 20 является соответствующим диапазону количества документов (5000, 10000], и предполагается, что количество документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, равно 8000, так что определяется, что диапазоном, соответствующим количеству документов 8000, является (5000, 10000], и определяется, что интервал отбора образцов фильтруемого набора документов текущего слоя фильтрации документов равен 20. Один документ выбирается, через каждый интервал в 20 документов, из 8000 документов, включаемых фильтруемым набором документов, и суммарно выбирается 400 документов. Посредством операции этапа 101, первый список документов формируется посредством использования документов, выбранных из фильтруемого набора документов. Упорядоченность размещения документов в первом списке документов является точно такой же, как упорядоченность размещения документов в фильтруемом наборе документов.

Этап 102: Вычисляют значение качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов.

Для каждого документа, включенного в первый список документов, значение параметра предварительно установленного признака, используемого текущим слоем фильтрации документов, получается из документа, и значение качества документа вычисляется в соответствии с полученным значением параметра признака, посредством использования предварительно установленного алгоритма ранжирования релевантности. Например, предполагается, что предварительно установленным признаком, используемым текущим слоем фильтрации документов, является длина документа и количество раз, которое встречается ключевое слово, и предполагается, что предварительно установленным алгоритмом ранжирования релевантности является алгоритм BM25, так что получается длина документа, подсчитывается количество раз, которое ключевое слово встречается в документе, и значение качества документа вычисляется посредством использования алгоритма BM25, в соответствии с длиной документа и количеством раз, которое встречается ключевое слово.

Этап 103: Переупорядочивают документы в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов.

Документы в первом списке документов переупорядочиваются в соответствии с вычисленным значением качества каждого документа в первом списке документов и предварительно установленной упорядоченностью, чтобы получить второй список документов.

Предварительно установленная упорядоченность является точно такой же как способ упорядочивания документов в фильтруемом наборе документов. Т.е., если документы в фильтруемом наборе документов упорядочены в упорядоченности по убыванию значений качества, предварительно установленной упорядоченностью также является упорядочивание в упорядоченности по убыванию значения качества; а если документы в фильтруемом наборе документов упорядочены в упорядоченности по возрастанию значений качества, предварительно установленной упорядоченностью также является упорядочивание в упорядоченности по возрастанию значений качества.

Таким образом, способ упорядочивания документов во втором списке документов, полученном посредством переупорядочивания, является точно таким же, как способ упорядочивания документов в первом списке документов. Разница состоит в том, что документы в первом списке документов упорядочены в соответствии со значениями качества на вышерасположенном слое фильтрации документов, а документы во втором списке документов упорядочены в соответствии со значениями качества на текущем слое фильтрации документов. Вследствие этого, если упорядоченность размещения документов в первом списке документов является очень близкой или точно такой же, как упорядоченность размещения документов во втором списке документов, это указывает на то, что результат упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, является очень близким к результату упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и в данном случае, не требуется выполнять обработку вычисления над каждым документом в фильтруемом наборе документов на текущем слое фильтрации документов.

Вследствие этого, после того как получается второй список документов, требуется дополнительно выполнить операцию следующего этапа 104, чтобы определить степень согласованности между первым списком документов и вторым списком документов, и отфильтровать фильтруемый набор документов в соответствии со степенью согласованности между двумя.

Этап 104: Фильтруют фильтруемый набор документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Степень согласованности между первым списком документов и вторым списком документов вычисляется в соответствии с упорядоченностью упорядоченного списка индекса согласованности посредством использования предварительно установленного алгоритма согласованности. Индекс согласованности может быть индексом оценки web-страницы, таким как DCG (Дисконтированная Совокупная Выгода, индекс, который измеряет качество поисковой машины) или nDCG (нормированная Дисконтированная Совокупная Выгода, стандартный индекс, который измеряет качество поисковой машины). Предварительно установленным алгоритмом согласованности может быть алгоритм DCG или алгоритм nDCG.

Вычисленная степень согласованности находится в диапазоне значения [0,1]. Если степень согласованности приближается к 1, это указывает на то, что разница между упорядоченностью размещения документов в первом списке документов и упорядоченностью размещения документов во втором списке документов небольшая, и, вследствие этого, это указывает на то, что разница между упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на вышерасположенном слое фильтрации документов, и упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на текущем слое фильтрации документов, небольшая. Если степень согласованности приближается к 0, это указывает на то, что разница между упорядоченностью размещения документов в первом списке документов и упорядоченностью размещения документов во втором списке документов очень большая, и, вследствие этого, это указывает на то, что разница между упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на вышерасположенном слое фильтрации документов, и упорядочиванием, выполненным над фильтруемым набором документов в соответствии со значениями качества на текущем слое фильтрации документов, очень большая.

В данном варианте осуществления настоящего изобретения, предварительно устанавливается предварительно устанавливаемая пороговая величина согласованности, и предварительно установленная пороговая величина согласованности может быть значением, близким к 1, таким как 0.85 или 0.9. Определяется, является ли степень согласованности выше, чем предварительно установленная пороговая величина согласованности. Когда определяется, что степень согласованности выше, чем предварительно установленная пороговая величина согласованности, определяется, что упорядоченность размещения документов в первом списке документов является точно такой же, как упорядоченность размещения документов во втором списке документов. В противном случае, когда степень согласованности меньше, чем или равна предварительно установленной пороговой величине согласованности, определяется, что упорядоченность размещения документов в первом списке документов отличается от упорядоченности размещения документов во втором списке документов.

Когда определяется, что упорядоченность размещения документов в первом списке документов согласуется с упорядоченностью размещения документов во втором списке документов, упорядоченность размещения документов в фильтруемом наборе документов определяется как правдоподобная, не требуется вычисления значения качества каждого документа в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов и выполнение переупорядочивания, и вместо этого непосредственно фильтруются документы, удовлетворяющие предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов. Предварительно установленное условие фильтрации может заключаться в том, что отфильтровываются документы со значениями качества меньше, чем предварительно установленная пороговая величина качества; или, предварительно установленное условие фильтрации может заключаться в том, что оставляют предварительно установленное количество документов с самыми большими значениями качества, а другие документы отфильтровываются.

Когда определяется, что упорядоченность размещения документов в первом списке документов не согласуется с упорядоченностью размещения документов во втором списке документов, упорядоченность размещения документов в фильтруемом наборе документов определяется как неправдоподобная, значение качества каждого документа в фильтруемом наборе документов вычисляется в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, документы в фильтруемом наборе документов переупорядочиваются в соответствии с вычисленными значениями качества, и документы, удовлетворяющие предварительно установленному условию фильтрации в упорядоченном фильтруемом наборе документов, фильтруются.

В данном варианте осуществления настоящего изобретения, правдоподобность упорядоченности размещения документов в фильтруемом наборе документов определяется в соответствии со степенью согласованности между первым списком документов и вторым списком документов; когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, непосредственно фильтруется фильтруемый набор документов; и лишь когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов неправдоподобная, требуется вычисление значения качества каждого документа в фильтруемом наборе документов. Таким образом, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, количество документов, в отношении которых должно быть осуществлено вычисление на текущем слое фильтрации документов может быть значительно сокращено.

В процессе поиска документов, фильтруемый набор документов может фильтроваться на каждом слое фильтрации в соответствии с операцией вышеупомянутых этапов с 101 по 104, так что, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная на нескольких слоях, может быть значительно сокращено количество документов, в отношении которых должно быть осуществлено вычисление во всем процессе поиска, снижаются накладные расходы на вычисления и сокращается время ответа при поиске.

В данном варианте осуществления настоящего изобретения, дополнительно предварительно устанавливается условие остановки фильтрации. Предварительно установленным условием остановки фильтрации может быть: фильтрация останавливается, когда количество документов в отфильтрованном фильтруемом наборе документов меньше, чем некоторое значение, т.е., в данном случае, количество оставшихся документов после фильтрации уже достигает ожидаемого значения, и фильтрация может быть остановлена.

В качестве альтернативы, предварительно установленным условием остановки фильтрации может быть: когда текущий слой фильтрации документов является последним слоем, операция фильтрации документов останавливается, т.е., после того, как набор документов фильтруется на последнем слое фильтрации документов, фильтрация документов останавливается. В дополнение, слой, на котором фильтрация останавливается также может быть установлен пользователем в соответствии с конкретными потребностями. Например, в сценарии приложения, устанавливаются 10 слоев фильтрации документов, но во время поиска, выполняемого пользователем, не требуется выполнения фильтрации документов на многих слоях, например, может потребоваться только 5 слоев фильтрации документов, и может быть установлено, что когда выполняется пятый слой фильтрации документов, фильтрация останавливается. В данном случае, когда определяется, что номер слоя у текущего слоя равен 5, фильтрация останавливается после того, как фильтруются документы текущего слоя.

На каждом слое фильтрации документов, когда определяется, в соответствии с номером слоя у текущего слоя фильтрации документов или в соответствии с количеством документов в отфильтрованном фильтруемом наборе документов, что удовлетворяется предварительно установленное условие остановки, документы в отфильтрованном фильтруемом наборе документов определяются в качестве результата поиска. Когда определяется, что предварительно установленное условие остановки не удовлетворяется, отфильтрованный фильтруемый набор документов используется в качестве нового набора документов и новый набор документов фильтруется на нижерасположенном слое фильтрации документов посредством использования способа, предоставленного посредством данного варианта осуществления настоящего изобретения, до тех пор, пока не будет удовлетворено предварительно установленное условие остановки.

Для того, чтобы лучше понять эффект способа иерархической фильтрации документов, предоставленный посредством данного варианта осуществления настоящего изобретения в отношении снижения накладных расходов на вычисления, ниже в качестве примера предоставляется описание.

Например, предполагается, что суммарно существует три слоя фильтрации документов. Первому слою фильтрации документов требуется осуществить вычисление в отношение 100 тысяч документов, выбрать из них наилучшие 5000 документов, и предоставить наилучшие 5000 документов второму слою фильтрации документов. Второй слой фильтрации документов выбирает наилучшие 200 документов из 5000 документов, и предоставляет наилучшие 200 документов третьему слою фильтрации документов. Предполагается, что эксплуатационные расходы на осуществление вычисления в отношении одного документа посредством первого слоя фильтрации документов составляют 1, эксплуатационные расходы на осуществление вычисления в отношении одного документа посредством второго слоя фильтрации документов составляют 10, и эксплуатационные расходы на осуществление вычисления в отношении одного документа посредством третьего слоя фильтрации документов составляют 50.

Если вычисление выполняется непосредственно слой за слоем посредством использования существующего способа фильтрации документов, суммарные затраты составляют 100000*1+5000*10+200*50=160000. Тем не менее, если следуют способу иерархической фильтрации документов, предоставленному посредством данного варианта осуществления настоящего изобретения, второй слой фильтрации документов делит 5000 документов на подмножества документов в соответствии с размером равным 200, посредством деления получается суммарно 25 подмножеств документов, 20 документов выбираются из каждого подмножества документов, и для вычисления релевантности выбирается суммарно 500 документов. Предполагается, что в оптимальной ситуации, т.е., результат упорядочивания первого слоя фильтрации документов по сути является точно таким же, как результат упорядочивания второго слоя фильтрации документов, второй слой фильтрации документов может непосредственно пересылать первые 200 из 5000 документов в третий слой фильтрации документов. Таким образом, суммарные затраты на вычисление составляют: 100000*1+500*10+200*50=115000. В сравнении с существующим способом фильтрации документов, способ иерархической фильтрации документов, предоставленный данным вариантом осуществления настоящего изобретения, повышает эффективность на приблизительно (16-11.5)/16=28%. Можно заметить, что способ, предоставленный данным вариантом осуществления настоящего изобретения, является весьма впечатляющим в отношении вклада в сокращение времени поиска и снижении накладных расходов на вычисления.

В данном варианте осуществления настоящего изобретения, первый список документов формируется посредством выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов; значение качества каждого документа в первом списке документов вычисляется соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов; документы в первом списке документов переупорядочиваются в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и фильтруемый набор документов текущего слоя фильтрации документов фильтруется в соответствии со степенью согласованности между первым списком документов и вторым списком документов. Так как фильтруется фильтруемый набор документов текущего слоя фильтрации документов, значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. На каждом слое, фильтруемый набор документов текущего слоя может быть отфильтрован в соответствии с данным решением. Вследствие этого, реализуется иерархическая фильтрация документов, сокращается время ответа при поиске и снижаются накладные расходы на вычисления.

Вариант 2 Осуществления

Обращаясь к Фиг. 2, данный вариант осуществления настоящего изобретения предоставляет устройство иерархической фильтрации. Устройство выполнено с возможностью исполнения вышеупомянутого способа иерархической фильтрации. Устройство включает в себя: модуль 201 выбора, модуль 202 вычисления, модуль 203 упорядочивания, и модуль 204 фильтрации.

Модуль 201 выбора выполнен с возможностью выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов, и формирования первого списка документов посредством использования выбранных документов в соответствии с упорядоченностью выбранных документов в фильтруемом наборе документов, где документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов на вышерасположенном слое фильтрации документов.

Фильтруемый набор документов текущего слоя фильтрации документов является набором документов, сформированный документами, которые остаются после фильтрации, выполняемой на вышерасположенном слое фильтрации документов. Документы в фильтруемом наборе документов упорядочены в соответствии со значениями качества документов вышерасположенного слоя фильтрации документов. Т.е., во время фильтрации на вышерасположенном слое фильтрации документов, значение качества каждого документа в фильтруемом наборе документов вычисляется в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и документы в фильтруемом наборе документов упорядочиваются в соответствии с предварительно установленной упорядоченностью значений качества. Предварительно установленная упорядоченность может быть упорядоченностью по убыванию значений качества или упорядоченностью по возрастанию значений качества.

Способ вычисления релевантности состоит в том, что значение качества документа вычисляется посредством использования предварительно установленного алгоритма в соответствии с некоторым количеством признаков, и в данном варианте осуществления настоящего изобретения, соответствующий способ вычисления релевантности конфигурируется для каждого слоя. Предварительно установленный алгоритм может быть алгоритмом ранжирования релевантности, таким как алгоритм BM25. Значение качества может указывать на то, является ли качество документа хорошим или низким. Большее значение качестве указывает более высокое качество документа, и меньшее значение качества указывает более низкое качество документа. Признаки, используемые способом вычисления релевантности, могут быть признаками, такими как длина документа и количество раз или частота, с которой ключевое слово встречается в документе. В данном варианте осуществления настоящего изобретения, количество признаков, используемых способом вычисления релевантности каждого слоя, разное, количество признаков, используемое более высоким слоем фильтрации, больше, и признаки, используемые каждым слоем могут быть предварительно установленными.

В данном варианте осуществления настоящего изобретения, предварительно установленная стратегия отбора образцов может включать в себя количество документов, выбираемых из фильтруемого набора документов текущего слоя фильтрации документов, и способ выбора. Способ выбора может быть случайным выбором документов, выбором документов из передней части фильтруемого набора документов, выбором документов с предварительно определенным интервалом, или подобным. Количество выбранных документов связано с количеством документов в фильтруемом наборе документов текущего слоя фильтрации документов, и предварительно установленная стратегия отбора образцов может включать в себя предварительно установленный коэффициент выбора.

Модуль 201 выбора может выбирать несколько документов из фильтруемых документов посредством использования первого блока определения, блока деления, и первого блока выбора ниже, что в частности включает:

Первый блок определения определяет, в соответствии с предварительно установленной стратегией отбора образцов и количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов, первое количество подмножеств документов на которое требуется разделить фильтруемый набор документов, и второе количество документов, которое требуется выбрать из каждого подмножества документов; блок деления делит фильтруемый набор документов на первое количество подмножеств документов в соответствии с упорядоченностью документов; и первый блок выбора выбирает второе количество документов из каждого подмножества документов соответственно, чтобы получить несколько документов.

Первый блок выбора может выбирать документы из каждого подмножества документов соответственно посредством выбора использования первого субблока выбора, второго субблока выбора, или третьего субблока выбора.

Первый субблок выбора выбирает второе количество документов из передней части каждого подмножества документов соответственно; второй субблок выбора выбирает второе количество документов из каждого подмножества документов с предварительно определенным интервалом соответственно; и третий субблок выбора выбирает второе количество документов из каждого подмножества документов соответственно случайным образом.

Непосредственный выбор документов из передних частей подмножеств документов обеспечивает быстрый выбор второго количества документов из каждого подмножества документов, тем самым сокращая время выбора документов из фильтруемого набора документов. Выполнение выбора с предварительно определенным интервалом или выполнение случайного выбора обеспечивает равномерный выбор документов из каждого подмножества документов, так что итоговый формируемый первый список документов может лучше представлять фильтруемый набор документов.

В данном варианте осуществления настоящего изобретения, когда документы выбираются из фильтруемого набора документов текущего слоя фильтрации документов посредством использования способа разнесенного отбора образцов, если документы выбираются с предварительно определенным интервалом, когда количество документов в фильтруемом наборе документов текущего слоя фильтрации документов является очень большим, большое количество документов выбираются из фильтруемого набора документов, и, как результат, объем вычислений по-прежнему является очень большим, когда последующая обработка фильтрации выполняется в соответствии со сформированным первым списком документов. Вследствие этого, во время разнесенного отбора образцов, интервал отбора образцов может быть адаптирован к количеству документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов. Большее количество документов приводит к большему интервалу отбора образцов, а меньшее количество документов приводит к меньшему интервалу отбора образцов.

Соответственно, в дополнение к выбору нескольких документов из фильтруемых документов посредством использования первого блока определения, блока деления, и первого блока выбора в вышеупомянутом, модуль 201 выбора может дополнительно выбирать несколько документов посредством использования второго блока определения и второго блока выбора ниже, что в частности включает:

Второй блок определения определяет интервал отбора образцов документов в соответствии с предварительно установленной стратегией отбора образцов и количеством документов, включаемых фильтруемым набором документов текущего слоя фильтрации документов; и второй блок выбора выбирает документы из фильтруемого набора документов с интервалом отбора образцов документов, чтобы получить несколько документов.

Модуль 202 вычисления выполнен с возможностью вычисления значения качества каждого документа в первом списке документов соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов;

Модуль 203 упорядочивания выполнен с возможностью переупорядочивания документов в первом списке документов в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов;

Способ упорядочивания документов во втором списке документов, полученном посредством переупорядочивания, является точно таким же, как способ упорядочивания документов в первом списке документов. Разница состоит в том, что документы в первом списке документов упорядочены в соответствии со значениями качества на вышерасположенном слое фильтрации документов, а документы во втором списке документов упорядочены в соответствии со значениями качества на текущем слое фильтрации документов. Вследствие этого, если упорядоченность размещения документов в первом списке документов является очень близкой или точно такой же, как упорядоченность размещения документов во втором списке документов, это указывает на то, что результат упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, является очень близким к результату упорядочивания у упорядочивания документов, выполненного в соответствии со значениями качества, вычисленными в соответствии со способом вычисления релевантности для вышерасположенного слоя фильтрации документов, и в данном случае, не требуется выполнять обработку вычисления над каждым документом в фильтруемом наборе документов на текущем слое фильтрации документов.

Модуль 204 фильтрации выполнен с возможностью фильтрации фильтруемого набора документов текущего слоя фильтрации документов в соответствии со степенью согласованности между первым списком документов и вторым списком документов.

Модуль 204 фильтрации фильтрует фильтруемый набор документов текущего слоя фильтрации документов посредством использования блока вычисления и блока фильтрации ниже, что в частности включает:

Блок вычисления вычисляет степень согласованности между первым списком документов и вторым списком документов. Блок фильтрации определяет, является ли степень согласованности больше, чем предварительно установленная пороговая величина согласованности; если да, отфильтровывает документы, удовлетворяющие предварительно установленному условию фильтрации в фильтруемом наборе документов текущего слоя фильтрации документов; и если нет, вычисляет значение качества каждого документа в фильтруемом наборе документов в соответствии со способом вычисления релевантности для текущего слоя фильтрации документов, переупорядочивает документы в фильтруемом наборе документов в соответствии с вычисленными значениями качества, и отфильтровывает документы, удовлетворяющие предварительно установленному условию фильтрации в переупорядоченном фильтруемом наборе документов.

В данном варианте осуществления настоящего изобретения, правдоподобность упорядоченности размещения документов в фильтруемом наборе документов определяется в соответствии со степенью согласованности между первым списком документов и вторым списком документов; когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, непосредственно фильтруется фильтруемый набор документов; и лишь когда определяется, что упорядоченность размещения документов в фильтруемом наборе документов неправдоподобная, требуется вычисление значения качества каждого документа в фильтруемом наборе документов. Таким образом, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная, количество документов, в отношении которых должно быть осуществлено вычисление на текущем слое фильтрации документов, может быть значительно сокращено.

В процессе поиска документов, фильтруемый набор документов может фильтроваться на каждом слое фильтрации в соответствии с операцией модуля 201 выбора, модуля 202 вычисления, модуля 203 упорядочивания, и модуля 204 фильтрации, так что, когда упорядоченность размещения документов в фильтруемом наборе документов правдоподобная на нескольких слоях, количество документов, в отношении которых должно быть осуществлено вычисление во всем процессе поиска, может быть значительно сокращено, снижаются накладные расходы на вычисления и сокращается время ответа при поиске.

В дополнение, в данном варианте осуществления настоящего изобретения, предварительно устанавливается условие остановки фильтрации, и предварительно установленным условием остановки фильтрации может быть: когда номер слоя текущего слоя фильтрации документов достигает предварительно установленного номера слоя, поиск останавливается. В качестве альтернативы, предварительно установленным условием остановки может быть: когда количество документов в отфильтрованном фильтруемом наборе документов меньше, чем некоторое значение, поиск останавливается. Устройство иерархической фильтрации, предоставленное данным вариантом осуществления настоящего изобретения, определяет, посредством использования модуля оценки остановки ниже, остановить ли поиск.

Модуль оценки остановки определяет, удовлетворяется ли предварительно установленное условие остановки фильтрации в соответствии с номером слоя у текущего слоя фильтрации документов или количеством документов в отфильтрованном фильтруемом наборе документов; если да, определяет документы в отфильтрованном фильтруемом наборе документов в качестве результата поиска; и если нет, использует отфильтрованный фильтруемый набор документов в качестве нового набора документов, и фильтрует новый набор документов посредством использования нижерасположенного слоя фильтрации документов.

В данном варианте осуществления настоящего изобретения, первый список документов формируется посредством выбора нескольких документов из фильтруемого набора документов текущего слоя фильтрации документов в соответствии с предварительно установленной стратегией отбора образцов; значение качества каждого документа в первом списке документов вычисляется соответственно согласно способу вычисления релевантности для текущего слоя фильтрации документов; документы в первом списке документов переупорядочиваются в соответствии со значением качества каждого документа в первом списке документов, чтобы получить второй список документов; и фильтруемый набор документов текущего слоя фильтрации документов фильтруется в соответствии со степенью согласованности между первым списком документов и вторым списком документов. Так как фильтруется фильтруемый набор документов текущего слоя фильтрации документов, значительно сокращается количество документов, которые должны быть обработаны на нижерасположенном слое фильтрации документов. На каждом слое, фильтруемый набор документов текущего слоя может быть отфильтрован в соответствии с данным решением. Вследствие этого, реализуется иерархическая фильтрация документов, сокращается время ответа при поиске и снижаются накладные расходы на вычисления.

Устройство иерархической фильтрации, предусмотренное данным вариантом осуществление настоящего изобретения, может быть особым аппаратным обеспечением на устройстве, программным обеспечением или встроенным программным обеспечением, инсталлированным на устройстве, или подобным. Специалистам в соответствующей области техники может быть четко понятно, что в целях удобства и краткости описания, в отношении подробного рабочего процесса вышеупомянутого устройства, модуля, и блока, можно обратиться к соответствующему процессу в вышеупомянутых вариантах осуществления способа.

В вариантах осуществления, предоставленных в настоящей заявке, должно быть понятно, что раскрываемое устройство и способ могут быть реализованы другими путями. Описанный вариант осуществления устройства является лишь иллюстративным. Например, деление на блоки является лишь логическим функциональным делением и может быть другое деление при фактической реализации. Например, множество блоков или компонентов может быть объединено или интегрировано в другой системе, или некоторые признаки могут быть проигнорированы или не выполняться. В дополнение, отображенные или обсуждаемые взаимные связывания или непосредственные связывания или соединения связи могут быть реализованы посредством некоторых интерфейсов. Опосредованные связывания или соединения связи между устройствами или блоками могут быть реализованы в электронной, механической или других формах.

Блоки, описанные в качестве отдельных частей, могут быть или могут не быть физически отделены, а части отображенные в качестве блоков могут быть или могут не быть физическими блоками, могут быть расположены в одной позиции, или могут быть распределены по множеству сетевых блоков. Часть или все из блоков могут быть выбраны в соответствии с фактическими потребностями для достижения целей решений вариантов осуществления.

В дополнение, функциональные блоки в вариантах осуществления настоящего изобретения могут быть интегрированы в одном блоке обработки, или каждый из блоков может существовать отдельно физически, или два или более блока интегрированы в один блок.

Когда функции реализуются в форме функционального блока программного обеспечения и продаются или используются в качестве независимого продукта, функции могут быть сохранены на машиночитаемом запоминающем носителе информации. Исходя из такого понимания, технические решения настоящего изобретения, по существу, или часть, относящая к известному уровню техники, или некоторые из решений могут быть реализованы в форме продукта программного обеспечения. Продукт программного обеспечения хранится на запоминающем носителе информации, и включает в себя некоторое количество инструкций для указания компьютерному устройству (которое может быть персональным компьютером, сервером, сетевым устройством) выполнять все или некоторые из этапов способов, описанных в вариантах осуществления настоящего изобретения. Вышеупомянутый запоминающий носитель информации включает в себя: любой носитель информации, который может хранить код программы, такой как USB флэш-накопитель, съемный жесткий диск, постоянная память (ROM, Постоянная Память), память с произвольным доступом (RAM, Память с Произвольным Доступом), магнитный диск, или оптический диск.

Вышеупомянутые описания являются лишь особыми реализациями настоящего изобретения и не предназначены для того, чтобы ограничивать объем правовой охраны настоящего изобретения. Любая вариация или замена, легко понятная специалистам в соответствующей области техники в рамках технического объема, раскрываемого в настоящем изобретении, должна лежать в рамках объема правовой охраны настоящего изобретения. Вследствие этого, объем правовой охраны настоящего изобретения должен подчиняться объему правовой охраны, определяемому формулой изобретения.


СПОСОБ И УСТРОЙСТВО ИЕРАРХИЧЕСКОЙ ФИЛЬТРАЦИИ ДОКУМЕНТОВ
СПОСОБ И УСТРОЙСТВО ИЕРАРХИЧЕСКОЙ ФИЛЬТРАЦИИ ДОКУМЕНТОВ
СПОСОБ И УСТРОЙСТВО ИЕРАРХИЧЕСКОЙ ФИЛЬТРАЦИИ ДОКУМЕНТОВ
Источник поступления информации: Роспатент

Показаны записи 1-5 из 5.
19.08.2018
№218.016.7d19

Способ двухрежимного голосового управления, устройство и терминал пользователя

Изобретение относится к области вычислительной техники. Технический результат заключается в обеспечении двухрежимного голосового управления голосовым вводом. Технический результат достигается за счет определения, исполнил ли пользователь операцию активации режима определения остановки...
Тип: Изобретение
Номер охранного документа: 0002664410
Дата охранного документа: 17.08.2018
07.09.2018
№218.016.8413

Система и способ отображения онлайновых комментариев

Изобретение относится к способам и устройствам отображения комментариев к веб-странице. Технический результат заключается в обеспечении автоматического упорядочивания комментариев к материалу веб-страницы. В способе отправляют запрос просмотра веб-страницы на сервер, содержащий адрес...
Тип: Изобретение
Номер охранного документа: 0002665892
Дата охранного документа: 04.09.2018
01.11.2018
№218.016.98a7

Способ и устройство для сохранения данных

Изобретение относится к области сохранения данных. Техническим результатом является уменьшение требуемого пространства для хранения данных за счет предотвращения избыточности сохранения данных. В способе сохранения данных данные, относящиеся к объекту и ассоциированные с объектами, получают из...
Тип: Изобретение
Номер охранного документа: 0002671044
Дата охранного документа: 29.10.2018
01.03.2019
№219.016.c8a2

Способ и устройство для создания модели качества веб-страницы

Изобретение относится к средствам создания моделей качества веб-страниц. Технический результат заключается в повышении точности модели качества веб-страниц. Извлекают из журнала поискового механизма выбранный индикатор поведения пользователей для каждой веб-страницы, включенной в журнал...
Тип: Изобретение
Номер охранного документа: 0002680746
Дата охранного документа: 26.02.2019
04.07.2019
№219.017.a535

Способ и устройство для изменения цвета фона панели инструментов согласно доминирующему цвету изображения

Изобретение относится к вычислительной технике. Технический результат – адаптивная регулировка цвета панели инструментов согласно результирующему контенту. Способ изменения цвета фона панели инструментов согласно доминирующему цвету изображения включает: придание прозрачности цвету фона панели...
Тип: Изобретение
Номер охранного документа: 0002693303
Дата охранного документа: 02.07.2019
Показаны записи 1-7 из 7.
27.04.2014
№216.012.bcde

Способ для отправки и приема информации управления, устройство и система связи

Изобретение относится к области технологий связи. Техническим результатом является повышение эффективности использования служебных данных, требуемых для передачи информации управления. Способ для отправки информации управления содержит: установление соответствующих битов управления в формате...
Тип: Изобретение
Номер охранного документа: 0002514089
Дата охранного документа: 27.04.2014
10.08.2015
№216.013.6a1c

Способ, устройство и система для передачи расширенного канала управления нисходящей линии

Изобретение относится к области связи. Настоящее изобретение сокращает гранулярность расширенного канала управления нисходящей линии, обеспечивает сбережение ресурсов и расширяет канал управления нисходящей линии, тем самым обеспечивая больше каналов управления для использования посредством UE....
Тип: Изобретение
Номер охранного документа: 0002558717
Дата охранного документа: 10.08.2015
27.01.2016
№216.014.bdb9

Способ для отправки и приема информации управления, устройство и система связи

Изобретение относится к способу отправки и приема информации управления, устройству и системе связи. Техническим результатом является повышение эффективности использования служебной нагрузки, требуемой для передачи информации управления. Способ для отправки информации управления включает в себя...
Тип: Изобретение
Номер охранного документа: 0002573748
Дата охранного документа: 27.01.2016
20.05.2016
№216.015.3fcc

Способ беспроводной связи, базовая станция и терминал

Изобретение относится к области беспроводной связи и обеспечивает увеличение числа используемых подкадров восходящей и нисходящей линии связи. Изобретение обеспечивает способ беспроводной связи, один из которых включает в себя этапы, на которых: отправляют, с помощью базовой станции,...
Тип: Изобретение
Номер охранного документа: 0002584148
Дата охранного документа: 20.05.2016
25.08.2017
№217.015.bca8

Ведущая система текущего контроля для зарядки суперконденсатора

Использование: в области электротехники. Технический результат – повышение эффективности работы системы и уменьшение нагрузки на сеть связи. Система текущего контроля для зарядки суперконденсатора содержит линию питания, подсистемы для текущего контроля мономерных суперконденсаторов и ведущую...
Тип: Изобретение
Номер охранного документа: 0002616186
Дата охранного документа: 13.04.2017
25.08.2017
№217.015.c2b0

Способ и устройство для обработки аномалии терминала и электронное устройство

Изобретение относится к области защиты мобильных устройств связи от несанкционированной деятельности, а именно к обработке аномалии терминала. Технический результат заключается в расширении арсенала технических средств, обеспечивающих обнаружение или предохранение устройств от кражи или утери...
Тип: Изобретение
Номер охранного документа: 0002617683
Дата охранного документа: 26.04.2017
07.08.2020
№220.018.3dcd

Способ и устройство извлечения тематических предложений веб-страниц

Изобретение относится к средствам извлечения тематических предложений веб-страниц. Технический результат заключается в повышении точности тематических предложений, извлеченных с веб-страниц. Получают возможные веб-страницы и предварительно построенную модель машинного обучения, причем каждая...
Тип: Изобретение
Номер охранного документа: 0002729227
Дата охранного документа: 05.08.2020
+ добавить свой РИД