Результат интеллектуальной деятельности: Методика поиска связей в патентных данных с использованием нейронных сетей

Вид РИД

Произведениe науки

Юридическая информация Юридическая информация Свернуть Развернуть

Наименование РИД на английском: Methodology for extraction from patents through constructing a knowledge graph using neural networks

Авторы

Правообладатели

АО "ЕДРИД"

Краткое описание РИД Краткое описание РИД Свернуть Развернуть

Описание произведения: В данной методике исследовании ключевым этапом является извлечение и анализ информации непосредственно из текста патентов. Для начальной обработки патентных текстов применяется подход, включающий кластеризацию патентов.

Ключевые слова: искусственные нейронные сети, Emotion AI, искусственный интеллект, нейросети, распознавание эмоций, анализ данных, эмоциональный ИИ, образовательная online-платформа нового поколения, цифровая обработка сигналов, определение зависимостей, framework, Java, интеллектуальная собственность, система защиты интеллектуальной собственности, роспатент, компьютерная программа, JSON, PHP, защита интеллектуальной собственности, сурид, фипс, Система Управления Результатами Интеллектуальной Деятельности, су рид, сурид комфорт, surid comfort, Intellectual Property Management System SURID "Comfort"

Развернутое описание Развернутое описание Свернуть Развернуть

Основные результаты научного произведения:

В данной методике исследовании ключевым этапом является извлечение и анализ информации непосредственно из текста патентов. Для начальной обработки патентных текстов применяется подход, включающий кластеризацию патентов. Этот предварительный этап необходим для того чтобы группировать патенты по их технологическим областям. 
Задачу кластеризации можно решать с помощью нейронных сетей. Основная идея кластеризации на основе нейронных сетей заключается в том, что нейронная сеть обучается извлекать сложные, многомерные представления признаков из необработанных текстовых данных, что позволяет эффективно группировать текстовые объекты по их схожести. В процессе обучения нейронная сеть создает представление входного текста в виде вектора, который отражает ключевые характеристики текста, и на основе этих представлений можно выполнять кластеризацию. Векторизацию текста можно выполнять с использованием рекуррентных, сверточных нейронных сетей[1], а также моделей на основе архитектуры трансформер[2].

Перспективные направления применения для дальнейших исследований и разработок: Исследования в области связей в патентах и разработках. Развития науки, развития технологий и развития техники в РФ

Приоритетные направления развития науки, технологий и техники в РФ: Информационно-телекоммуникационные системы

Реферат Реферат Свернуть Развернуть

В данной методике исследовании ключевым этапом является извлечение и анализ информации непосредственно из текста патентов. Для начальной обработки патентных текстов применяется подход, включающий кластеризацию патентов. Этот предварительный этап необходим для того чтобы группировать патенты по их технологическим областям. Задачу кластеризации можно решать с помощью нейронных сетей. Основная идея кластеризации на основе нейронных сетей заключается в том, что нейронная сеть обучается извлекать сложные, многомерные представления признаков из необработанных текстовых данных, что позволяет эффективно группировать текстовые объекты по их схожести. В процессе обучения нейронная сеть создает представление входного текста в виде вектора, который отражает ключевые характеристики текста, и на основе этих представлений можно выполнять кластеризацию. Векторизацию текста можно выполнять с использованием рекуррентных, сверточных нейронных сетей[1], а также моделей на основе архитектуры трансформер[2]. Входные данные для нейронной сети представляют собой эмбеддинги слов. Существуют три варианта получения этих эмбеддингов для дальнешей работы модели: обучить эмбеддинги с нуля в рамках модели, использовать предобученные эмбеддинги (Word2Vec, GloVe и т.д.) и зафиксировать их для модели. инициализировать модель с предобученными эмбеддингами и дообучить их совместно с моделью. Обучающие данные для классификации обычно размечены и специфичны для задачи, однако размеченные данные часто трудно получить. Поэтому такой корпус данных, скорее всего, будет ограничен по объему и разнообразию. В отличие от этого, данные для обучения эмбеддингов слов не требуют разметки — достаточно обычных текстов. Эти корпуса могут быть большими и разнообразными, предоставляя много информации для обучения. Если эмбеддинги обучаются с нуля, модель будет опираться только на данные классификации, что может быть недостаточно для хорошего понимания взаимосвязей между словами. В случае использования предобученных эмбеддингов модель будет обладать знаниями из огромного корпуса данных, что позволяет лучше понимать контекст. Чтобы адаптировать эти эмбеддинги к терминологии патентов, можно применить дообучение, что может повысить производительность модели. Кластеризация текстов патентов позволяет выделить группы, имеющие общие признаки, что упрощает дальнейший анализ данных. Однако для более глубокого понимания информации, содержащейся в патентах, необходимо извлечение сущностей (NER) и их связей (RE). Идея дообучения модели, сформулированная для эмбеддингов, является общей и остается неизменной при переходе от эмбедингов токенов к предварительно обученным моделям. Этот переход можно проанализировать через призму трансдуктивного и индуктивного подходов в глубоком обучении