В данной методике исследовании ключевым этапом является извлечение и анализ информации непосредственно из текста патентов. Для начальной обработки патентных текстов применяется подход, включающий кластеризацию патентов.
Этот предварительный этап необходим для того чтобы группировать патенты по их технологическим областям.
Задачу кластеризации можно решать с помощью нейронных сетей. Основная идея кластеризации на основе нейронных сетей заключается в том, что нейронная сеть обучается извлекать сложные, многомерные представления признаков из необработанных текстовых данных, что позволяет эффективно группировать текстовые объекты по их схожести. В процессе обучения нейронная сеть создает представление входного текста в виде вектора, который отражает ключевые характеристики текста, и на основе этих представлений можно выполнять кластеризацию. Векторизацию текста можно выполнять с использованием рекуррентных, сверточных нейронных сетей[1], а также моделей на основе архитектуры трансформер[2].
Входные данные для нейронной сети представляют собой эмбеддинги слов. Существуют три варианта получения этих эмбеддингов для дальнешей работы модели:
обучить эмбеддинги с нуля в рамках модели,
использовать предобученные эмбеддинги (Word2Vec, GloVe и т.д.) и зафиксировать их для модели.
инициализировать модель с предобученными эмбеддингами и дообучить их совместно с моделью.
Обучающие данные для классификации обычно размечены и специфичны для задачи, однако размеченные данные часто трудно получить. Поэтому такой корпус данных, скорее всего, будет ограничен по объему и разнообразию. В отличие от этого, данные для обучения эмбеддингов слов не требуют разметки — достаточно обычных текстов. Эти корпуса могут быть большими и разнообразными, предоставляя много информации для обучения.
Если эмбеддинги обучаются с нуля, модель будет опираться только на данные классификации, что может быть недостаточно для хорошего понимания взаимосвязей между словами. В случае использования предобученных эмбеддингов модель будет обладать знаниями из огромного корпуса данных, что позволяет лучше понимать контекст. Чтобы адаптировать эти эмбеддинги к терминологии патентов, можно применить дообучение, что может повысить производительность модели.
Кластеризация текстов патентов позволяет выделить группы, имеющие общие признаки, что упрощает дальнейший анализ данных. Однако для более глубокого понимания информации, содержащейся в патентах, необходимо извлечение сущностей (NER) и их связей (RE). Идея дообучения модели, сформулированная для эмбеддингов, является общей и остается неизменной при переходе от эмбедингов токенов к предварительно обученным моделям. Этот переход можно проанализировать через призму трансдуктивного и индуктивного подходов в глубоком обучении