×
02.06.2023
223.018.758a

СПОСОБ И ПРОГРАММНО-АППАРАТНЫЙ КОМПЛЕКС ДЛЯ ДОВРАЧЕБНОЙ ПРЕДВАРИТЕЛЬНОЙ КЛАССИФИЦИРУЮЩЕЙ МНОГОФАКТОРНОЙ ОЦЕНКИ ВОЗМОЖНОСТИ СЛУХОВОГО АНАЛИЗАТОРА ЧЕЛОВЕКА ПРИ ПРОВЕДЕНИИ МАССОВЫХ ПРОФИЛАКТИЧЕСКИХ ОСМОТРОВ НАСЕЛЕНИЯ

Вид РИД

Изобретение

Юридическая информация Свернуть Развернуть
№ охранного документа
0002765108
Дата охранного документа
25.01.2022
Краткое описание РИД Свернуть Развернуть
Аннотация: Настоящее техническое решение относится к средствам и методам, обеспечивающим автоматизированное выполнение диагностических процедур в части выполнения доврачебной предварительной классифицирующей многофакторной оценки возможности слухового анализатора человека при проведении массовых профилактических осмотров населения. Предложен способ доврачебной предварительной классифицирующей многофакторной оценки возможности слухового анализатора человека при проведении массовых профилактических осмотров населения, выполняемого с помощью вычислительного устройства, соединенного с устройствами воспроизведения аудиосигналов и содержащего этапы, на которых: с помощью вычислительного устройства формируют первичную тестовую речевую последовательность (ТРП), которая представляет собой предложения, состоящие из первого количества слов на основании матричного теста; формируют шумовой конкурирующий звук для первичной ТРП; воспроизводят первичную ТРП с помощью устройств воспроизведения аудиосигналов, выполненных в виде наушников воздушного и костного звукопроведения, при этом воспроизведение ТРП выполняется одновременно с шумовым конкурирующим звуком при первом соотношении сигнал/шум с помощью имитации речи на базе модели глубокого машинного обучения; получают устный ответ пользователя; выполняют автоматический анализ устного ответа пользователя по распознаванию ТРП путем его преобразования в текстовый вид и анализа правильности ответа с помощью модели машинного обучения; причем на основании выполняемого анализа устных ответов пользователя осуществляют динамическое изменение сложности проводимой оценки, при которой по итогу выполняемого каждого автоматического анализа выполняется изменение количества слов в предложениях, формирующих ТРП и/или соотношение сигнал/шум воспроизводимого сигнала; выполняют оценку возможности слухового анализатора пользователя на основании откликов при воспроизведении тестовой речевой последовательности. Изобретение обеспечивает автоматизированную доврачебную предварительную классифицирующую оценку возможности слухового анализатора человека при проведении массовых профилактических осмотров населения. 2 н. и 4 з.п. ф-лы, 14 ил., 3 табл.
Реферат Свернуть Развернуть

ОБЛАСТЬ ТЕХНИКИ

Настоящее техническое решение относится к средствам и методам, обеспечивающим автоматизированное выполнение диагностических процедур в части выполнения доврачебной предварительной классифицирующей многофакторной оценки возможности слухового анализатора человека при проведении массовых профилактических осмотров населения.

УРОВЕНЬ ТЕХНИКИ

Основной характеристикой любого канала передачи речи, включая слуховой тракт восприятия речи человеком, является понятность речи. Для определения этой характеристики в технических системах связи применяют статистический метод с участием большого числа слушателей и дикторов.

Под разборчивостью речи понимают относительное или процентное количество принятых (понятых) элементов речи из общего числа, переданных по каналу связи. Элементы речи составляют слоги, звуки, слова, фразы, числа. В соответствии им поставлены слоговая, звуковая, словесная, смысловая и числовая разборчивость. Для измерения разборчивости разработаны артикуляционные таблицы слогов, звукосочетаний и слов с учетом встречаемости их в русской речи.

Термином «социальная адекватность слуха» обозначают способность человека воспринимать звуковые стимулы различной сложности (включая речевые) и участвовать в диалоге. У людей с уровнем слуха ниже «социально адекватного» возникают сложности в общении с окружающими, появляются проблемы на работе, в быту. Так называемая стигма тугоухости заставляет людей скрывать свою коммуникативную проблему десятилетиями!

Исследования слуховой функции осуществляется посредством двух групп методов: Субъективных (психоакустических):

- исследование слуха речью с шумом;

- исследование слуха при помощи камертонов;

- субъективная аудиометрия.

Объективных:

- объективная (компьютерная) аудиометрия;

- акустическая рефлексометрия;

- тимпанометрия;

- ото акустическая эмиссия;

- безусловные рефлекторные реакции;

- условные реакции на звук.

При всех субъективных методах исследования слуха сам испытуемый оценивает: слышит он звук или нет и каким-либо способом сообщает об этом специалисту.

При объективных методах обследования полученные результаты не зависят от желания пациента, регистрация их в большинстве случаев происходит при помощи специальной аппаратуры.

К сожалению, результаты практически всех видов диагностики слуха, кроме прямой оценки разборчивости слуха речью, описывают результаты обследования в специфических терминах (децибелы, аудиограммы, номера пиков кривых и т.д.) и не дают пациенту объективной информации об его «реальной степени социальной адекватности». Все это множество научных терминов не дает человеку прямого ответа: как хорошо, или как плохо, он слышит и понимает «обычную» речь собеседника в реальном шуме, окружающем его ежедневно. Многочисленные результаты современных высокоточных обследований нужны специалистам; человеку с нарушениями слуха нужно знать только одно насколько хорошо он понимает речь собеседника в обычных условиях и требуется дальнейшее обращение за медицинской помощью.

Самым простым и доступным методом является исследование слуха речью в шумовом сигнале. Достоинства этого метода заключаются в его соответствии основной роли слуховой функции у человека - служить средством речевого общения.

При исследовании слуха речью применяется шепотная и громкая речь. Конечно, оба эти понятия не включают точной дозировки силы и высоты звука, однако некоторые показатели, определяющие динамическую (силовую) и частотную характеристику шепотной и громкой речи, все же имеются.

При исследовании слуха речью весь речевой материал произносится на резервном воздухе (вдох-выдох-речь). Это способствует уравниванию громкости при предъявлении всего речевого материала у разных лиц.

Важным обстоятельством при исследовании слуха является "заглушение" неисследуемого уха. Есть несколько способов заглушения: вложить в ушной проход ватку с вазелином, ввести в ушной проход палец, смоченный водой, вдавить в слуховой проход козелок уха, потирать тыльную сторону ладони, закрывающей ухо, другой рукой!

Основным преимуществом исследования слуха речью является его «физиологическая понятность» для испытуемого. Основными проблемными препятствиями для широкого применения являются:

- невозможность обеспечения воспроизводимости результатов для разных испытателей, так и для одного испытателя в разное время;

- относительную длительность и трудоемкость испытаний;

- необходимость выполнения исследования специально обученным медицинским персоналом.

Из существующего уровня техники известны различные подходы по оценке распознаваемости речи. Известно программное обеспечение DIRAC (htip://asm-tm.ru/7841-izmerenie-razborchivosti-rechi-v-po-dirac.html), которое позволяет оценить акустическую обстановку помещения на предмет распознаваемости речи внутри него. Однако данный подход не применим для тестирования слуховых возможностей пациентов.

Известен способ диагностики уровня слуха (патент RU2467691 С1, 27.11.2012), в котором используют речевую таблицу В. Воячека, которую записывают в память цифрового устройства в звуковом формате mp3. После повторения пациентом слов определяют процент правильно повторяемых от общего числа слов таблицы. При этом используют клавиатуру устройства для регистрации ответа пациента при громкостях звукового сигнала 10, 20 и 30% от максимальной мощности наушников соответственно. Затем выявляют снижение процента разборчивости речи. При снижении процента разборчивости речи менее 95% по любому размеру мощности наушников судят о наличии тугоухости.

Недостатком данного решения является недостаточная точность оценки разборчивости речи пациентом, которая заключается в отсутствии автоматизации процесса распознавания ответов пациента, с помощью перевода ответов пациента из голосового формата в текстовый для анализа правильности услышанных слов с помощью искусственного интеллекта.

С развитием уровня техники в области технологий, применяемых для диагностических целей различного профиля, в том числе и для проверки качества слуха, речевого распознавания и аудиометрии, все более насущной проблемой становится необходимость автоматизации всех ключевых функций, которые могут быть доступны конечному пользователю без необходимости прибегания к услугам профильных специалистов, а также упрощающих получение первичной картины состояния органов слуха, что позволяет решить проблему получения помощи населению в регионах, в которых отсутствует возможность обращения к профильному специалисту, как к таковому.

В докладе ВОЗ 2021 (https://www.who.int/ru/news-room/fact-sheets/detail/deafness-and-hearing-loss) года отмечается:

«Более 5% населения мира, или 430 миллионов человек, нуждаются в реабилитации для решения проблемы «инвалидизирующей» потери слуха (432 миллиона взрослых и 34 миллиона детей). По оценкам, к 2050 г. более 700 миллионов человек, или каждый десятый, будут иметь инвалидизирующую потерю слуха.

«Инвалидизирующей» называется потеря слуха в слышащем лучше ухе, превышающая 35 децибел (дБ). Почти 80% таких людей живет в странах с низким и средним уровнем дохода. Потеря слуха более широко распространена среди более возрастных людей: от этой проблемы страдают более 25% людей в возрасте старше 60 лет.

К числу эффективных мер, направленных на сокращение количества случаев потери слуха и принимаемых на разных стадиях жизни человека, относятся следующие:

Раннее выявление потери слуха и заболеваний уха имеет решающее значение для эффективного ведения пациентов.

Для этого необходим систематический скрининг с целью выявления болезней ушей и связанной с ними потери слуха среди следующих категорий людей, подверженных наибольшему риску:

новорожденные и грудные дети, о дети дошкольного и школьного возраста.

люди, подвергающиеся воздействию шума или химических веществ на работе.

люди, принимающие ототоксичные лекарственные препараты, о люди пожилого возраста»

Специалистами ВОЗ предложена рекомендуемая схема мероприятий по проведению массовых профилактических осмотров. Процедура основана на последовательном выполнении исследования слуха тремя способами: шепотной речью, скрининговой аудиометрии по воздушной проводимости или оценки разборчивости речи на распознавание двузначных цифр в шуме.

Исследования шепотной речью предполагают обязательное наличие специально подготовленного человека, способного длительное время обеспечивать одинаковую громкость воспроизведения тестовых слов. При массовых тестах, когда число испытуемых находится в районе 30-70 чел/сеанс это исключено. Результаты такого тестирования, проведенные разными специалистами часто трудно сопоставимы.

Трудоемкость процесса недопустимо велика для практического применения.

Скрининговая аудиометрия в ограниченном частотном диапазоне (500 Гц - 4000 Гц) только по воздушной проводимости позволяет оценить только уровень «слышимости» в относительно спокойной обстановке, но не определяет возможность нарушения распознавания речи в шуме, а также требует обязательного личного участия медицинского работника.

Наиболее «продвинутая» методика автоматизированного распознавания речи в шуме, используя только двузначные числа, также обладает существенным недостатком -значительный эффект «узнавания» хорошо знакомых сочетаний по длительности звучания. Применяется при наличии признаков деменции у пожилых людей.

Участие специально подготовленного специалиста, высокая трудоемкость и низкая информативность методики для использования в последующих диагностических тестах, проводимых уже профильными специалистами для постановки медицинского диагноза и выработки рекомендации по коррекции слуха, резко снижают практическую ценность разработки.

Авторами ранее для решения существующих проблем в области автоматизированной оценки слуха и распознавания речи, был предложен метод и реализующий его программно-аппаратный комплекс (ПАК), обеспечивающие доврачебную оценку качества распознавания речи и скрининговой аудиометрии (патент РФ №2743049).

Данное решение легло в основу заявленного изобретения и предлагает новый принцип исследований, применяющий динамически адаптируемый сценарий проведения многофакторного тестирования пациента, что позволяет быстро и эффективно оценить возможности слухового анализатора человека при поведении массовых профилактических осмотров населения.

СУЩНОСТЬ ИЗОБРЕТЕНИЯ

Заявленное изобретение решает техническую проблему в части обеспечения быстрого и эффективного метода автоматизированной доврачебной предварительной классифицирующей оценки возможности слухового анализатора человека при поведении массовых профилактических осмотров населения.

Технически результатом является обеспечение автоматизированной доврачебной предварительной классифицирующей оценки возможности слухового анализатора человека при поведении массовых профилактических осмотров населения.

Дополнительный эффект заключается в повышении достоверности определения степени наличия или отсутствия нарушений слуха, за счет применения динамически адаптируемого сценария при проведении тестирования пациента.

Заявленный технический результат достигается при помощи способа доврачебной предварительной классифицирующей много фактор ной оценки возможности слухового анализатора человека при поведении массовых профилактических осмотров населения, выполняемого с помощью вычислительного устройства, соединенного с устройствами воспроизведения аудиосигналов и содержащего этапы, на которых:

с помощью вычислительного устройства

- формируют первичную тестовую речевую последовательность (ТРП), которая представляет собой предложения, состоящие из первого количества слов на основании матричного теста;

- формируют шумовой конкурирующий звук для первичной ТРП;

- воспроизводят первичную ТРП с помощью устройствами воспроизведения аудиосигналов, выполненных в виде наушников воздушного и костного звукопроведения, при этом воспроизведение ТРП выполняется одновременно с шумовым конкурирующим звуком при первом соотношении сигнал/шум с помощью имитации речи на базе модели глубокого машинного обучения;

- получают устный ответ пользователя;

- выполняют автоматический анализ устного ответа пользователя по распознаванию ТРП, путем его преобразования в текстовый вид и анализа правильности ответа с помощью модели машинного обучения;

причем

- на основании выполняемого анализа устных ответов пользователя осуществляют динамическое изменение сложности проводимой оценки, при которой по итогу выполняемого каждого автоматического анализа выполняется изменение количества слов в предложениях формирующих ТРП и/или соотношение сигнал/шум воспроизводимого сигнала;

- выполняют оценку возможности слухового анализатора пользователя на основании откликов при воспроизведении тестовой речевой последовательности.

В одном из частных вариантов реализации способа при анализе устных ответов пользователя определяют количество верных совпадений слов в первичной ТРП.

В другом частом варианте реализации способа выполняют уменьшение количества слов в ТРП при условии, если количество верных совпадений ниже установленного порогового значения.

В другом частом варианте реализации способа выполняют уменьшение громкости в ТРП при условии, если количество верных совпадений выше установленного порогового значения.

В другом частом варианте реализации способа выполняют усиление шумового сигнала в ТРП при условии, если количество верных совпадений выше установленного порогового значения.

Заявленный технический результат достигается также за счет программно-аппаратного комплекса (ПАК) для доврачебной предварительной классифицирующей многофакторной оценки возможности слухового анализатора человека при поведении массовых профилактических осмотров населения, который содержит вычислительное устройство и средства воспроизведения аудиосигналов, в котором:

вычислительное устройство выполнено с возможностью

- формирования тестовой речевой последовательности в виде предложений, состоящих из первого количества слов с заданным уровнем громкости и на заданном языке на основании матричного теста, поддерживающего выбранный язык, причем воспроизведение тестовой речевой последовательности осуществляется с помощью имитации речи на базе модели глубокого машинного обучения;

- выбора шумового конкурирующего звука для упомянутой тестовой речевой последовательности слов;

- получения устного ответа пользователя;

- автоматического анализа устного ответа пользователя по распознаванию каждого слова и/или фразы тестовой последовательности слов с преобразованием его в текстовый вид и анализа правильности ответа;

- изменения формируемых предложений, состоящих из второго количества слов, меньшего чем значение первого количества, в случае, когда количество распознанных слов в воспроизводимых предложениях менее заданного порогового значения;

- оценки возможности слухового анализатора пользователя на основании откликов при воспроизведении тестовой речевой последовательности;

устройства воспроизведения аудиосигналов, выполненные в виде наушников воздушного и костного звукопроведения, с помощью которых осуществляется воспроизведение тестовой речевой последовательности, при этом воспроизведение тестовой речевой последовательности выполняется в виде фраз из матричного теста или отдельных слов в сопровождении конкурирующего шумового сигнала.

КРАТКОЕ ОПИСАНИЕ ЧЕРТЕЖЕЙ

Фиг. 1 иллюстрирует общую схему интерактивного ПАК.

Фиг. 2А иллюстрирует блок-схему заявленного способа.

Фиг. 2Б иллюстрирует блок-схему адаптивного изменения сложности тестирования.

Фиг. 3А-3К иллюстрируют пример протокола тестирования.

Фиг. 4 иллюстрирует общий вид вычислительного устройства.

ОСУЩЕСТВЛЕНИЕ ИЗОБРЕТЕНИЯ

На Фиг. 1 представлена общая схема интерактивного ПАК (100). В его состав входит вычислительное устройство (ПО), представляющее собой планшет или смартфон, под управлением операционной системы iOS, Android или Windows. Устройство (ПО) осуществляется весь необходимый функционал, обеспечивающий взаимодействие с пользователем (10) для проведения оценки качества распознавания речи и скрининговой аудиометрии.

Вычислительное устройство (ПО) изготавливается на базе стандартных аппаратных средств, с тем отличием, что его звуковой тракт проходит предварительную процедуру метрологической калибровки и тарификации шкалы громкости в дБ, для его соответствия существующим аудиометрическим стандартам, например, для обеспечения его функционирования в соответствие с ГОСТ Р ИСО 8253-3-2014 «Акустика. Методы аудиометрических испытаний».

Вычислительное устройство (ПО) содержит подключаемые к нему посредством канала передачи данных, устройство ввода речевой информации (111) и устройства звукового воспроизведения (112, 113).

Устройство ввода речевой информации (111) может выполняться в виде встроенного или внешнего микрофона. Внешнее исполнение устройства (111) может подключаться с помощью любого пригодного принципа связи, например, USB кабель, Lightning разъем, Bluetooth связь и т.п.

Устройства звукового воспроизведения (112, 113) представляют собой два типа наушников воздушной (например, Sennheiser hd 400s) и костной проводимости (например, Aftershock trekz titanium), которые обеспечивают возможность селективной двухканальной передачи звука пользователю (101), формируемого вычислительным устройством (110). Наушники (112, 113) калибруются с проверкой, например, с помощью приложения Tester, для соответствия выходных параметров изделия (громкость, частота) аудиометрическому оборудованию. Калибровочные параметры должны соответствовать международным и/или национальным стандартам, например, ГОСТ Р МЭК 60645-1-2017. Калибровка устройств звукового воспроизведения (112, 113) осуществляется с помощью искусственного уха, например, например производства фирмы В&К.

Вычислительное устройство (110) также может быть связано посредством сети передачи данных (120), например, сети «Интернет», с удаленным сервером (130), на котором может храниться различная информация, в том числе, настройки, данные пользователей, пакеты для обновления данных, параметры и информация для осуществления тестов и т.п.

Вычислительное устройство (110) обеспечивает формирование всех необходимых сигналов, звуков и графической информации для осуществления процесса тестирования пользователя (101) на предмет оценки распознавания речи и получения данных скрининговой аудиометрии.

На Фиг. 2А представлено описание процесса осуществления способа (200) предварительной классифицирующей много фактор ной оценки возможности слухового анализатора человека с помощью ПАК (100). Применение заявленного ПАК позволяет осуществить доврачебную объективированную и конкретизированную оценку возможности слухового анализатора конкретного человека, при этом, данный ПАК и применяемые в нем алгоритмы полностью автоматизированы и просты в использовании.

На первом этапе (201) осуществляется формирование с помощью устройства (110) тестовой речевой последовательности (далее ТРП) для чего пользователь (101) осуществляется вход в специализированное программное приложение на устройстве (110). Пользователь (101) осуществляет выбор языка тестовой последовательности, например, с помощью графического интерфейса приложения, или автоматически с помощью произнесения фразы, предложенной приложением для автоматического распознавания языка пользователя (101). Приложение, применяемое для тестирования с помощью устройства (110), основано на базе искусственного интеллекта, в частности, одной или нескольких моделях машинного обучения, например, с применением искусственной нейронной сети, обученной на распознавание речи пользователя (101).

После распознавания требуемого языка для осуществления формирования ТРП, выполняется выбор соответствующего матричного теста для заданного языка. Такие типы тестов являются стандартизованными и позволяют определить степень возможности распознавания речи в шумовом сигнале (см, например, Nuesse et al. Measuring Speech Recognition With a Matrix Test Using Synthetic Speech // Trends Hear. 2019 Jan-Dec; 23: 2331216519862982. Published online 2019 Jul 19. doi: 10.1177/2331216519862982). ТРП формируется из предложений, состоящих из фиксированного количества слов. Как пример, первичная ТРП формируется из предложений, состоящих из пяти слов, с последующим изменением их количества на основании откликов пользователей, проходящих тестирование.

Далее на этапе (202) выполняется установка конкурирующего шумового звука, который будет воспроизводиться одновременно с ТРП матричного теста. Перед запуском теста можно установить громкость речевого сигнала и громкость шума, количество слов в тесте, отключить левый или правый канал.

Впервые в практике массовых скриннинговых обследований состояния слуха предложено включить в число обязательных тестирование звукопроводящих путей по костной проводимости с использованием в качестве преобразователя специальным образом калиброванные с используемым планшетом стереофонические беспроводные наушники костной проводимости с расширенным до 20000 Гц частотным диапазоном.

Речевая последовательность использует уникальные звуковые (речевые и шумовые) файлы собственной разработки. Перечень этих файлов может изменяться и дополняться в зависимости от конкретных целей исследования слуха.

Сформированная последовательность слов и фраз матричного теста на этапе (203) воспроизводится с помощью синтезатора речи, построенного на базе моделей машинного обучения. При этом, для более точного тестирования для каждого пользователя (101) может выбираться соответствующий тип голоса (женский, мужской, детский и т.п.), а также одновременно проведения тестирования на нескольких языках, с возможностью их переключения, что важно для людей, живущих в стране с несколькими официальными языками (например, Швейцария).

Речь диктора синтезируется автоматически с заданным уровнем громкости и темпом речи. Полная матрица ТРП позволяет объективно оценить не только уровень распознавания речи в шуме, но и когнитивные возможности человека (101).

Перед запуском теста можно установить некоторые режимы проведения теста, в частности:

выбрать проверяемое ухо (оба, правое или левое);

установить счетчик тестовых фраз;

выбрать голос;

установить соотношение громкости полезного сигнала и шума одним из типичных значений или вручную.

Важной особенностью заявленного решения является его реализация в части воспроизведения речи с помощью программного синтезатора с заданными параметрами (мужской, женский, детский, хриплый, шепотом и т.п.), с заданным уровнем громкости, скорости, разборчивости произношения фонем, слов, предложений с соблюдением интонационных особенностей данного национального языка.

Важной отличительной чертой ПАК (100) является возможность проводить оценку разборчивости речи по костной проводимости с использованием наушников соответствующего типа, в частности, стереофонических наушников (113) костной проводимости с расширенным частотным диапазоном, прошедшим метрологическую калибровку на соответствие требованиям ГОСТ. Это впервые дает возможность проведения оценки разборчивости речи у людей с заболеваниями системы звукопроведения (отиты различной формы), подавая речевые сигналы через костную проводимость непосредственно к улитковой системе.

В ПАК (100) предусмотрена подсистема вычислительного устройства (110) калибровки звукового оборудования. Звуковые тракты применяемых устройств (110) разного вида, различных моделей, различные воздушные и костные наушники обладают разными характеристиками. Кроме того, устройство (110) обеспечивает возможность регулировки громкость выходного сигнала только в условных единицах от 0.0 до 1.0.

В сурдологии принято измерять уровень звукового сигнала в децибелах (дБ). Этот уровень зависит от уровня звукового давления логарифмически. Для преобразования условных единиц громкости выходного сигнала устройства (110) в дБ была разработана методика калибровки звукового оборудования, которую необходимо проводить для каждой конкретной модели применяемого устройства (110), воздушных (112) и костных наушников (113).

Предусмотрена автоматическая система защиты слуховой системы пользователя (101) от акустической перегрузки. Максимальный прослушиваемый уровень ограничен значением в 95 дБ на частоте 1000-3000 Гц, с возможностью срочного отключения звука с помощью графического интерфейса приложения для выполнения теста, запущенного на устройстве (110).

Сама по себе необходимость подавать уровни громкости прослушивания, превышающие значение 95 дБ, означает наличие у человека тяжелой потери слуха, требующего только срочного профессионального обследования профильным специалистом. Эта сигнальная информация формируется автоматически.

Применяемые для реализации программного синтезатора речи алгоритмы машинного обучения, могут представлять собой, например, Google Cloud AI & Machine Learning Products Speech-to-Text (https://cloud.google.com/speech-to-text). Google Cloud AI & Machine Learning Products Text-to-Speech (https://cloud.google.com/text-to-speech). Облачные сервисы обработки и анализа речи (Облако ЦРТ - технологии синтеза и распознавания речи (speechpro.com)) или любые другие алгоритмы, которые могут быть обучены для целей реализации настоящего технического решения в составе интерактивного ПАК.

На этапе (203) приложение на устройстве (110) генерирует и воспроизводит слова, формирующие предложения ТРП соответствующего матричного теста с помощью наушников с воздушной проводимостью (112). По факту произнесения слов и фраз с помощью синтезатора речи, пользователь дает отклик (этап 204) с помощью взаимодействия с интерфейсом устройства (110) или с помощью произнесения каждого слова и/или фразы теста. Голосовой ответ пользователя фиксируется с помощью микрофона (111) и преобразуется в текстовый формат для его анализа на правильность произнесенной фразы. В ходе теста в нижней части экрана устройства (110) может отображаться перечень всех вариантов ответа как его поняла система распознавания.

Отклик пользователя (101) оценивается устройством (110) с помощью программного модуля на базе модели машинного обучения, который переводит ответ пользователя (101) в текст и сравнивает его с воспроизведенным словом или фразой в ТРП.

Речевая последовательность воспроизводится параллельно с конкурирующим шумовым звуком, чтобы более точно оценить степень разборчивости речи пользователем (101) в эмулируемой ситуации. Речевые звуковые файлы и соответствующие им текстовые файлы могут хранится на вычислительном устройстве (110), что обеспечивает формирование произвольной комбинации любого речевого звукового файла с любым шумовым, не изменяя программу тестирования, а также дополнять список файлов произвольными сигналами и шумами.

После озвучивания одного синтезированного предложения пользователь (101) повторяет услышанное предложение так, как он его услышал и понял, после чего на этапе (205) выполняется автоматическое обнаружение начала речевого ответа и производится его пословное сравнение с тестовым вариантом, в ходе которого подсчитывается количество неправильно произнесенных или пропущенных слов.

Предусмотрена несколько тестов разной степени сложности на все возрастные группы:

1. скрининговая оценка разборчивости слуха у детей:

- возрастная группа от 7 до 14 лет.

2. Сбалансированные тесты (двухзначные числа)

3. Таблицы разносложных слов, содержащие все фонемы русского языка (Гринберг Г.И., Зиндер Л.Р.)

4. Таблицы фонемосбалансированных слов (Нейман)

При проведении теста разборчивости речи в шуме обычно рекомендуется использовать в качесте помехи белый или розовый шумы, имитирующие речевой спектр голосов большой группы людей, стоящих на больших открытых пространствах. При этом, шумовой звук может быть смоделирован, выбором из большого диапазона различных ситуаций, наиболее подходящих для ситуации тестируемого пользователя, например, совещание, шумы цеха, стройка, шум толпы в закрытом помещении и т.п.

ПАК (100) обеспечивает возможность пользователю (101) самому выбрать тот режим проверки, в котором в его повседневной жизни он испытывает наибольший дискомфорт, в частности, тип голоса (мужской, женский, детский и т.п.), уровень громкости беседы в общепринятых терминах: шепотная речь, нормальный уровень громкости разговора, громкий разговор в группе. При этом устройство (110) автоматически заменит выбранный «словесный» уровень описания громкости на соответсвующий метрологически подтвержденный уровень интенсивности прослушивания в дБ (шепотная речь - 35 дБ, нормальная речь - 50дБ и т.д.).

При анализе откликов тестируемых пользователей (101) на этапе (205) оценивается уровень их когнитивных возможностей, что учитывается впоследующем при адаптивной подтсройке теста на этапе (206). Оценка откликов пользователей (101) осуществляется устройством (110) по международной шкале STI с помощью соответствующей программной логики на базе модели машинного обучения.

Как представлено на Фиг. 2Б, изменение хода тестирования происходит при вычислении распознанных откликов, т.е. слов, в ходе проигрывания первичной ТРП. Если тестируемый пользователь (101) набирает оценку, ниже порогового значения, при распознавании слов в ТРП на эьтапе (2061), то программная логика устройства (110) формирует упрощенную ТРП (этап (2062)), при которой уменьшается количество слов в предложениях, например, три вместо 5, или шумовой сигнал становится тише, а общий сигнал воспроизведения ТРП - громче. Если тестируемый пользователь (101) на этапе (2061) распознает верно все слова в первичной ТРП, или достаточное количество для получения оценки, превышающей пороговое значение, то на этапе (2063) формируется усложненный сценарий тестирования, при котором количество слов в формируемой ТРП может быть увеличено, или соотношение сигнал/шум становится горомче.

Адаптивная подстройка тестирования на этапе (206) позволяет также оценить следующий уровень когнитивной сложности звукового анализатора пользователя (101). Также, при усложнении сценария тестирования могут применяться следующие тестовые наборы:

- двузначные числа;

- набор фонемосбалансированных слов Неймана;

- набор тестовых слов, содержащий все фонемы русского языка (таблицы Гринберга).

Вышеприведенный пример используется для русского языка. В англоязычной версии может использоваться тестовый материал: Word recognition performance for Northwestern University Auditory Test No. 6 word. В германоязычной версии используется немецкие стандарты на речевые тесты DIN 45626-1-1995,45621-1-1995, 45621-3-1985, и т.п.

Рассмотрим пример выполнения динамической адаптации теста на этапе (206).

Первый тест (первичная ТРП), запускает процедуру проигрывания укороченного фразового теста на уровне громкости «личная беседа» (нормальный уровень громкости). Уровень конкурирующего речевого сигнала «-10» дБ. Тест повторяется 5 раз с автоматическим распознаванием). В соответствии с оценкой качества восприятия речи (Таблица 1) определяется результат стартового теста.

Далее автоматически рассматривается один из трех возможных вариантов:

- «отлично» - возможен хороший слух. Дальнейшие тесты должны идти по усложнению акустических и когнитивных настроек;

- «очень плохо» - возможно тяжелое нарушение слуха. Дальнейшие тесты выполнять с упрощением акустических и когнитивных настроек;

- промежуточные варианты от «плохо» до «хорошо» рассматриваются как возможные корректируемые нарушения слуха, и проводится наиболее детальное тестирование.

Пошаговое тестирование может выполняться далее по следующему сценарию: Шаг 1

Матричный тест, фразы из трех слов, 52 дБ;

Пять фраз;

Розовый шум, 42 дБ.

0 верных ответов переход к шагу 2

1-4 верных ответа переход к шагу 3

5 верных ответов - переход к шагу 4

Шаг 2

Двузначные числа, 52 дБ;

Пять чисел;

Розовый шум, 42 дБ.

0 верных ответов - переход к шагу 6

1-4 верных ответа - переход к шагу 6

Шаг 3

Матричный тест, фразы из трех слов, 52 дБ;

Пять фраз;

Розовый шум, 42 дБ.

0-9 верных ответов в сумме с шагом 1 - переход к шагу 5

10 верных ответов - «Существенного снижения слуха не обнаружено», конец сценария Шаг 4

Матричный тест, фразы из пяти слов, 47 дБ;

Три фразы;

Розовый шум, 42 дБ.

1-2 верных ответа - переход к шагу 3

3 верных ответа - «Снижения слуха не обнаружено», конец сценария

Шаг 5

Тест Неймана, 52 дБ;

Десять слов;

Без шума.

0-8 верных ответов переход к шагу 6

9-10 верных ответов «Существенного снижения слуха не обнаружено», конец сценария Шаг 6

Тональная пороговая аудиометрия по воздушной проводимости (125-8000 Гц, автомаскировка);

Тональная пороговая аудиометрия по костной проводимости (250-8000 Гц, без маскировки).

Анализ осуществляется в соответствие со шкалой оценки качества речевой связи, обеспечивающей правильное истолкование слушателем речевых сообщений, на основании стандартов ИСО 9921:2003* "Эргономика. Оценка речевой связи" (ISO 9921:2003 "Ergonomics - Assessment of speech communication", IDT) и ГОСТ P ИСО 9921-2013.

Также, при проведении тестирования регламентирована и погрешность в распознавании отдельных слов в части процента правильных ответов на распознавание слов и подсчете соответствующей оценки (Таблица 2).

В Таблице 3 приведены регламентированные и согласованные типовые уровни громкости речи.

По итогам проведения адаптивного изменения сложности тестирования на этапе (206) с помощью модели машинного обучения на этапе (207) выполняется классификация пользователей (101), характеризующая возможности слухового анализатора человека (101).

Предварительная классификация пользователей (101) позволяет определить в доврачебном порядке основные три группы:

1) «Зеленая зона» - участники этой группы показали разборчивость речи (фразы и тестовые слова) в шуме с оценкой не ниже «хорошо».

Участникам этой группы специализированной медицинской помощи на момент обследования не требуется. Рекомендуется через год пройти повторное экспресс-обследование.

2) «Желтая зона» - участники этой группы показали разборчивость речи (фразы и тестовые слова) на среднем уровне (недостаточная речевая адаптация). Возможный уровень снижения слуха на базовых речевых частотах по воздушной проводимости более 25 дБ, что означает возможное значимое снижение слуха. Впервые в автоматическом варианте выполнен совместный анализ аудиограмм по воздушной и костной проводимости на предмет выявления характера нарушений: кондуктивный, сенсоневральный или смешенный тип нарушения. Анализ выполнен по тем диапазонам:

низкочастотный (125 Гц - 1500 Гц);

основные речевые частоты (500 Гц - 4000 Гц);

высокочастотный (3000 Гц - 8000 Гц)

Участники этой группы должны обследоваться более детально для последующей коррекции слуха и реабилитации

Участникам этой группы требуется плановое посещение специалиста для уточнения результатов (в случае необходимости), постановки диагноза и разработки плана необходимых мероприятий по коррекции слуховых возможностей.

3) «Красная зона» - участники этой группы показали уровень разборчивости речи (тестовые слова) в шуме на уровне «плохо» и «очень плохо» и показатели возможного снижения слуха при проведении скриннинговой аудиометрии, указывающие на тяжелую потерю слуха или глухоту.

Данным участникам необходимо срочное обследование у врача-оториноларинголога для определения направления более детального врачебно-диагностического обследования.

При проведении исследований, с помощью предложенного ПАК (100) формируется общий список проведенных сеансов в одном файле, который может быть передан на ПК по почте и загружен в Excel. Строка формируется только в том случае, если полностью выполнены все этапы сеанса.

Каждая строка в файле содержит:

Идентификатор вычислительного устройства (110);

Дату и время сохранения файла полного протокола;

Имя файла полного протокола;

Почтовый индекс места проведения сеанса;

Пол пациента;

Возраст;

Группа срочности (зеленая, желтая или красная);

Разборчивость фраз;

Разборчивость тестовых слов;

Скрининговая аудиометрия:

Степень снижения слуха по воздушной проводимости для правого и левого уха из списка:

Нет данных;

Норма;

1 степень;

2 степень;

3 степень;

4 степень;

Глухота;

Вид тугоухости по речевым частотам для правого и левого уха из списка:

Нет данных;

Норма;

Кондуктивная;

Нейросенсорная;

Смешанная.

Привязка результатов к географическому пункту (почтовый индекс, адрес или координата навигатора) позволяют объединять результаты, полученные в соседних регионах для последующей аналитической обработки.

При наличии репрезентативной выборки можно прогнозировать кадровые и финансовые потребности как по регионам, так и в целом по стране, оценивать эффективность проведенных организационно-технических мероприятий по улучшению коммуникативных возможностей населения конкретных регионов.

В соответствии с международной статистикой ВОЗ по распространенности снижения слуха в «зеленую зону» можно ожидать попадания не менее 75-80% участников испытательного осмотра, что существенно сократит нагрузку на имеющихся специалистов.

Заявленное решение позволяет реализовать практическую возможность сравнительного анализа результатов оценки разборчивости речи по двум физиологически различным путям передачи звукового сигнала к улитке: по воздушной и костной проводимости.

Разница в результатах речевой аудиометрии по воздушной и костной проводимости может позволить дифференцировать кондуктивную и сенсоневральную тугоухость, не прибегая к сложным аудиметрическим исследованиям.

Учитывая «квалификационную» специфику проводимого обследования - доврачебный метод без привлечения специалистов по сурдологии и оториноларингологии, крайне важно обеспечить адекватный уровень достоверности данных по измерению пороговых значений слышимости тестовых сигналов. Одновременно со всеми тестами автоматически проверяется и фиксируется уровень окружающего шума.

В настоящем решении разработан и реализован алгоритм семантического анализа аудиограмм, прошедших предварительный анализ на достоверность и непротиворечивость, который совместно с результатами анализа тестов на разборчивость речи позволил более достоверно отнести каждого испытуемого к одному из трех классов: «зеленый», «желтый», «красный».

По итогам проведенного тестирования по каждому пациенту автоматически готовится детальный протокол условий тестирования, описания использованных тестовых материалов и реальные ответы пациентов с автоматической оценкой правильности ответа, используя алгоритмы машинного обучения. Пример протоколов представлены на Фиг. 3А-3К. Сформированный по всему массиву обследуемых пациентов комплект протоколов в цифровом виде может быть отправлен, например, в региональную систему «телемедицина» или иную организацию.

На Фиг. 4 представлен общий пример компьютерного устройства (300), которое может применяться для реализации устройств, входящих в ПАК (100), например, вычислительного устройства (110). В общем случае устройство (300) содержит такие компоненты, как: один или более процессоров (301), по меньшей мере одну оперативную память (302), средство постоянного хранения данных (303), интерфейсы ввода/вывода (304), средство В/В (305), средства сетевого взаимодействия (306).

Процессор (301) устройства выполняет основные вычислительные операции, необходимые для функционирования устройства (300) или функционала одного или более его компонентов. Процессор (301) исполняет необходимые машиночитаемые команды, содержащиеся в оперативной памяти (302).

Память (302), как правило, выполнена в виде ОЗУ и содержит необходимую программную логику, обеспечивающую требуемый функционал. Средство хранения данных (303) может выполняться в виде HDD, SSD дисков, рейд массива, сетевого хранилища, флэш-памяти, оптических накопителей информации (CD, DVD, MD, Blue-Ray дисков) и т.п. Средство (303) позволяет выполнять долгосрочное хранение различного вида информации, например, истории обработки запросов (логов), идентификаторов пользователей, звуковые файлы и т.п.

Интерфейсы (304) представляют собой стандартные средства для подключения и работы различного вида устройств (300), например, USB, RS232, RJ45, LPT, COM, HDMI, PS/2, Lightning, FireWire и т.п. Выбор интерфейсов (304) зависит от конкретного исполнения устройства (300), которое может представлять собой персональный компьютер, мейнфрейм, серверный кластер, тонкий клиент, смартфон, ноутбук и т.п.

В качестве средств В/В данных (305) может использоваться: клавиатура, джойстик, дисплей (сенсорный дисплей), проектор, тачпад, манипулятор мышь, трекбол, световое перо, динамики, микрофон и т.п.

Средства сетевого взаимодействия (306) выбираются из устройства, обеспечивающий сетевой прием и передачу данных, например, Ethernet карту, WLAN/Wi-Fi модуль, Bluetooth модуль, BLE модуль, NFC модуль, IrDa, RFID модуль, GSM модем и т.п.С помощью средства (306) обеспечивается организация обмена данными по проводному или беспроводному каналу передачи данных, например, WAN, PAN, ЛВС (LAN), Интранет, Интернет, WLAN, WMAN или GSM.

Компоненты устройства (300), как правило, сопряжены посредством общей шины передачи данных или посредством любого другого типа связи, обеспечивающего взаимодействие элементов устройства (300).

В настоящих материалах заявки было представлено предпочтительное раскрытие осуществление заявленного технического решения, которое не должно использоваться как ограничивающее иные, частные воплощения его реализации, которые не выходят за рамки испрашиваемого объема правовой охраны и являются очевидными для специалистов в соответствующей области техники.

Источник поступления информации: Роспатент

Показаны записи 1-2 из 2.
04.05.2020
№220.018.1b9e

Многофункциональный интерактивный программно-аппаратный комплекс для объективной оценки уровня субъективной удовлетворенности пациента результатами электроакустической коррекции слуха и способ его применения

Группа изобретений относится к области сурдологической помощи людям с частичной потерей слуха и нуждающимся в электроакустической коррекции слуха. Заявленное решение представляет собой многофункциональный интерактивный программно-аппаратный комплекс (ПАК) и способ его применения для...
Тип: Изобретение
Номер охранного документа: 0002720401
Дата охранного документа: 29.04.2020
07.08.2020
№220.018.3daf

Способ автоматизированной оценки качества распознавания речи пациентом

Настоящее изобретение относится к области вычислительной техники для автоматизированной оценки качества распознавания речи пациентом. Технический результат заключается в обеспечении автоматической оценки качества распознавания речи пациентом за счет преобразования голосовых ответов пациента в...
Тип: Изобретение
Номер охранного документа: 0002729147
Дата охранного документа: 05.08.2020
Показаны записи 1-4 из 4.
12.01.2017
№217.015.5ab9

Способ оценки комфорта настройки параметров звукового процессора системы кохлеарной имплантации

Изобретение относится к области медицины, а именно к сурдологии. Проводят электростимуляцию слухового нерва и регистрацию ответной реакции пациента на стимуляцию. Во время стимуляции регистрируют величину зрачка. Изменение диаметра зрачков в ответ на подачу чрезмерного электрического стимула...
Тип: Изобретение
Номер охранного документа: 0002589668
Дата охранного документа: 10.07.2016
25.08.2017
№217.015.ba75

Универсальный тренажер сурдолога, аудиолога

Заявленное изобретение относится к области тренировочных комплексов, предназначенных для обучения теоретическим вопросам аудиологии и сурдологии, отработки навыков применительно к конкретным типам аудиологического оборудования, а также для получения навыков работы с реальным пациентом....
Тип: Изобретение
Номер охранного документа: 0002615686
Дата охранного документа: 06.04.2017
04.05.2020
№220.018.1b9e

Многофункциональный интерактивный программно-аппаратный комплекс для объективной оценки уровня субъективной удовлетворенности пациента результатами электроакустической коррекции слуха и способ его применения

Группа изобретений относится к области сурдологической помощи людям с частичной потерей слуха и нуждающимся в электроакустической коррекции слуха. Заявленное решение представляет собой многофункциональный интерактивный программно-аппаратный комплекс (ПАК) и способ его применения для...
Тип: Изобретение
Номер охранного документа: 0002720401
Дата охранного документа: 29.04.2020
07.08.2020
№220.018.3daf

Способ автоматизированной оценки качества распознавания речи пациентом

Настоящее изобретение относится к области вычислительной техники для автоматизированной оценки качества распознавания речи пациентом. Технический результат заключается в обеспечении автоматической оценки качества распознавания речи пациентом за счет преобразования голосовых ответов пациента в...
Тип: Изобретение
Номер охранного документа: 0002729147
Дата охранного документа: 05.08.2020
+ добавить свой РИД