×
27.05.2023
223.018.7187

Результат интеллектуальной деятельности: СПОСОБ КВАНТИФИКАЦИИ СТАТИСТИЧЕСКОГО АНАЛИЗА АЛЬТЕРНАТИВНОГО СПЛАЙСИНГА В ДАННЫХ РНК-СЕК

Вид РИД

Изобретение

№ охранного документа
0002752663
Дата охранного документа
29.07.2021
Аннотация: Изобретение относится к биотехнологии. Описан способ обнаружения отличий в частоте включения экзона при помощи анализа данных РНК-секвенирования. Согласно способу: получают данные РНК-секвенирования, состоящие из набора прочтений, из по меньшей мере одного образца, при этом образец получают из субъекта, принадлежащего к определенному биологическому виду; б) получают информацию о референсной геномной ДНК организма, принадлежащего к указанному биологическому виду, которая содержит последовательности генов; в) осуществляют разбиение указанных последовательностей генов на сегменты, при этом каждый сегмент содержит фрагмент гена между двумя ближайшими сайтами сплайсинга; г) картируют полученные наборы прочтений на указанные последовательности генов, и для каждого сегмента определяют прочтения, содержащие последовательность, которая соответствует последовательности этого сегмента; д) для каждого сегмента определяют количество «включающих» прочтений, подтверждающих наличие данного сегмента в данных РНК-секвенирования, также определяют количество «исключающих» прочтений, опровергающих наличие данного сегмента в данных РНК-секвенирования, и на основании этих двух чисел вычисляют частоту включения экзона, соответствующего данному сегменту. Техническим результатом изобретения является увеличение скорости анализа данных РНК-секвенирования и уменьшение времени, которое затрачивает специалист для интерпретации получаемых результатов. Получаемые результаты могут быть использованы в медицинской диагностике при изучении нарушений альтернативного сплайсинга и их ассоциаций с определенными заболеваниями или состояниями. 2 н.п. ф-лы, 1 ил.

Область техники

Изобретение относится к биомедицинским технологиям, а именно к анализу данных РНК-секвенирования. Изобретение может быть использовано при диагностике заболеваний, связанных с нарушением альтернативного сплайсинга.

Уровень техники

Созревание мРНК у эукариот включает в себя стадию сплайсинга - вырезания участков пре-мРНК называемых интронами и сшивание оставшихся участков называющихся экзонами. Интроны с обоих сторон ограничены сайтами сплайсинга, с 5’-конца интрона находится донорный сайт, с 3’-конца интрона - акцепторный. Все экзоны (кроме первых и последних) также ограничены с обоих сторон сайтами сплайсинга. В случае, если один и тот же фрагмент пре-мРНК в некоторых случаях вставляется в зрелую. мРНК или исключаются из нее говорят об альтернативный сплайсинге (АС). Альтернативный сплайсинг отдельного фрагмента РНК в данном биологическом образце характеризуется его частотой включения - отношением концентраций транскриптов данного гена содержащих данные фрагмент к суммарной концентрации всех транскриптов гена. Известно, что играет ключевую роль в развитии и функционировании нервной, мышечной, иммунной и других систем. Нарушения альтернативного сплайсинга связаны с такими заболеваниями как аутизм, болезнь Альцгеймера или миотоническая дистрофия. Таким образом, изучение альтернативного сплайсинга имеет и прикладное и фундаментальное значение. Подобные исследования обычно включают в себя определение частот включения участков мРНК в каждом отдельном биологическом образце и сравнение этих частот включения между двумя группами образцов, например между образцами полученными от больных и здоровых доноров или между образцами выделенными из различных органов. Развитие методов секвенирования нового поколения позволило анализировать АС в масштабе всего генома. Массовое секвенирование РНК (РНК-Сек) позволяет получить десятки миллионов коротких прочтений РНК. Выравнивание этих фрагментов на геном позволяет определить какие участки генома транскрибируются и после процессинга пре-мРНК входят в зрелые мРНК. Сравнение выравнивай прочтений РНК-Сек с геномной аннотацией (набором геномных координат генов, транскриптов и составляющих их экзонов) может позволить вычислить частоты включения экзонов всех экспрессирующихся генов. На данный момент существует несколько методов, позволяющих исследовать альтернативный сплайсинг (АС) при помощи данных РНК-Сек, однако каждый из них обладает некоторыми недостатками. Методы Cuffdiff2 [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3869392/], MISO [https://www.ncbi.nlm.nih.gov/pubmed/21057496], MATS [https://www.ncbi.nlm.nih.gov/pubmed/25480548] работают на уровне транскриптов или генов и не позволяют найти конкретный экзон, что необходимо для поиска причин паталогических изменений АС. Метод DEXseq [https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3460195/] направлен на выявление дифференциального использования экзонов не только в следствии АС, но также в следствии использования альтернативных стартов или концов транскрипции. Поэтому использование DEXseq для поиска патологических изменений АС может приводить к ложно-положительным результатам.

Сущность изобретения

Задачей настоящего изобретения является создание способа обнаружения отличий в результатах альтернативного сплайсинга (АС) у различных групп субъектов при помощи анализа данных РНК-Сек.

Указанная задача решается путем создания способа подсчета частоты включения экзона в данных РНК-секвенирования, включающего следующие стадии:

а) получают данные РНК-секвенирования, состоящие из набора прочтений, из по меньшей мере одного образца, при этом образец получают из субъекта, принадлежащего к определенному биологическому виду;

б) получают информацию о референсной геномной ДНК организма, принадлежащего к указанному биологическому виду, которая содержит последовательности генов;

в) осуществляют разбиение указанных последовательностей генов на сегменты, при этом каждый сегмент содержит фрагмент гена между двумя ближайшими сайтами сплайсинга;

г) картируют полученные наборы прочтений на указанные последовательности генов, и для каждого сегмента определяют прочтения, содержащие последовательность, которая соответствует последовательности этого сегмента;

д) для каждого сегмента определяют количество «включающих» прочтений, подтверждающих наличие данного сегмента в данных РНК-секвенирования, также определяют количество «исключающих» прочтений, опровергающих наличие данного сегмента в данных РНК-секвенирования, и на основании этих двух чисел вычисляют частоту включения экзона, соответствующего данному сегменту.

В предпочтительном варианте, данный способ характеризуется тем, что частоту включения экзона вычисляют по формуле:

,

где в и и обозначают количество включающих и исключающих прочтений, а дс и дп обозначают длину сегмента и прочтения в нуклеотидах, соответственно.

Указанная задача также решается путем создания способа определения статистически значимых отличий в частоте включения экзона в данных РНК-секвенирования, полученных из по меньшей мере двух различных образцов, включающего следующие стадии:

а) получают данные РНК-секвенирования, состоящие из набора прочтений, из по меньшей мере двух различных образцов, при этом образцы получают из субъектов, принадлежащих к одному биологическому виду;

б) получают информацию о референсной геномной ДНК организма, принадлежащего к указанному биологическому виду, которая содержит последовательности генов;

в) осуществляют разбиение указанных последовательностей генов на сегменты, при этом каждый сегмент содержит фрагмент гена между двумя ближайшими сайтами сплайсинга;

г) для каждого образца картируют полученные наборы прочтений на указанные последовательности генов, и для каждого сегмента определяют прочтения, содержащие последовательность, которая соответствует последовательности этого сегмента;

д) в каждом образце для каждого сегмента определяют количество «включающих» прочтений, подтверждающих наличие данного сегмента в данных РНК-секвенирования, также определяют количество «исключающих» прочтений, опровергающих наличие данного сегмента в данных РНК-секвенирования, и на основании этих двух чисел вычисляют частоту включения экзона, соответствующего данному сегменту;

е) определяют статистически значимые отличия в частоте включения экзона в по меньшей мере одном образце по сравнению с другими образцами.

В предпочтительном варианте, данный способ характеризуется тем, что частоту включения экзона в каждом образце вычисляют по формуле:

,

где в и и обозначают количество включающих и исключающих прочтений, а дс и дп обозначают длину сегмента и прочтения в нуклеотидах, соответственно.

Техническим результатом настоящего изобретения является увеличение скорости анализа данных РНК-секвенирования и уменьшение времени, которое затрачивает специалист для интерпретации получаемых результатов. Получаемые результаты могут быть использованы в медицинской диагностике при изучении нарушений АС и их ассоциаций с определенными заболеваниями или состояниями.

Краткое описание чертежей

Фиг. 1. Схема предложенного метода анализа АС. Аннотация генома, выравнивание прочтений и информация о разбиении образцов на сравниваемые группы является входными данными алгоритма. Алгоритм осуществляет разбиение генов на сегменты, подсчет прочтений и статистический анализ для поиска сегментов со статистически значимыми отличиями АС между группами.

Подробное раскрытие изобретения

В описании данного изобретения термины «включает» и «включающий» интерпретируются как означающие «включает, помимо всего прочего». Указанные термины не предназначены для того, чтобы их истолковывали как «состоит только из». Если не определено отдельно, технические и научные термины в данной заявке имеют стандартные значения, общепринятые в научной и технической литературе.

Прочтение (рид) - это короткая (от 30 до 500 нт) нуклеотидная последовательность, полученная в результате применения методов массового секвенирования к ДНК или РНК, выделенной из биологического образца. Наиболее часто применяемые технологии массового секвенирования позволяют получить несколько десятков миллионов прочтений на один биологический образец, обычно длина прочтения составляет около 100 нуклеотидов.

Картировать (или выравнивать) прочтение РНК-Сек на последовательности генов из геномной ДНК организма означает определить место в геномной ДНК, с которого был транскрибирован фрагмент, в результате секвенирования которого получилось данное прочтение.

Входными данными для анализа АС предлагаемым алгоритмом являются выравнивание данных РНК-сек на геном анализируемого организма и аннотация генома. Одновременно может анализироваться произвольное количество образцов РНК-сек полученных от одной или нескольких особей одного вида. Мощность метода зависит от количества прочтений в каждом образце, рекомендуется иметь хотя бы 30 млн прочтений на образец, однако метод может работать и с меньшим числом прочтений. Предлагаемый алгоритм для анализа АС состоит из трех стадий:

1. Разбиения всех генов, присутствующих в аннотации, на сегменты - фрагменты генов между двумя ближайшими сайтами сплайсинга.

В рамках этой процедуры рассматриваются сайты сплайсинга данного гена. Несколько сайтов с идентичными координатами и типами (донорный/акцепторный) схлопываются в один. Участок между двумя соседними сайтами сплайсинга является сегментом. Далее, все сегменты классифицируются на константные экзоны или интроны (сегменты, являющиеся экзонами или интронами соответственно во всех мРНК гена проходящих через данный участок) и альтернативные (сегменты, являющиеся экзонами в одних мРНК и интронами в других). Альтернативные сегменты разбиваются на четыре основных типа: кассетные экзоны (начинается с акцепторного сайта и кончается донорным), альтернативный донорный/акцепторный сегменты (начинается и кончается донорным/акцепторным сайтом) и удержанные интроны - начинаются с донорного сайта и кончаются акцепторным.

2. Подсчет числа прочтений

Для каждого сегмента в каждом образце подсчитывается два числа: количество прочтений, подтверждающих включение данного сегмента в мРНК («включающие» прочтения, то есть прочтения выравнивание которых пересекает сегмент хотя бы на один нуклеотид) и количество прочтений, подтверждающих исключение данного сегмента из мРНК («исключающие» прочтения, то есть прочтения выравнивающиеся на границу пары экзонов, один из которых находится до, а другой после данного сегмента). В ходе данной процедуры исключаются прочтения, которые выравниваются в несколько мест генома. Для устранения эффекта непроцессированных мРНК из подсчета исключающих прочтений и включающих прочтений для всех сегментов кроме удержанных интронов не учитываются прочтения пересекающиеся с интронами.

Для вычисления ЧВ (частота включения сегмента) число включающих и исключающих прочтений нормируется на количество различных позиций на которые могли бы потенциально выровняться прочтения:

где в и и обозначают количество включающих и исключающих прочтений, а дс и дп обозначают длину сегмента и прочтения соответственно. Предпочтительным является использование данных РНК-Сек с постоянной длинной прочтения, в ином случае используется средняя (на данный образец) длина прочтения.

3. Поиск сегментов со статистически значимыми отличиями ЧВ между тестовой и контрольной группами

Поиск сегментов с статистически значимыми отличиями в частотах включения осуществляется при помощи обобщенных линейных моделей с биномиальным распределением. Для учета биологической вариабельности используется тест на квази-отношение правдоподобий. Для коррекции на множественное тестирование применяется поправка Бенджамини-Хохберга. Сегменты с корректированным p-значением меньше 0.05 считаются статистически значимо отличными между сравниваемыми группами. Потенциально, благодаря использованию линейных моделей метод позволяет производить сравнение как двух выборок, так и анализировать более сложные экспериментальные дизайны с большим числом ковариатов.

Результатом работы алгоритма является список всех аннотированных сегментов, частоты их включения во всех сравниваемых образцах, разность средних частот включения между сравниваемыми группами образцов и p-значения для этого сравнения.

Примеры применения

Метод был применен для анализа изменений АС в ходе развития мозга человека и других приматов. Было показано что частоты включения сотен экзонов меняются в ходе постнатального развития мозга. При этом, некоторые изменения продолжаются и в старении, в частности, сплайсинг двух кассетных экзонов в транскриптах генов APP и MAPT, вовлеченных в болезнь Альцгеймера.

Несмотря на то, что изобретение описано со ссылкой на раскрываемые варианты воплощения, для специалистов в данной области должно быть очевидно, что конкретные подробно описанные случаи приведены лишь в целях иллюстрирования настоящего изобретения, и их не следует рассматривать как каким-либо образом ограничивающие объем изобретения. Должно быть, понятно, что возможно осуществление различных модификаций без отступления от сути настоящего изобретения.

Источник поступления информации: Роспатент

Showing 1-3 of 3 items.
16.05.2023
№223.018.5fa1

Система автоматической деперсонализации отсканированных рукописных историй болезни

Изобретение относится системе автоматической деперсонализации отсканированных рукописных историй болезни. Технический результат заключается в автоматической деперсонализации отсканированных рукописных историй болезни. Система содержит блок распознавания рукописного текста, блок распознавания...
Тип: Изобретение
Номер охранного документа: 0002744493
Дата охранного документа: 10.03.2021
23.05.2023
№223.018.6edd

Цифровая компьютерно-реализуемая платформа для создания медицинских приложений с использованием искусственного интеллекта и способ её работы

Изобретение относится к вычислительной технике. Технический результат заключается в расширении арсенала технических средств платформы. Цифровая компьютерно-реализуемая платформа для создания медицинских приложений с использованием искусственного интеллекта содержит подсистему хранения данных,...
Тип: Изобретение
Номер охранного документа: 0002742261
Дата охранного документа: 04.02.2021
30.05.2023
№223.018.743c

Способ детектирования эпилептиформных разрядов в длительной записи ээг

Изобретение относится к медицине и вычислительной технике. Техническим результатом является обеспечение точного детектирования генерализованных эпилептиформных разрядов, уменьшение числа пропускаемых разрядов и сокращение времени на детектирование генерализованных эпилептиформных разрядов....
Тип: Изобретение
Номер охранного документа: 0002747712
Дата охранного документа: 13.05.2021
Showing 11-19 of 19 items.
25.07.2019
№219.017.b872

Способ получения наноразмерных частиц кальция в водной среде

Изобретение относится к области химии и нанотехнологии, а именно к способу получения наноразмерных частиц кальция в водной среде, включающий помещение в дистиллированную воду, находящуюся в емкости, двух электродов, один из которых выполнен из золота или платины с нейтральным водородным числом,...
Тип: Изобретение
Номер охранного документа: 0002695352
Дата охранного документа: 23.07.2019
03.08.2019
№219.017.bc65

Способ лечения кастрационно-устойчивого рака простаты

Изобретение относится к медицине, а именно к онкологии, и может использовано для лечения кастрационно-устойчивого рака простаты. Для этого одновременно с комбинацией препаратов доцетаксель 75 мг/м поверхности тела 1 раз в 3 недели + энзалутамид 160 мг в сутки + преднизолон 10 мг в сутки...
Тип: Изобретение
Номер охранного документа: 0002696288
Дата охранного документа: 01.08.2019
03.08.2019
№219.017.bc72

Способ лечения кастрационно-устойчивого рака простаты

Изобретение относится к медицине, а именно к онкологии, и может быть использовано для лечения кастрационно-устойчивого рака предстательной железы. Для этого одновременно с комбинацией препаратов доцетаксель 75 мг/м поверхности тела 1 раз в 3 недели + энзалутамид 160 мг в сутки + преднизолон 10...
Тип: Изобретение
Номер охранного документа: 0002696287
Дата охранного документа: 01.08.2019
02.10.2019
№219.017.cee2

Способ лечения кастрационно-устойчивого рака простаты

Изобретение относится к медицине, а именно к онкологии, и может быть использовано для лечения кастрационно-устойчивого рака предстательной железы. Для этого одновременно с комбинацией препаратов доцетаксель 75 мг/м поверхности тела 1 раз в 3 недели + абиратерон 1000 мг в сутки + преднизолон 10...
Тип: Изобретение
Номер охранного документа: 0002700573
Дата охранного документа: 18.09.2019
22.11.2019
№219.017.e4a7

Способ лечения кожных заболеваний, ожогов, поверхностных и глубоких ран

Изобретение относится к медицине, а именно дерматологии, и может быть использовано при лечения экзем и ожогов 2 и 3 степени. Способ заключается в нанесении на кожу или рану в область поражения водного мицеллярного раствора наноразмерных частиц золота с регулярностью до трех раз в сутки в...
Тип: Изобретение
Номер охранного документа: 0002706724
Дата охранного документа: 20.11.2019
22.11.2019
№219.017.e4cd

Способ лечения кожных заболеваний, ожогов, поверхностных и глубоких ран

Изобретение относится к хирургии, травматологии, комбустиологии и дерматологии и касается лечения кожных заболеваний, выбранных из ожогов, поверхностных и глубоких ран. Для этого на область поражения наносят водный мицеллярный раствор наноразмерных частиц серебра три раза в сутки курсом до...
Тип: Изобретение
Номер охранного документа: 0002706722
Дата охранного документа: 20.11.2019
27.03.2020
№220.018.1080

Snp-панель для генотипирования и геномной селекции подсолнечника по содержанию жирных кислот в масле семян

Изобретение относится к области биохимии, в частности к способу отбора сорта семян подсолнечника с повышенным или пониженным содержанием жирных кислот, выбранных из группы: 16:2, 18:1, 18:2, 18:3 и 20:2. Изобретение позволяет эффективно определять содержание жирных кислот. 6 з.п. ф-лы, 1 ил., 3...
Тип: Изобретение
Номер охранного документа: 0002717642
Дата охранного документа: 24.03.2020
23.05.2023
№223.018.6f0a

Способ улучшения качества аннотации липидных признаков, относящихся к отдельным липидным классам, с использованием информации о времени задержки в масс-спектрометре

Изобретение относится к области медицины. Предложен способ анализа данных о содержании в образце интересующих классов липидов на основе масс-спектрометрического анализа с жидкостной хроматографией, включающий получение данных жидкостной хроматографии с масс-спектрометрией анализируемого...
Тип: Изобретение
Номер охранного документа: 0002743418
Дата охранного документа: 18.02.2021
27.05.2023
№223.018.7168

Способ уменьшения вклада технических факторов в суммарный сигнал данных масс-спектрометрии с помощью фильтрации по техническим образцам

Изобретение относится к области медицины. Предложен компьютерно-реализуемый способ удаления липидных признаков со слабым сигналом. Получают технические образцы, в которых отсутствует биологический сигнал, и биологические образцы, в которых присутствует биологический сигнал. На вычислительном...
Тип: Изобретение
Номер охранного документа: 0002769618
Дата охранного документа: 04.04.2022
+ добавить свой РИД