Разное

Где находится геническ: цены на жилье и отдых в 2021 году

Содержание

ГЕНИЧЕСК аквапарк OASIS: цены 2021, отзывы

5 отзывов с оценкой.

Летний отдых на Азовском море на Арабатской Стрелке и в Геническе не может быть полным без посещения аквапарка. Множество водных развлечений, собранных в одном месте привлекают и маленьких, и взрослых туристов в поселок Геническая Горка, в котором расположен «Oasis».

Данный аквапарк, входящий в группу «Акваленд», запущен в 2017 году в Генгорке.

Расположение и особенности

Аквапарк «Oasis» находится прямо на побережье Азовского моря в курортном поселке Генгорка, расположенном в Херсонской области. Это самый юный развлекательный комплекс в Украине, который еще не успел приобрести большую популярность среди отдыхающих, но привлекателен он именно своей новизной.

Аквапарк «Oasis» в Генической Горке. ©Фото «Oasis» из группы в FB.

«Oasis» охватывает площадь в 1,6 га. Новый комплекс водных развлечений имеет хорошо продуманную закрытую территорию. Его удобство и практичность дополняется внешним эстетическим оформлением ― яркие цвета горок, зонтиков от солнца в сочетании с бирюзовой водой бассейнов создают привлекательную красочную картинку.

Бассейны

На территории аквапарка находится два бассейна с морской водой, которая фильтруется с помощью специальных переливных систем:

  • взрослый ― площадь порядка 1120 м2, глубина ― 1,4 м;
  • детский ― состоит из двух зон площадью по 350 м2, глубина которых соответственно составляет 0,40 см и 0,75 см.

Аттракционы

В аквапарке «Oasis» посетителей ждет 10 уникальных водных горок, самая большая высота спуска около 15 метров, длина ― порядка 180 метров. Абсолютно все аттракционы имеют звучные названия, для более полных ощущений можно выбрать спуски различной высоты и разного угла наклона:

  • 4 горки высотой до 15 метров: «Свободное падение», «Камикадзе», «Долина змей» и «Большая черная дыра» ― диаметр 2 м;
  • 2 горки до 13 метров: «Малая Черная дыра» ― диаметр 1,4 м, и «Спираль»;
  • 2 горки до 10 метров:
    «Волна» и «Мультислайд»;
  • 2 горки 9 метров: «Косичка» и «Тайна Бермудов».

Территория парка развлечений разделена на две условные зоны ― детскую и взрослую. Для маленьких гостей предусмотрен мелкий бассейн и четыре небольших горки высотой по 2,5 метра. В детской зоне постоянно работает два инструктора.

Для взрослых обустроена релакс-зона, где можно отдохнуть душой и телом. Здесь находится большой бассейн глубиной в 1,4 метра, рядом с которым размещены шезлонги ― как в теневой зоне, так и на открытом солнце, для любителей солнечных ванн.

У бассейнов и горок не скользко, так как вся территория аквапарка имеет специальное покрытие из плитки.

Цены на 2021-й год на посещение аквапарка «Оазис» в Геническе

На текущий момент цены на 2021-й год в аквапарке «Оазис» не определены, но для ориентира указаны цены на 2020 год.

Актуальные цены на 2020-й год на посещение аквапарка в Геническе. Ценовое предложение не является офертой, и конечная стоимость посещения аквапарка может быть изменена без предупреждения и публикации на данной странице.

Билет 10:00-18:30 12:00-18:30 14:00-18:30 15:30-18:30 16:30-18:30
8,5 часов 6,5 часов 4,5 часа 3 часа 2 часа
Взрослый 455 435 395 355 300
Детский ― до 12-ти лет 435 415 375 335 280

Вход для детей возрастом до трех лет бесплатный ― потребуется предъявить свидетельство о рождении ребенка.

Для жителей Генического района вход с 10:00 до 18:30 по предъявлению паспорта с действующей пропиской ― 175 гривен для взрослых, и свидетельства о рождении ― 175 гривен для детей в сопровождении взрослых. Подростки, получившие ID-карту должны предъявить в кассе копию выписки, где указана прописка и карту.

Стоимость сезонного абонемента, который действует с 1 июня до 1 сентября ― 800 гривен.

Именинники могут воспользоваться акционным предложением: стоимость входного билета в «Оазис» при возрасте более 18 лет ― 50% скидки, до 18 лет ― 1 гривна. Для приобретения билета необходимо предъявить паспорт либо свидетельство о рождении.

Аквапарк «Oasis» работает ежедневно с 10:00 до 18:30.

Питание

На территории аквапарка работают: ресторан, кафе, и бары, в которых можно купить закуски, салаты, супы, блюда на гриле, десерты, пиццу, бургеры, хот-доги, прохладительные напитки и коктейли на любой вкус. Комплексных обедов в кафе не предусмотрено.

Примерные цены из меню на лето 2020 года

Приносить с собой продукты питания и напитки на территорию аквапарка запрещено администрацией.

Инфраструктура

На входе в аквапарк расположены кассы, в которых можно приобрести входные билеты.

Помимо водных аттракционов и зоны отдыха, на территории «Oasis» для посетителей предусмотрены:

  • релакс фиш-спа;
  • фуд-корт;
  • кальянная;
  • киоски с сувенирной продукцией с атрибутикой аквапарка «Oasis»;
  • кинотеатр;
  • душ открытого типа с пресной водой;
  • 6 туалетов ― 2 при входе в аквапарк, 4 возле бассейнов;
  • камеры для хранения личных вещей в виде шкафчика с ключом ― стоимость хранения 10 гривен, залог 20 гривен.

К аквапарку «Оазис» оборудованы хорошие подъездные пути для автомобилей, перед территорией предусмотрены места для парковки транспортных средств.

Как добраться и где остановиться

По Арабатской Стрелке между курортными поселками Геническая Горка, Счастливцево и Стрелковое курсируют автобусы от автостанции Геническ. Информация о вариантах проезда в Геническ из разных городов Украины, а также контакты служб такси и проверенных перевозчиков, опубликованы в специальном материале Маршрутки, такси и автобусы в Геническ.

Редакторская подборка жилья возле аквапарка


Отель «Джерело»
5 километров от аквапарка, 5-6 минут на машине. Отель возле водолечебницы.

Веб-камера

Если вы решили посетить всей семьей аквапарк «Oasis» в Генической Горке ― у вас есть возможность посмотреть курорт и аквапарк с помощью веб-камеры, которая установлена редакцией «Кирилловка.Укр» совместно с администрацией «Oasis». Кроме того трансляция позволяет узнать загруженность и текущую погоду.

Фото

Все нижеследующие фотографии принадлежать аквапарку «Oasis» и взяты из группы в FB.

Контакты

Адрес: Херсонская обл., с. Геническая Горка, ул. Набережная, 26-Я.

Контактный телефон: +38 (066) 510-94-67.

Отзывы

Отзывы об аквапарке «Oasis» можно оставить ниже с помощью формы на сайте или через различные социальные сети (нужна предварительная авторизация).

ГЕНИЧЕСК база отдыха ГЮНАЙ: цены 2021, отзывы

База отдыха «Гюнай» расположена в Геническе на самом берегу Азовского моря и имеет прямой выход на собственный облагороженный пляж.

На огражденной и охраняемой территории базы установлены беседки, оборудован капитальный бассейн с пресной водой и горками, а также высажены деревья и кустарники.

База «Гюнай» ориентирована на спокойный семейный отдых и отдых с маленькими детьми.

Номерной фонд

Номерной фонд базы отдыха «Гюнай представлен 40 номерами от «Люкс» до «Эконом»-классов с возможностью размещения от 2-х до 5-ти человек.

Номера «Люкс» 4-5-ти местные с кухней

Каждый номер состоит из: спальни, кухни и полного санузла с круглосуточной подачей холодной и горячей воды.

Комплектация спальни: двуспальные и односпальные кровати по количеству мест в номере, прикроватные тумбочки, шкаф, стол со стульями, кондиционер и холодильник.

Комплектация кухни: электрическая печь, электрочайник, раковина.

Номера «Люкс» 2-х, 3-х и 4-х местные

Каждый номер состоит из: спальни и полного санузла с круглосуточной подачей холодной и горячей воды.

Комплектация: двуспальные и односпальные кровати по количеству мест в номере, прикроватные тумбочки, шкаф, кондиционер и холодильник.

Номера «Эконом» 2-х, 3-х, 4-х и 5-ти местные

Комплектация: двуспальные и односпальные кровати по количеству мест в номере, прикроватные тумбочки, шкаф, кондиционер.

Для номеров данного типа на территории оборудован общий санузел ― 2 душа и 2 туалета.

Цены на отдых в 2021 году

Цены на отдых в 2021 году на базе отдыха «Гюнай» в Геническе указаны в гривне за номер в сутки для номеров «Люкс» и за человека в сутки для номеров «Эконом». Стоимость указана без питания.

Категория 01.06-30.06 01.07-31.08
«Люкс» 4-5-ти местные с кухней 1000 1100
«Люкс» 3-х местные 700 800
«Люкс» 2-х местные 500 600
«Эконом» 2-5-ти местные от 100 от 100

Заселение ― после 13:00, выселение ― до 12:00. Ранний заезд и поздний выезд оговариваются индивидуально.

Курение в номерах ― запрещено. Проживание с животными ― строго по предварительному согласованию.

Услуги

Стирка за дополнительную плату.

Питание

Самостоятельное приготовление пищи в номерах с кухней, а также на общей оборудованной кухне с газовой плитой или в кафе на территории.

Интернет

Бесплатный Wi-Fi.

Инфраструктура

Парковка для автомобиля (бесплатно), бассейн, шезлонги (бесплатно), детская площадка, беседки, мангальная зона, кафе.

В 7 минутах ходьбы находится рынок.

Фото

Территория

Номера

Адрес: Херсонская обл., Геническ, проспект Мира, 214.

Телефоны: +38 (097) 563-91-64, +38 (099) 275-38-48. Обязательно скажите, что звоните с сайта kirillovka.ks.ua.

Отзывы

Отзывы о базе отдыха «Гюнай» можно оставить ниже.

Отзывы не должны содержать ненормативную лексику и нарушать законодательство Украины и других стран о СМИ. Перед отправкой, пожалуйста, дважды проверьте текст на наличие опечаток.

каталог с ценами пансионатов, баз отдыха в Геническе на Азовском море.

В разделе «Отдых в Геническе» размещены базы отдыха, пансионаты, гостевые дома которые расположены в пределах Генической курортной зоны. Если вы ищете варианты проживания в поселках Геническая Горка (Генгорка), Счастливцево, Стрелковое - перейдите в раздел сайта "Арабатская стрелка".

Рекомендуем при выборе турбазы или жилья в частном секторе сразу обращать внимание на их удаленность от побережья. Близкими к морю будут следующие улицы: Суворова, Горького, Азовская, Советская. Улицы, которые проходят непосредственно вдоль городского пляжа: Приморская, Кирова, Свердлова.

  • Гостевой дом "Дом с улыбкой"

    30 метров до пляжа, Wi-Fi, мангалы, рядом рынок и круглосуточный АТБ.

    от 500 грн. за номер
  • Отель Орхидея

    Дети до 6ти лет БЕСПЛАТНО, бассейн, мангал, сауна, парковка, всё для детей, качественное питание, работаем круглый год.

    от 350 грн./чел.
  • Пансионат Коралл

    Первая линия от моря, в семидесяти метрах песчаный пляж.

    от 150 грн./чел.
  • Частный пансионат "Приморская 18-Б"

    Минута до дикого пляжа, террасы с видом на море, детский бассейн, качели.

    от 600 грн. номер
  • Гостевой дом "Отдых у Татьяны"

    15 метров до пляжа, Wi-Fi, возможен трансфер, рядом рынок.

    от 600 грн. номер
  • База отдыха Гюнай

    На берегу моря, свой ухоженный пляж, удобное расположение, кафе с питанием, беседки, детская площадка, бассейн.

    от 100 грн./чел.
  • Краткий обзор курортного города Геническ на Азовском море

    Список генических пляжей смотрите здесь →  Все пляжи Геническа с обзорами и фото

    Сводная таблица стоимости проживания →  Цены 2021 на отдых в Геническе

    Несколько полезных телефонов на заметку:

    • Такси в Геническе +38-067-921-34-37
    • Автовокзал "Новоалексеевка" +38-05534-3-21-56
    • Автовокзал (Геническ) +38-05534-3-27-48
    • Ж/д вокзал (Геническ) +38-05534-3-61-67

    Находится Геническ в Херсонской области, у основания косы Арабатская стрелка, в северо-западной части Азовского моря. Город соединяется с Арабатской косой железнодорожным и автомобильным мостами, которые проходят через Тонкий пролив. Турбазы и пансионаты располагаются, как правило, на первой линии от побережья.

    Один из спусков на генический городской пляж.

    Отдых в Генической курортной зоне очень популярен благодаря уникальным лечебным природным факторам этой местности. С одной стороны находится Азовское море, а с другой – залив Сиваш. Это уникальная природная лечебница с благоприятным климатом, целебным воздухом, богатыми минералами лечебными грязями и рапой. Здесь вы можете найти залежи редкой и невероятно целебной голубой глины. Ежегодно тысячи туристов приезжают сюда, чтобы оздоровиться и набраться жизненных сил на весь следующий год.

    Геническ — это город с достаточно развитой инфраструктурой, в нем есть рынки (в том числе рыбный), магазины, банки, аптеки, кафе, рестораны, кинотеатр и множество развлечений которые придутся вам по душе во время пребывания. Здесь есть оборудованный городской пляж, парк аттракционов им. Шевченко.

    К известным достопримечательностям города можно отнести Церковь Рождества Богородицы и Генический краеведческий музей, хотя местные жители самой главной достопримечательностью считают Азовское море и большой чистый пляж.

    Любителям молодежных тусовок и ночной жизни будет полезно знать что, основная часть дискотек и кафе работают возле пляжа, и музыка там звучит до самого утра. На рынках в Геническе всегда большой выбор всевозможной рыбы, икры, креветок, так что это место тоже стоит обязательно посетить.

    ГЕНИЧЕСК отдых 2021 - базы отдыха, отели, частный сектор, пансионаты Геническа.

    Хотите провести отпуск в маленьком и очень уютном городке на берегу Азовского моря? Добро пожаловать в Геническ. Здесь всё размеренно, спокойно и по-домашнему комфортно. Отдых в Геническе привлекателен в первую очередь простотой и доступностью курорта. А цены представлены в достаточно широком диапазоне – от бюджетных вариантов, которые традиционно представляет частный сектор. До вполне люксовых номеров со всеми удобствами, которые предлагают санатории, отели, пансионаты и базы отдыха. Еще одним фактором, играющим в пользу выбора Геническа как места для отдыха, является Арабатская стрелка, которая также представляет большой интерес для туристов своими рекреационными и лечебными особенностями.

    Кроме уютности и простоты у этого города довольно богатое историческое прошлое, с которым можно ознакомится, посетив местный краеведческий музей. Если Вам интересна история нашего края, то там Вы найдете для себя много интересного и познавательного. Там же можно увидеть образцы творчества местных художников и краеведов.

    Для многих отдыхающих на курорте важно не только солнце, море и песок, но и наличие достопримечательностей, интересных экскурсий и памятных мест для незабываемых фотографий. Геническ  не является, каким либо исключением из правил, и многие места для фотографий  уже давно облюбованы гостями нашего города. Прежде всего, это аллея сказок, расположенная на проспекте мира. Каждый новый торговый объект добавляет что-то новое в общую картину. Если взять статистику по тому признаку какие фото Геническа встречаются чаще всего в сети и соц.сетях у побывавших здесь, то большая часть это именно фотографии сделанные в этом месте.

    Очень памятное и интересное сооружение – это, безусловно, железный «старый» мост, который является заслуженным лидером по присутствию на свадебных фото местных фотографов. Да и просто полюбоваться красивыми видами на пролив Тонкий можно как раз с этого моста. Естественно всё побережье рекомендовано к посещению. Генический маяк тоже не должен оставить никого равнодушными. Разве можно холодно относится к старым маякам? Так же можно встретить образцы зданий, которые построены еще в 19 веке. Одним из образцов старой архитектуры является арка Калимбета. 

    Кроме этого рекомендуем обратить своё внимание на достаточно уникальную природу Приазовья, а в частности на залив Сиваш. В этом году будут доступны морские прогулки на каяках. Такой вид экскурсий даст возможность увидеть Сивашские заливы и озёра с новой точки зрения.

    Генічеськ: відпочинок, ціни, пам'ятки, вігуки, фото

    Якщо вам друзі давно радили поїхати в Генічеськ, а ви до сих пір сумніваєтеся, то після нашого гайду зрозумієте, що сумніватися ні в чому!

    Отже, Генічеськ - це невелике містечко в Херсонській області (Азовське море), яке знаходиться навпроти коси Арабатська стрілка. Курорт став популярним завдяки доступності, теплому морю і комфортному проведенню часу.

    Генічеськ - порівняно невелике місто, але це місто! А значить, у вас не буде ніяких проблем з купівлею продуктів, з мобільним зв'язком або інтернетом, а також з тим, щоб звернутися в лікарню в разі чого, або знайти аптеку (які тут цілодобово).

    Місто тихе і розмірене, без галасливих компаній по ночах і без агресій на вечірках. Курорт досить спокійний, тут буде комфортно сім'ям з дітьми. Незважаючи на тишу Генічеська, тут також проходять дискотеки і розташовуються клуби. Весело, але без фанатизму.

     

    Транспортна розв'язка і не тільки

    На околиці міста розташовується залізнична станція, тут же проходить автомагістраль. Зручно для пересування і корисно для екології міста!

    На відміну від багатьох інших курортів, в Генічеську все розраховано вкрай безпечно для здоров'я і відпочинку туристів, тому не потрібно хвилюватися на рахунок загазованості або промисловості міста - тут все в повному порядку.

    Ціни на житло

    Як і всюди - в Генічеську ви можете знайти житло як в приватному секторі так і на базах відпочинкуГоловне, що по місту збалансовано «розкидані» економ, стандарт і люкс варіанти. Тому в залежності від місцевості, ви можете вибрати зручне житло на ваш гаманець.

    Незважаючи на те, що за статистикою деяких експертів ціни в Генічеську підвищилися на 15-17% в 2017 році, це все ще набагато доступніше, ніж в інших курортних містах.

     

    Пляжі

    У Генічеську піщані пляжі з домішкою дрібної ракушки. Обриви берега згладжені, а від можливих підмивів берегова лінія укріплена кам'яними відвалами.

    Найвідомішими можна назвати "Дитячий пляж" і пляж під назвою "Дикий".

    Дитячий пляж - міський пляж в центральній частині Генічеська. А свою назву отримав пляж завдяки неглибокому морю, що дуже підходить для сімей з дітьми. Є також магазини, тіньові навіси та атракціони!

    Дикий пляж, на відміну від Дитячого, практично не має інфраструктури, перебуваючи в межах міста. Через це і відповідна назва, а не тому, що тут мешкають любителі «ню», як подейкують. Пляж доволі вузький, 10-15 метрів, але при цьому найпопулярніший серед туристів і місцевих відпочивальників.

     

    Інфраструктура і розваги

    Крім того, що у вас не буде боліти голова з приводу зняття готівкових коштів (є філії багатьох великих банків, в т.ч. «ПриватБанк», «ОщадБанк», «УкрСибБанк», «Райффайзен Банк Аваль»), покупки товарів, наявності аптек та іншого необхідного, в Генічеську також ви точно знайдете «що подивитися».

    Варто відвідати аквапарк і дельфінарій.

    Основна частина розваг знаходиться в парку Шевченка. Атракціони і каруселі, вікторини та конкурси, аніматори для дітей та багато іншого.

    Молоді буде цікаво, скоріше, в спортивно-розважальному центрі «Plazma», який відкритий щодня з 10 ранку. Тут є боулінг і більярд, можна подивитися спортивні передачі або перекусити в місцевому барі.

    Любителі нічного життя точно повинні не забути зайти в «Манхеттен», де часто проводяться тематичні вечірки.

     

    Пам'ятки і дозвілля

    Крім усього іншого, Генічеськ знаходиться поруч з багатьма пам'ятками України, які «маст сі» для кожного приїжджого: «Асканія Нова», Азово-Сивашський національний природний парк.

    Окремо варто сказати про страусину ферму - приватному господарстві в Херсонській області. Тут не просто раді приїжджим, але ще і готові провести екскурсії, розповідаючи про вихованців (страуси, поні, павичі).

    Любителі історії можуть відвідати краєзнавчий музей, Храм Різдва Пресвятої Богородиці і Меморіал воїнам-артилеристам.

     

    Харчування і вода

    Складнощів з продуктами в Генічеську немає, так як є маса місць, де можна придбати все необхідне і навіть більше.

    Все можна купити на центральному ринку або на так званому колгоспному ринку. За свіжозловленою рибкою - кефаль, калкан, бички, піленгас - варто зайти на рибний ринок.

    За словами відпочиваючих, вода має неприємний запах сірководню, тому краще купувати бутильовану воду, по місту є багато точок продажу води на розлив.

     

    Мобільний зв'язок і інтернет

    На курорті в цілому проблем зі зв'язком немає. Якісне покриття від провідних операторів. В більшості номерів пропонують Wi-Fi.

    Наприкінці хочемо зауважити, що, як бачите, міф про те, що Генічеськ нецікавий і пасивний курорт, ми розвіяли, за вами - перевірити всі плюси даного курорту на собі!

    цены, отзывы, базы отдыха, новости, объявления, каталог фирм и другая полезная информация на KurortAzova.net

    Геническ - город районного значения в Херсонской области Украины, административный центр Генического района, расположенный в северо-западной части побережья Азовского моря. Численность населения составляет всего 22 500 тысяч человек. Город находится в основании косы Арабатская стрелка, с которой соединяется железнодорожным мостом, а также автомобильным мостом через Тонкий пролив, соединяющий Азовское море с озером Сиваш.
    Азовское море Геническ отдых здесь очень популярен, так как город, с одной стороны омываемый морем, с другой омывается Сивашским лиманом, соленость воды которого очень высока, а лечебные свойства грязей всемирно известны издавна признан здравницей европейского уровня. Веб-камера Геническа всегда к услугам желающих осведомится о погодных условиях на берегу моря.
    Климат в Геническе умеренно-континентальный с сухим и жарким летом, и средней температурой 22 °C. Температура воды Азовского моря в летние знойные дни тут достигает 30°C, а в озере Сиваш ещё выше. Но море сглаживает резкие колебания температур и формирует микроклимат со стойким режимом мягкой щадящей погоды, что очень важно для быстрой акклиматизации людей. Мягкой и теплой осенью отдыхают сторонники более прохладной погоды. Лечебные грязи, рапы, морская вода, содержащая 92 химических элемента, которые проникают через кожу и дают организму полезные вещества.

    Арабатская Стрелка – морская коса, самая длинная в Европе - лучшее место для оздоровления детей. Море здесь самое тёплое и самое мелкое.

    Геническ фото морского побережья и Арабатской Стрелки которого очень известны в Украине и в Европе - здравница с многочисленными пансионатами, базами отдыха, гостеприимным частным сектором.

    Геническ базы отдыха расположены как в самом городе, так и вдоль Арабатской стрелки. В Геническе каждый может найти себе отдых по душе, в независимости от условий проживания, удобств, цен курортных услуг. Отдых в Геническе 2021 оставит у Вас самые приятные впечатления.

    Это одно из самых посещаемых и популярных мест на побережье Азовского моря из-за его доступности, целебности и потрясающей природы.

    Звоним в Геническ

    Международный телефонный код Украины: +380.

    Телефонный код Геническа: +38 (05534).

    Таким образом, чтобы позвонить в Геническ на городской телефон, нужно набрать: +380-05534-(городской номер).

    Чтобы позвонить на мобильный телефон украинского оператора сотовой связи, нужно набрать: +38-(код оператора)-(мобильный номер).

    Как добраться в Геническ

    1. Если Вы будете добираться поездом, возьмите билет до Новоалексеевки – ближайшей к Геническу ж.-д. станции, далее либо электричка и через 17 км по прямой сам Геническ, либо рейсовые автобусы на Геническ, служебные автобусы с пансионатов и вездесущие таксисты.

    2. Можно добраться на автобусе - либо прямо до Геническа, если такой маршрут из вашего города есть, или добирайтесь до Мелитополя, а дальше, как указано в п.1.

    3. Для путешествующих на личном транспорте:

    Крупнейшие трассы Украины (Харьков-Симферополь (Е105) и Одесса-Ростов (Е58)) проходят через г. Мелитополь. Из Мелитополя в Геническ ведет Харьков-Симферополь (Е105) (южное направление), нужно свернуть налево на перекрестке у пгт. Партизаны и по довольно приличной в прошлом двухпутке, через с.Фрунзе и с.Подорожнее въехать в Геническ со стороны, так сказать, черного входа. Геническ от Мелитополя находится на расстоянии около 120 км.

    сравнение Кирилловки и Арабатской Стрелки

    Среди ключевых критериев, которые помогают родителям определиться с выбором.

    Глубина моря и температура воды

    Азовское море на косе Пересыпь в Кирилловке

    Азовское море является самым мелким в мире. Вдоль всего побережья его глубина у самого берега не превышает метра, но на большинстве курортов Украины достаточно пройти всего 15-20 метров для купания взрослого. Между тем, размер мелководья отличается на разных курортах. К примеру, в Геническе, который расположен напротив Кирилловки через Утлюкский лиман, он наибольший: здесь «детская» глубина сохраняется на протяжении почти 150 метров от берега. За эту особенность Геническа любят семьи с совсем маленькими детьми, но она же доставляет много дискомфорта при купаниях взрослых.

    В соседней Генгорке мелководная зона уже чуть менее протяженная — «всего» 30-40 метров. Еще меньше она в Счастливцево, другом курортном поселке Арабатки, и в Кирилловке, которые предпочитают отдыхающие с ребятами постарше.

    Благодаря небольшой глубине Азовское море хорошо и быстро прогревается. В разгар лета температура воды в прибрежной зоне обоих курортов может достигать +30 °C, иногда больше. А в «лягушатниках», которые нередко образуются на берегу после штормов и где любят плескаться малыши, вода и вовсе напоминает парное молоко.

    Морское дно и в Кирилловке, и на Арабатской Стрелке песчаное, ровное, без резких перепадов и подводных ям, вход в воду пологий — удобный и безопасный для детей.

    Удобство и чистота пляжей

    Практически на всем побережье Азовского моря пляжи песчаные с примесью небольших ракушек, которых может быть больше или меньше. Песок мелкий и мягкий на ощупь, ходить по нему ребенку комфортно и, в отличие от гальки, на которой есть риск подвернуть ногу, безопасно даже босиком. Аккуратнее стоит быть только у самой кромки воды, где обычно наблюдается скопление выброшенных волнами морских раковин и их обломков, среди которых могут попадаться довольно острые.

    Для отдыха с детьми родители обычно выбирают просторные пляжи, ведь в перерывах между купаниями ребенок почти никогда не сидит на месте: бегает, играет с мячом, лепит фигурки и строит замки из песка. При этом желательно, чтобы ему самому было комфортно, а его активность не создавала неудобств другим отдыхающим. Кроме того, малолюдные пляжи обычно более чистые, что также немаловажно для отдыха с малышом.

    В Кирилловке наиболее свободные пляжи стоит искать подальше от материка — в середине и конце обеих кос, а также на острове Бирючий, избегая участков побережья в центре поселка и в начале Федотовой косы. Так, на косе Пересыпь, на которой расположена база отдыха «Акватика», пляжи сравнительно свободные даже в самый пик сезона. На курортах Арабатской Cтрелки практически все пляжи просторные и довольно свободные. За исключением разве что Геническа, на центральном — «детском» — пляже которого в сезон чаще всего бывает крайне многолюдно.

    Еще один немаловажный фактор при выборе пляжа для отдыха с ребенком — его благоустройство. В первую очередь с точки зрения защиты от солнца. И в Кирилловке, и на Арабатке практически все пляжи оборудованы как минимум стационарными теневыми навесами (кроме Стрелкового, где их нет).  На большинстве, особенно тех, что относятся к территориям баз отдыха и отелей на первой линии, помимо навесов, есть солнцезащитные «грибки» и доступны прочие пляжные удобства — зонты, шезлонги и т.д.

    Наличие развлечений

    Если для малыша игр с песком на пляже и детской площадки на территории отеля обычно бывает достаточно, то для детей постарше этого мало, им хочется развлечений. В этом плане обоим курортам есть что предложить. Наибольшая концентрация развлечений — в Кирилловке (центр, самое начало косы Пересыпь и начало Федотовой косы) и Генгорке. Тут работают дельфинарии сети «Оскар», аквапарки, луна-парки, а на Арабатке есть даже сафари-парк, в котором можно понаблюдать за дикими и экзотическими животными. В Кирилловке также есть возможность посетить аквариум и несколько парков развлечений.

    В Геническе одной из самых популярных локаций для отдыха с детьми является городской парк им. Шевченко. Ребятне здесь доступны качели, карусели и прочие аттракционы, включая большое колесо обозрения, современные и просторные игровые площадки, развлекательные программы и конкурсы. Рядом с парком находится еще одно интересное место, где можно развлечь детвору разного возраста, — Аллея Сказок со множеством деревянных фигур известных героев сказок и мультфильмов, небольшими аттракционами, киосками с мороженым и напитками, скамейками и беседками.

    Тишина и спокойствие

    Такие требования к месту отдыха обычно предъявляют родители совсем маленьких детей, которым важно, чтобы ребенок мог без проблем уходить на дневной сон и полноценно высыпаться ночью. В Кирилловке для этого лучше всего подходит окончание Пересыпи, микрорайоны Санаторный и Царское село в центре, а также Степок на Федотовой косе и остров Бирючий. Здесь практически нет ночных клубов, работающих допоздна кафе и баров, открытых дискотек и прочих развлекательных заведений, которые бы нарушали покой малыша. На Арабатке такие места лучше искать в Счастливцево и Стрелковом.

    Условия проживания

    На курортах Арабатской стрелки и в Кирилловке легко найти условия, подходящие для проживания с детьми разного возраста. Чаще всего родители выбирают варианты на первой, максимум второй линии от моря, чтобы не утомлять ребенка длинной дорогой к пляжу и обратно, и в случае чего иметь возможность быстро вернуться в номер.

    Другими критериями при выборе жилья для отдыха с детьми могут быть закрытая охраняемая территория, наличие детской площадки и/или игровой комнаты, детского бассейна, анимации, собственной в номере или общей кухни, чтобы готовить еду для ребенка, близость к развлекательным заведениям или, наоборот, удаленность от них. При этом и в Кирилловке, и на Арабатке комфортные условия можно найти по вполне приемлемой цене — совсем необязательно это должен быть премиум-отель на берегу.

    Возможности для оздоровления

    Пляж на Арабатской Стрелке

    Родителям, чьи дети часто болеют, врачи нередко советуют свозить их на море. И это неудивительно, ведь морские курорты — и Кирилловка с Арабаткой тут не исключение — обладают массой природных факторов, оказывающих благоприятное воздействие на организм ребенка и повышающих его сопротивляемость к простудным и многим другим заболеваниям. Среди таких факторов:

    Азовское море, вода которого содержит десятки полезных и жизненно важных для детского организма микроэлементов. Например, йод, недостаток которого у ребенка может привести к нарушению психических и умственных способностей, ухудшению показателей физического развития, а у подростков — и полового созревания. Кальций, необходимый для формирования костей. Калий, который укрепляет сердечно-сосудистою систему, а также бром, снижающий раздражительность и тревожность.

    Обладая бактерицидным действием, морская вода способна избавлять от насморков, гайморитов и других воспалительных заболеваний лор-органов, которыми часто страдают дети. Она также оказывает лечебный эффект при кожных недугах, в частности, дерматитах, и уменьшает аллергические реакции. Во время купания в море, кроме того, происходит закаливание организма, благодаря чему снижается риск сезонных простуд.

    Воздух азовских курортов, насыщенный ионами испаряющихся с поверхности моря солей и минералов, фитонцидами степных трав, которые обладают антимикробными свойствами, озоном и кислородом. Особенно полезен он для детей с бронхиальной астмой, хроническим бронхитом и другими заболеваниями дыхательной системы.

    К тому же, воздух на азовском побережье чистейший — без частичек пыли, смол и вредных газов, которые, поддерживая воспалительные процессы в слизистых верхних дыхательных путей, повышают восприимчивость детского организма к инфекциям.

    В экологической чистоте Кирилловки и курортов Арабатской Стрелки сомневаться не приходится — все поселки расположены на значительном удалении от промышленных предприятий и крупных транспортных магистралей. Выделяется из этой эко-когорты только Геническ, где есть торговый порт, железнодорожная станция и автомагистраль.

    Ультрафиолетовые лучи, дозированное воздействие которых на открытые участки тела помогает восполнить запас витамина D, критически важного для роста и развития ребенка. Он отвечает за усвоение кальция и фосфора, основного строительного материала для костей, а также служит профилактикой рахита. Кроме того, солнечные ванны рекомендуют принимать подросткам, страдающим от угревой сыпи.

    Чего-чего, а солнца на побережье Кирилловки и Арабатской Стрелки в достатке — в летнее время дожди здесь случаются редко и носят кратковременный характер.

    Мягкий песок, ходьба босиком по которому является своеобразным массажем для детских стоп. Принято считать, что такой массаж улучшает циркуляцию крови и укрепляет иммунитет.

    Организация питания

    Решить вопрос с питанием ребенка на азовских курортах можно по-разному. В случае с маленькими детьми родители, как правило, предпочитают готовить самостоятельно, чтобы быть уверенным в качестве используемых продуктов, а также всегда иметь возможность предложить малышу свежеприготовленную еду.

    И в Кирилловке, и в любом из поселков Арабатской Стрелки не проблема найти вариант проживания с оборудованной кухней — собственной в номере или общей на территории, чтобы готовить для ребенка. С закупкой продуктов также обычно не бывает сложностей. Лучше всего дела с этим обстоят в Геническе, где выбор магазинов шире и есть супермаркет сети «АТБ» со знакомым ассортиментом. В Кирилловке и на курортах Арабатки необходимый набор продуктов — сезонные фрукты и овощи, мясо, свежую молочную продукцию — можно купить на рынках и в местных магазинчиках.

    Родители детей постарше нередко выбирают вариант комплексного питания в столовой/кафе базы отдыха или отеля, некоторые из которых предлагают детское меню. Как правило, оно сбалансировано и состоит из простых блюд, приготовленных из привычных для ребенка ингредиентов. Такой подход, к тому же, помогает соблюдать режим питания, который у детей на отдыхе часто нарушается.

    Доступ к медицинской помощи

    Во время поездки на море, даже продуманной до мелочей, может случиться что угодно, поэтому чрезвычайно важно иметь доступ к медицинской помощи, особенно когда это касается ребенка. Из всех рассматриваемых курортов больница есть только в Геническе, в остальных — Кирилловке, Генгорке, Счастливцево и Стрелковом — только амбулатории семейной медицины с действующими при них пунктами неотложной медицинской помощи. В Кирилловке медпункты также есть на некоторых базах отдыха.

    Аптеки с базовым ассортиментом медикаментов работают почти везде, за исключением самых отдаленных от центра районов вроде острова Бирючий в Кирилловке. Тем не менее, всегда лучше перестраховаться и взять с собой аптечку с самыми необходимыми препаратами, которые могут понадобиться ребенку. Прежде всего жаропонижающие, обезболивающие, антигистаминные, противодиарейные, антисептические средства, а также перевязочные материалы и репелленты.

    Определение Genic от Merriam-Webster

    gen · ic | \ ˈJē-nik , ˈJe- \

    1 : производство : формирование carcino genic

    2 : произведено : сформировано из био genic

    3 [ фотогеничный ] : подходит для производства или воспроизведения на (таком) носителе теле геник

    Определение функциональных генных областей в геноме человека посредством интеграции биохимических, эволюционных и генетических данных | Молекулярная биология и эволюция

    Абстрактные

    В геноме человека преобладают большие участки ДНК с обширной биохимической активностью, но неизвестной функцией.В частности, хорошо известно, что транскрипционная активность не ограничивается известными генами. Однако вопрос о том, представляет ли эта межгенная транскрипция активность с функциональным значением или шум, является предметом обсуждения, что подчеркивает необходимость эффективного метода определения функциональных областей генома. Более того, эти открытия поднимают вопрос, можно ли определять участки генома как функциональные, основываясь исключительно на наличии биохимических активностей, без учета эволюционных (сохранение) и генетических (эффекты мутаций) свидетельств.Здесь созданы вычислительные модели, объединяющие генетические, эволюционные и биохимические данные, которые обеспечивают надежное предсказание генов, кодирующих человеческие белки и РНК. Важно отметить, что в дополнение к сохранению последовательностей биохимические особенности позволяют точно предсказывать генные последовательности с фенотипическими доказательствами при строгом очищающем отборе, что позволяет предположить, что их можно использовать в качестве альтернативной меры отбора. Более того, 18,5% аннотированных некодирующих РНК проявляют более высокую степень сходства с фенотипическими генами и, таким образом, вероятно, являются функциональными.Однако 64,5% некодирующих РНК, по-видимому, принадлежат к собственному классу последовательностей, а оставшиеся 17% больше похожи на псевдогены и случайные межгенные последовательности, которые могут представлять шумную транскрипцию.

    Введение

    Недавние исследования выявили широко распространенную биохимическую активность, связанную с геномом человека (ENCODE Project Consortium 2012; Hangauer et al. 2013). В частности, существует распространенная транскрипция за пределами известных генных регионов (Djebali et al.2012). Эта транскрипционная активность может указывать на присутствие новых генных регионов (Mercer et al. 2009). Однако часть этой активности также может быть транскрипционным шумом (van Bakel et al. 2010). Кроме того, в геноме человека имеется более 10 000 аннотированных областей некодирующей РНК (нкРНК), многие из которых не были экспериментально охарактеризованы и не имеют известной функции. Таким образом, функциональное значение транскриптов, происходящих вне аннотированных генов и наиболее аннотированных областей нкРНК, неясно.

    Самая большая проблема в идентификации функциональных геномных регионов состоит в определении того, что составляет функцию, что было предметом значительных дискуссий (Doolittle et al. 2014; Kellis et al. 2014). В проекте ENCODE геномная область определяется как имеющая биохимическую функцию, если может быть обнаружена воспроизводимая биохимическая активность, например, транскрипционная активность или определенные состояния хроматина (ENCODE Project Consortium 2012). Однако это определение биохимической функции вызвало критику, поскольку наличие активности не обязательно означает, что такая активность находится в процессе отбора (Eddy 2012; Doolittle 2013; Graur et al.2013; Ню и Цзян 2013). Также было высказано предположение, что эволюционные, биохимические и генетические данные предоставляют дополнительную информацию о функциональности последовательности (Kellis et al. 2014). Однако это операционное определение подвергается критике за то, что оно не различает функциональность причинно-следственной роли (что делает компонент) и функциональность выбранного эффекта (как и почему компонент подвергается естественному отбору) (Neander 1991; Doolittle et al. 2014). И поскольку биохимическая активность измеряет причинную роль геномной области, остается открытым вопрос, какие биохимические данные, если таковые имеются, являются достаточными для идентификации функциональных геномных областей.

    Возможность совместного рассмотрения биохимической активности и эволюционных доказательств для обнаружения отбора иллюстрируется функцией fitCons (последствия функциональной аннотации), которая обеспечивает оценку последствий пригодности для точечной мутации (Gulko et al. 2015). Тем не менее, неясно, могут ли биохимические, эволюционные и генетические данные в сочетании друг с другом обеспечить более надежное определение функциональных генных последовательностей и каким образом. Здесь мы исследовали относительный вклад 21 атрибута сохранения, 14 характеристик последовательностей и 35 биохимических сигналов в различение генетически определенных функциональных областей (человеческий фенотип / гены болезней) и вероятных нефункциональных последовательностей (псевдогены [PS] и случайные межгенные последовательности) в человеческий геном.Кроме того, были созданы модели машинного обучения, чтобы исследовать, имеют ли существующие аннотированные нкРНК общие эволюционные и биохимические особенности с функциональными последовательностями и могут ли они считаться генными или с нефункциональными последовательностями, указывающими на транскрипционный шум.

    Результаты и обсуждение

    Ни одного признака недостаточно для определения функциональных генетических областей

    Чтобы определить участки генома человека, которые функционируют как гены (называемые функциональными областями), мы сначала оценили, насколько хорошо сохраняются атрибуты, характеристики последовательностей и биохимические сигнатуры (называемые функциями, всего 70, см. Материалы и методы и дополнительную таблицу S2, Дополнительная Материал онлайн) может различать функциональные и нефункциональные области.Для функциональных областей мы использовали 3046 генов, кодирующих фенотип и заболевание, белок с генетическими доказательствами функциональности из базы данных Human Phenotype Ontology (Köhler et al. 2014). Эти гены фенотипа / заболевания были названы генами HPO-p (дополнительная таблица S1, дополнительные материалы онлайн). Для нефункциональных областей использовали 4399 человеческих PS (Yates et al., 2016) (дополнительная таблица S1, дополнительные материалы онлайн). Мы сосредоточились на определении областей длиной 1000 п.н., фланкирующих начальную (верхнюю и нижнюю) и конечную (хвостовую и нижнюю) точки генов (рис.1A), потому что особенности имеют отличительную структуру в регионах, расположенных выше и ниже по течению (de Boer et al. 2014).

    Рис. 1.

    Производительность классификации генов фенотипа и псевдогенов (PS) по консервации, свойствам последовательности и биохимическим характеристикам. ( A ) Схема четырех областей размером 500 п.н., фланкирующих границу каждой записи в этом исследовании. ( B ) Коробчатые диаграммы значений auROC для классификации генов фенотипа и PS с использованием каждого из 70 целевых признаков в восходящих, головных, хвостовых и нижних областях, включая: 21 консервативность (CV), двухповторный и однонуклеотидный полиморфизм (RS) , пять структурных свойств ДНК (DS), семь не-B мотивов структуры ДНК (NB), четыре транскрипционных (TX), три связывания факторов транскрипции (TF), два доступа к хроматину (CA), 24 модификации гистонов (HM) и два Особенности метилирования ДНК (DM).( C ) Выполнение случайной классификации лесов с использованием комбинаций характеристик и регионов. Первая комбинация использует все функции из всех четырех регионов (полная модель, верхнее левое поле панели C ). Вторая комбинация состоит из моделей, построенных со всеми функциями из четырех регионов по отдельности (фиолетовая рамка; верх панели C ). Третья комбинация состоит из моделей, построенных с функциями из одной категории, но с информацией из всех четырех регионов (зеленая рамка; слева от панели C ).Наконец, четвертая комбинация состоит из моделей, построенных со всеми функциями из категории в одном регионе (под фиолетовым прямоугольником и справа от зеленого поля на панели C ).

    Рис. 1.

    Производительность классификации генов фенотипа и псевдогенов (PS) по консервации, свойствам последовательности и биохимическим характеристикам. ( A ) Схема четырех областей размером 500 п.н., фланкирующих границу каждой записи в этом исследовании. ( B ) Коробчатые диаграммы значений auROC для классификации генов фенотипа и PS с использованием каждого из 70 целевых признаков в восходящих, головных, хвостовых и нижних областях, включая: 21 консервативность (CV), двухповторный и однонуклеотидный полиморфизм (RS) , пять структурных свойств ДНК (DS), семь не-B мотивов структуры ДНК (NB), четыре транскрипционных (TX), три связывания факторов транскрипции (TF), два доступа к хроматину (CA), 24 модификации гистонов (HM) и два Особенности метилирования ДНК (DM).( C ) Выполнение случайной классификации лесов с использованием комбинаций характеристик и регионов. Первая комбинация использует все функции из всех четырех регионов (полная модель, верхнее левое поле панели C ). Вторая комбинация состоит из моделей, построенных со всеми функциями из четырех регионов по отдельности (фиолетовая рамка; верх панели C ). Третья комбинация состоит из моделей, построенных с функциями из одной категории, но с информацией из всех четырех регионов (зеленая рамка; слева от панели C ).Наконец, четвертая комбинация состоит из моделей, построенных со всеми функциями из категории в одном регионе (под фиолетовым прямоугольником и справа от зеленого поля на панели C ).

    Чтобы оценить, насколько информативным был каждый признак для прогнозирования каждого из четырех участков как геноподобного или псевдогенового HPO-p, использовали область под кривой рабочих характеристик приемника (auROC) (рис. 1B). AuROC для модели, которая может делать точные прогнозы, составляет 1. С другой стороны, модель, которая работает не лучше, чем случайные предположения, имеет auROC, равное 0.5 (см. Материалы и методы). Для каждой комбинации признака / региона (например, нуклеотидного разнообразия, рассчитанного с использованием последовательностей из вышележащей области) вычисляли значение auROC. На рис. 1B, вместо того, чтобы показывать отдельные значения auROC, мы классифицировали объекты по девяти категориям и показали распределение значений auROC для всех функций в категории и из определенного региона. Таким образом, глядя на рис. 1B мы показали, насколько информативными признаками в комбинации признака категория / регион были для различения PS от генов.

    В целом, индивидуальные природоохранные характеристики были среди наименее информативных (среднее значение auROC = 0,61, рис. 1B), а наиболее информативной характеристикой была оценка последствий соответствия (fitCons, auROC = 0,75) (Gulko et al., 2015 ), по-прежнему имеет 28,1% ложноположительных результатов (FPR, PS ошибочно классифицируются как гены) и 30% ложноотрицательных результатов (FNR, гены ошибочно классифицируются как PS). Между тем, особенности, связанные с транскрипцией, были более информативными, чем сохранение (среднее значение auROC = 0,73; рис. 1B). Однако FPR и FNR модели, использующей наиболее эффективную функцию (транскрипционный охват в областях хвоста), оставались высокими на уровне 34.1% и 17,5% соответственно. Как и транскрипция, особенности, связанные со связыванием фактора транскрипции (TF) и доступностью хроматина, являются одними из лучших для различения генов HPO-p и PS (рис. 1B), но все же имеют высокие FPR (≥13,9%) и FNR (≥12,1%). Взятые вместе, ни одного единственного признака было недостаточно для определения функциональных областей, а полезность признаков зависела от того, какой из четырех регионов (рис. 1А) был нацелен.

    Биохимические и эволюционные данные дополняют друг друга при определении функциональных генных областей

    На основании наблюдения, что гены HPO-p и PS были четко различимы в анализе главных компонентов с использованием всех признаков (дополнительный рис.S1, Дополнительные материалы онлайн), затем мы совместно рассмотрели все 70 функций из всех четырех регионов с помощью методов машинного обучения (полная модель; см. Материалы и методы). Это модель бинарной классификации, поскольку она различает геномные последовательности человека, которые больше похожи на гены HPO-p (таким образом, вероятно, функциональные) или PS (вероятно, нефункциональные). Эта полная модель значительно превосходит любую отдельную функцию (auROC = 0,99, FPR = 4,5%, FNR = 8,4%, рис. 1C), различая гены HPO-p и PS с высокой точностью.Для оценки относительного вклада различных характеристик и регионов вверх по течению, головы, хвоста и вниз по течению мы создали четыре дополнительных типа моделей, включая: 1) четыре региональные модели, сочетающие все характеристики (фиолетовый прямоугольник, рис. 1C), 2) девять модели, специфичные для категорий, объединяющие все регионы (зеленый прямоугольник, рис. 1C), показывающие особенности, связанные с модификациями гистонов, как наиболее информативную категорию, 3) 36 характеристик, специфичных для категорий / регионов (рис. 1C) с сильно варьирующейся производительностью, и 4 ) 280 моделей «без исключения», в которых каждая комбинация функции / региона была удалена для оценки ее важности (дополнительный рис.S2, Дополнительные материалы онлайн).

    Интересно, что модели, учитывающие все функции, независимо от того, на каких регионах мы сосредоточились, работали почти так же хорошо, как и полная модель. Это также верно для некоторых категорий объектов, когда учитывались все регионы. Например, учет всех природоохранных характеристик позволил получить хорошо работающий классификатор (рис. 1С). Точно так же категории, связанные с биохимическими сигнатурами, особенно модификации гистонов (рис. 1C), работают почти так же хорошо, как и полная модель.Хотя полезны только консервационные или биохимические особенности, 58 генов HPO-p были правильно предсказаны только на основании эволюционных консервативных признаков, а 168 генов HPO-p - только на основании биохимических особенностей. Это открытие перекликается с предположением, что биохимические и эволюционные данные дополняют друг друга при определении функциональных последовательностей ДНК (Kellis et al. 2014).

    Функциональное правдоподобие (FL) позволяет прогнозировать генотип / заболевание генов, кодирующих белок, и PS

    В интересах прогнозирования функциональности любой области генома, кроме генов HPO-p и PS, мы разработали показатель FL для геномной последовательности, представленной значением от 0 (скорее всего, нефункциональный) до 1 (скорее всего, функциональный) (см. Материалы и методы).Медиана FL генов HPO-p и PS составляла 0,97 (фиг. 2A) и 0,01 (фиг. 2B), соответственно. Чтобы оценить частоту ошибок при использовании FL для обозначения области генома как функциональной или нет, пороговое значение FL 0,36 было определено как значение FL, которое приводит к максимальной F-мере модели (дополнительный рисунок S3, дополнительные материалы онлайн) . F-мера - это гармоническое среднее значение точности (доля последовательностей, прогнозируемых как функциональные, которые действительно функциональны) и напоминания (доля функциональных последовательностей, прогнозируемых как функциональные).Таким образом, пороговое значение FL, основанное на максимальной F-мере, позволяет нам уменьшить как ложноположительные, так и ложноотрицательные прогнозы для данной модели.

    Рис. 2.

    Бинарная классификация последовательностей как функциональных или нет. ( A – F ) Распределение функционального правдоподобия, определенное с помощью модели случайного леса со всеми 70 признаками из всех четырех регионов и обученное с помощью генов HPO-p и PS: ( A ) гены HPO-p, ( B ) PS, ( C ) аннотированные гены, кодирующие белок, ( D ) гены РНК HPO, ( E ) днРНК и ( F ) нкРНК.( G ) FL-распределение нкРНК с обновленной полной моделью, обученной комбинированным положительным набором (HPO-p, HPO РНК и днРНК) и комбинированным отрицательным набором (PS и RIR). Вертикальные пунктирные линии указывают порог FL, определенный максимизацией меры F для классификации последовательности как функциональной или нефункциональной.

    Рис. 2.

    Бинарная классификация последовательностей как функциональных или нет. ( A – F ) Распределение функционального правдоподобия, определенное с помощью модели случайного леса со всеми 70 признаками из всех четырех регионов и обученное с помощью генов HPO-p и PS: ( A ) гены HPO-p, ( B ) PS, ( C ) аннотированные гены, кодирующие белок, ( D ) гены РНК HPO, ( E ) днРНК и ( F ) нкРНК.( G ) FL-распределение нкРНК с обновленной полной моделью, обученной комбинированным положительным набором (HPO-p, HPO РНК и днРНК) и комбинированным отрицательным набором (PS и RIR). Вертикальные пунктирные линии указывают порог FL, определенный максимизацией меры F для классификации последовательности как функциональной или нефункциональной.

    С этим порогом 94,5% генов HPO-p считаются функциональными. Для генов HPO-p, классифицируемых как нефункциональные, которые явно являются ложноотрицательными, мы предположили, что низкие показатели FL среди этих последовательностей могут быть результатом условной или тканеспецифической экспрессии, поскольку PS, как правило, имеет сильно ограниченные профили экспрессии.В этом случае конкретные условия или ткани, в которых эти последовательности функционируют, могут не быть адекватно зафиксированы наборами данных, используемыми при создании признаков. Чтобы оценить эту возможность, мы исследовали специфичность экспрессии, определяемую частотой экспрессии гена в нескольких клеточных линиях, и обнаружили, что гены HPO-p с низким FL имеют тенденцию быть тканеспецифичными (односторонний критерий суммы рангов Вилкоксона P = 2,4 × 10 −29 , дополнительный рисунок S4 A , дополнительные материалы онлайн).Это может указывать на то, что модель смещена в отношении узко экспрессируемых последовательностей. Кроме того, мы также обнаружили, что гены HPO-p с низким FL имеют тенденцию иметь более высокие доли интронных последовательностей в тех областях тела гена, где были вычислены признаки (односторонний критерий суммы рангов Вилкоксона P = 7,2 × 10 −5 , дополнительный рисунок S4 C , дополнительный материал онлайн), что может привести к низким показателям FL и ложноотрицательным прогнозам.

    Модель прогнозирования классифицировала 93,5% ПС как нефункциональные.Тем не менее, 6.5% PS с FL, превышающим пороговое значение, были классифицированы как функциональные. Для этих высоких FL PS мы рассматривали как ложные срабатывания (действительно нефункциональные), так и неверные аннотации (аннотированные PS, которые фактически были функциональными) в качестве объяснения. Что касается ложноположительных результатов, эти PS могут присутствовать в том же контексте хроматина, что и соседние или перекрывающиеся гены, и, таким образом, проявлять особенности, сходные с функциональными областями. В соответствии с этим, высокий FL PS имеет тенденцию перекрываться с аннотированными генами в два раза чаще, чем низкий FL PS (точный тест Фишера, P < 1.6 × 10 −22 ; инжир. 3А). После устранения перекрытия PS с аннотированными генами только 2,1% PS были классифицированы как функциональные (рис. 3B). PS с высоким FL также имеет тенденцию быть ближе к аннотированным генам, чем к генам с низким FL (рис. 3C и D). Мы также оценили возможность того, что PS, сгенерированный из более поздних событий дупликации, все еще может обладать такими функциями, как функциональные паралоги, ведущие к высоким FL. Вопреки этому ожиданию, мы обнаружили, что на самом деле высокие FL PS были получены из более древних событий дупликации по сравнению с низким FL PS (рис.3E). Одна из интерпретаций состоит в том, что, поскольку гены, которые, как правило, не сохраняют дубликаты, имеют более высокую существенность (Lloyd et al. 2015), они могут больше походить на основные гены, чем на средний ген в геноме, и были неправильно классифицированы. Наконец, мы не можем исключить возможность того, что небольшое подмножество предсказанных PS неверно аннотировано и, следовательно, функционально. Тем не менее, учитывая, что доля высоких FL PS снижается до 2,1% после контроля перекрытия с аннотированными генами, низкий FPR указывает на то, что наша модель способна отличать функциональные и нефункциональные последовательности с высокой точностью.

    Рис. 3.

    Сравнение PS с высоким и низким FL. ( A ) Доля PS с низким или высоким FL, перекрывающихся с аннотированными генами. Псевдоген считался низким FL, если его значение FL, основанное на полной модели, было ниже порогового значения FL, которое максимизировало F-меру. В противном случае это расценивалось как высокий FL. Отображается значение P теста пропорции. Горизонтальная пунктирная линия и сплошная линия указывают долю участков PS и других генов, соответственно, которые перекрываются с аннотированными генами.( B ) FL распределение PS, которое не перекрывается с аннотированными генами. Расстояния между PS и их ближайшим ( C ) вышестоящим или ( D ) нижележащим соседним геном показаны на прямоугольных диаграммах; P Значения взяты из односторонних критериев суммы рангов Вилкоксона. ( E ) Распределения Ks высокого FL (розовый) и низкого FL (синий) PS.

    Рис. 3.

    Сравнение PS с высоким и низким FL. ( A ) Доля PS с низким или высоким FL, перекрывающихся с аннотированными генами.Псевдоген считался низким FL, если его значение FL, основанное на полной модели, было ниже порогового значения FL, которое максимизировало F-меру. В противном случае это расценивалось как высокий FL. Отображается значение P теста пропорции. Горизонтальная пунктирная линия и сплошная линия указывают долю участков PS и других генов, соответственно, которые перекрываются с аннотированными генами. ( B ) FL распределение PS, которое не перекрывается с аннотированными генами. Расстояния между PS и их ближайшим ( C ) вышестоящим или ( D ) нижележащим соседним геном показаны на прямоугольных диаграммах; P Значения взяты из односторонних критериев суммы рангов Вилкоксона.( E ) Распределения Ks высокого FL (розовый) и низкого FL (синий) PS.

    FL также позволяет прогнозировать аннотированные гены кодирования белков и РНК

    После оценки производительности нашей модели посредством перекрестной проверки удерживаемых генов HPO-p и PS, мы затем оценили FL аннотированных генов, кодирующих белок, и генов РНК. Мы обнаружили, что аннотированные гены, кодирующие белок, после исключения записей HPO-p, обычно считаются функциональными (рис. 2C).Тем не менее, 17% аннотированных генов, кодирующих белок, имеют более низкие FL, чем пороговое значение, и, следовательно, считаются нефункциональными (дополнительная таблица S1, дополнительный материал онлайн). Подобно результатам с генами HPO-p с низкой оценкой, мы обнаружили, что гены, кодирующие белок, которые прогнозируются как нефункциональные, имеют тенденцию быть более тканеспецифичными по экспрессии (односторонний критерий суммы рангов Вилкоксона P = 8,2 × 10 −177 , дополнительный рисунок S4 B , дополнительный материал онлайн) и имеют более высокие пропорции интронов в областях тела гена, используемых для расчета признаков (односторонний критерий суммы рангов Вилкоксона P = 5.4 × 10 −6 , рис. S4 D , Дополнительный материал онлайн) по сравнению с предсказанными функциональными генами, кодирующими белок. Используя набор ранее определенных человеческих ретрогенов (Kabza et al. 2014), мы обнаружили, что гены, кодирующие белок с низким FL, обогащены ретрогенами (точный тест Фишера, P = 9,3 × 10 −4 ). Последовательности ретрогенов являются производными обратной транскрипции и реинтеграции генома, и из-за отсутствия надлежащей регуляции в новом геномном контексте большинство ретрогенов, вероятно, мертвы по прибытии (Kaessmann et al.2009 г.). Более того, 557 из 2784 генов, кодирующих белок с низким FL, не аннотированы специфическими функциями и не отнесены к какому-либо известному пути. Чтобы дополнительно оценить функциональность этих генов с низким FL, мы сравнили ростовые эффекты мутантов в экспериментах по глобальной потере функции CRISPR (Gilbert et al. 2014) и данные фенотипа мышей (White et al. 2013). Мы обнаружили, что аннотированные гены с низким FL имеют тенденцию иметь более высокие темпы роста при мутации по сравнению с генами с высоким FL ( r = -0.12, P <2.2 × 10 −16 , рис. S5, Дополнительные материалы онлайн). Точно так же мышиные ортологи генов с низким FL имеют тенденцию быть несущественными (Точный тест Фишера, P = 9,6 × 10 −5 , дополнительный рисунок S6, дополнительный материал онлайн). Взятые вместе, эти результаты показывают, что значения FL являются точной оценкой функционального состояния для большинства аннотированных генов, кодирующих белок, а подмножество аннотированных генов, кодирующих белок, может быть ложноположительным предсказанием генов.

    Затем мы спросили, можно ли применить полную модель машинного обучения для идентификации функциональных нкРНК из-за важности генов РНК (Fatica and Bozzoni 2013), наличия> 10 000 аннотированных нкРНК человека (Harrow et al. 2012) и текущие дискуссии о функциональности всеобъемлющей транскрипции в геноме человека (Graur et al. 2013; Niu and Jiang 2013; Doolittle et al. 2014). Сначала мы применили модель к десяти генам РНК HPO, не включенным в данные обучения, и девять, включая XIST (Quinn and Chang 2015), были классифицированы как функциональные (рис.2D). Чтобы дополнительно проверить полезность модели для классификации генов РНК с большим набором данных, мы исследовали дополнительные 92 вручную отобранных длинных нкРНК, которые были аннотированы как функциональные (днРНК; Quek et al. 2015). Мы обнаружили, что 80,5% днРНК имеют FL выше порогового значения и были предсказаны как функциональные (рис. 2E). Эти данные показывают, что наиболее известные функциональные элементы РНК могут быть правильно классифицированы, демонстрируя, что эта интегрированная модель может предсказывать не только кодирование белков, но и гены РНК.

    Почти половина ncRNAs предположительно функциональны на основе модели бинарной классификации

    Учитывая, что интегрированная модель может отличить гены, кодирующие белок HPO, гены РНК и днРНК от PS, мы затем спросили, какая доля из 10924 аннотированных записей нкРНК, вероятно, является функциональной. Интересно, что аннотированные записи ncRNA отображали бимодальное распределение FL (рис. 2F), где 46,4% были классифицированы как геноподобные HPO-p и, вероятно, функциональны. А вот остальные (53.6%) больше походили на PS и, следовательно, были, вероятно, нефункциональными. Чтобы оценить, почему распределение FL в областях нкРНК не так однозначно, как другие особенности, включая гены HPO РНК и днРНК, сначала мы спросили, не связано ли это с тем, что границы нкРНК были плохо определены и приводили к ложным предсказаниям. Если бы границы были плохо определены и существенно повлияли на модель, мы могли бы ожидать, что модель, основанная только на областях головы / хвоста (рис. 1A), будет превосходить полную модель, потому что модель голова / хвост не включает вверх и вниз. регионы потока, которые могут содержать генные регионы.Мы обнаружили, что модель голова / хвост привела к результатам, которые были почти идентичны исходной полной модели (дополнительный рис. S7, дополнительные материалы онлайн). Т.о., довольно неоднозначные FLs среди ncRNAs возникают не просто из-за плохо определенных границ.

    Другое объяснение состоит в том, что модель машинного обучения, основанная на генах, кодирующих белки, неадекватно отражает свойства генов РНК. Это маловероятно, поскольку большинство известных генов РНК были правильно классифицированы (рис. 2D и E). Тем не менее, мы дополнительно оценили эту возможность, разработав новую модель, обученную с использованием генов днРНК в качестве функциональных примеров и PS в качестве нефункциональных примеров (дополнительный рис.S8, Дополнительные материалы онлайн). Хотя эта основанная на lncRNA модель привела к более высокому уровню ошибок при прогнозировании записей HPO-p (FNR = 11,6%, дополнительный рисунок S8 A , дополнительный материал онлайн), точность прогнозов lncRNA была улучшена на 5,5%, как и ожидалось (FNR = 14,1%, дополнительный рисунок S8 E , дополнительный материал онлайн). Наиболее важно то, что модель на основе днРНК привела к увеличению на 5% числа нкРНК, предсказываемых как функциональные. Однако распределение FL для аннотированных ncRNAs оставалось бимодальным и 48.6% нкРНК все еще были классифицированы как нефункциональные (дополнительный рисунок S8 F , дополнительный материал онлайн). Вместе взятые, вероятно, функциональны до 50% аннотированных ncRNAs. Учитывая, что функциональность подавляющего большинства этих нкРНК с высоким FL неизвестна, наши результаты указывают на их сходство с известными генами, кодирующими белок и РНК, и предоставляют дополнительные доказательства того, что они, вероятно, являются настоящими генами. В соответствии с этим представлением, нкРНК с высоким FL обогащены ультраконсервативными некодирующими последовательностями (Dimitrieva and Bucher, 2013) по сравнению с нкРНК с низким FL (Fisher’s Exact Test, P = 3.9 × 10 −4 ). Между тем, остальные 50% нкРНК больше напоминают PS, что ставит вопрос об их функциональной значимости.

    Большинство ncRNA A re M руда S аналогично PS и R andom I hey A re to P rotein - C oding and RNA G enes В приведенной выше схеме бинарной классификации нкРНК классифицируют как похожие на положительные (HPO-p или lncRNA) или отрицательные (псевдоген) примеры.Хотя нкРНК с низкими FL были больше похожи на PS, также возможно, что они больше напоминают другие геномные особенности, такие как межгенные области, или принадлежат к собственному классу. Чтобы оценить эти возможности, мы создали трехклассовую модель, обученную с учетом трех различных типов последовательностей: гены HPO-p (гены фенотипа / заболевания), PS и случайные межгенные области (RIR). Для каждой входной последовательности, которая должна быть оценена, трехклассовая модель предоставила три показателя правдоподобия, которые представляют, насколько сходна запись последовательности с генами HPO-p, PS или случайными межгенными последовательностями.Эта трехклассовая модель обеспечивала сравнение двух нефункциональных типов последовательностей - PS и RIR. Более того, это позволило нам оценить, являются ли функционально неоднозначные геномные последовательности, идентифицированные с помощью бинарной модели, такие как некоторые нкРНК, более близкими к генам RIR, PS или HPO-p. Для визуализации наших результатов были созданы тройные графики, которые указывают на сходство входных последовательностей с этими тремя типами последовательностей (рис. 4). Входная последовательность будет ближе к верхнему, нижнему левому и нижнему правому углам, если она больше похожа на гены RIR, PS и HPO-p соответственно (рис.4А). Как и в модели с двумя классами, мы обнаружили, что модель с тремя классами может точно различать гены HPO-p (рис. 4B), PS (рис. 4C) и RIR (рис. 4D), поскольку их значения вероятности были распределены более плотно. в своих углах на троичных графиках. Важно отметить, что трехклассовая модель обеспечивает дополнительное разрешение при определении того, как эти последовательности различаются, и небольших, но очевидных совпадений в модельном пространстве между генами HPO-p и PS.

    Рис. 4.

    Трехклассная классификация последовательностей.( A ) Пример вывода троичных распределений правдоподобия. Значения правдоподобия были определены с помощью трехклассовой модели случайного леса, обученной с помощью генов HPO-p, PS и RIR. Для каждой входной последовательности трехклассовая модель предоставила три оценки правдоподобия, которые представляют, насколько сходна запись последовательности с генами HPO-p, PS и межгенными последовательностями, соответственно. Оси представляют собой оценку вероятности от 0 до 100, в которой большее значение указывает на более высокую степень сходства с генами RIR (верхний угол), PS (нижний левый угол) или HPO-p (HPO-p, нижний правый угол).( B – H ) троичное распределение вероятностей для: ( A ) генов HPO-p, ( B ) PS, ( C ) RIR, ( D ) аннотированных генов, кодирующих белок, () E ) гены РНК HPO, ( F ) днРНК и ( G ) нкРНК. Более темный красный цвет указывает на увеличение количества записей. Синий оттенок указывает границу распределения.

    Рис. 4.

    Трехклассовая классификация последовательностей. ( A ) Пример вывода троичных распределений правдоподобия.Значения правдоподобия были определены с помощью трехклассовой модели случайного леса, обученной с помощью генов HPO-p, PS и RIR. Для каждой входной последовательности трехклассовая модель предоставила три оценки правдоподобия, которые представляют, насколько сходна запись последовательности с генами HPO-p, PS и межгенными последовательностями, соответственно. Оси представляют собой оценку вероятности от 0 до 100, в которой большее значение указывает на более высокую степень сходства с генами RIR (верхний угол), PS (нижний левый угол) или HPO-p (HPO-p, нижний правый угол).( B – H ) троичное распределение вероятностей для: ( A ) генов HPO-p, ( B ) PS, ( C ) RIR, ( D ) аннотированных генов, кодирующих белок, () E ) гены РНК HPO, ( F ) днРНК и ( G ) нкРНК. Более темный красный цвет указывает на увеличение количества записей. Синий оттенок указывает границу распределения.

    В соответствии с результатами бинарной классификации, наиболее аннотированные гены, кодирующие белок (рис. 4E), гены РНК HPO (рис.4F), а гены днРНК (рис. 4G) были больше похожи на гены HPO-p. Гены РНК HPO попали в два отдельных кластера, где последовательности в одном кластере были более похожи на гены HPO-p, а последовательности в другом кластере располагались на полпути между генами HPO-p и PS (рис. 4F). Кроме того, некоторые днРНК находились в пространстве классификации, которое было неоднозначным, что согласуется с тем фактом, что ~ 19,5% днРНК были классифицированы как нефункциональные в бинарной модели (рис. 2E). В отличие от РНК HPO и днРНК, большинство входов нкРНК были сконцентрированы в пространстве на полпути между межгенными областями и PS, но далеко от угла HPO-p (рис.4H). Чтобы увидеть, произошло ли это из-за того, что трехклассовая модель, в которой гены HPO-p использовались как часть обучающих данных, привела к модели с предвзятым отношением к генам РНК, мы создали другую трехклассовую модель, классифицирующую lncRNA (вместо генов HPO-p). , PS и RIR. Та же самая картина была восстановлена ​​из этой новой трехклассовой модели (дополнительный рис. S9 A - G , дополнительный материал онлайн), что указывает на то, что размещение нкРНК в пространстве классификации не было просто результатом чрезмерного влияния HPO-p. данные обучения.С помощью этой информации мы обновили нашу модель бинарной классификации, чтобы различать комбинированный положительный набор (HPO-p, HPO RNA и lncRNAs) от комбинированного отрицательного набора (PS и RIR). В этой новой модели (рис. 2G) 48,8% нкРНК считались функциональными, но 51,2% из них все же были классифицированы как более похожие на в основном нефункциональные PS и RIR.

    Четырехклассовые модели показывают, что некоторые нкРНК могут принадлежать к новому классу геномных признаков

    Прежде чем заявить об этих ncRNAs как о транскрипционном шуме, мы спросили, представляют ли ncRNA с низким FL новый класс последовательностей, которые не похожи на известные гены, кодирующие белок, и гены РНК.Чтобы оценить эту возможность, была создана модель с четырьмя классами для классификации HPO-p, PS, RIR и ncRNA (см. Материалы и методы). Для каждой последовательности определяли значение правдоподобия для каждого класса, и последовательность классифицировали как наиболее вероятный класс. В соответствии с бинарной (рис. 2) и трехклассовой (рис. 4) моделями, большинство генов HPO-p (88,4%, рис. 5A), PS (86,1%, рис. 5B) и RIR (98,7%) , рис. 5C) были классифицированы правильно. В случае нкРНК (рис. 5D) 18,5% были более похожи на гены HPO-p, что позволяет предположить, что они, скорее всего, являются функциональными.Это обеспечивает консервативную оценку функциональности нкРНК по сравнению со схемой бинарной классификации, описанной выше. Кроме того, 17% нкРНК больше напоминают PS и / или RIR и могут иметь шумную транскрипцию. Остальные ncRNA (64,5%) могут быть отделены от трех других классов, подтверждая представление о том, что подмножество ncRNAs имеет различные характеристики и принадлежит к собственному классу.

    Рис. 5.

    Четырехклассная классификация последовательностей. Значения вероятности (ось y ) того, что последовательность (ось x ) принадлежит каждому из четырех классов: гены HPO-p (красный), PS (синий), RIR (серый) и нкРНК (желтый) для ( A ) гены HPO-p, ( B ) PS, ( C ) RIR, ( D ) нкРНК, ( E ) аннотированные гены, кодирующие белок, ( F ) гены РНК HPO, и ( G ) днРНК.Каждая вертикальная полоса представляет собой вероятность четырех классов для одной последовательности. Каждая последовательность была отнесена к одному из четырех классов на основе значения наибольшего правдоподобия. Проценты указывают долю последовательностей, принадлежащих к каждому классу.

    Рис. 5.

    Четырехклассная классификация последовательностей. Значения вероятности (ось y ) того, что последовательность (ось x ) принадлежит каждому из четырех классов: гены HPO-p (красный), PS (синий), RIR (серый) и нкРНК (желтый) для ( A ) гены HPO-p, ( B ) PS, ( C ) RIR, ( D ) нкРНК, ( E ) аннотированные гены, кодирующие белок, ( F ) гены РНК HPO, и ( G ) днРНК.Каждая вертикальная полоса представляет собой вероятность четырех классов для одной последовательности. Каждая последовательность была отнесена к одному из четырех классов на основе значения наибольшего правдоподобия. Проценты указывают долю последовательностей, принадлежащих к каждому классу.

    Однако, по сравнению с тремя другими классами (рис. 5A – C), нкРНК в этом «классе нкРНК» (средняя вероятность нкРНК = 0,48, рис. 5D) были классифицированы с существенной неоднозначностью, поскольку они в основном имеют высокую вероятность псевдогена ( медиана = 0.18), вероятность случайной межгенной области (медиана = 0,15) и вероятность гена HPO-p (медиана = 0,14). Эта закономерность может быть связана с тем, что, несмотря на использование множества биохимических и консервационных характеристик, некоторые важные отличительные характеристики еще предстоит обнаружить. Это согласуется с наблюдением, что некоторые гены HPO-p (фиг. 5A) и аннотированные гены, кодирующие белок (фиг. 5E) имеют незначительную (не доминантную), но заметную вероятность нкРНК (желтый). Интересно, что хотя большинство генов РНК HPO (80%, рис.5F) и днРНК (56,6%, рис. 5G) были классифицированы как HPO-p-подобные, оба набора функциональных генов РНК имеют более высокую медианную вероятность нкРНК (0,23 и 0,27, соответственно) по сравнению с HPO-p (0,11, рис. 5A). , предполагая, что между этими записями РНК есть некоторые общие свойства. Это подтверждается паттерном из трехклассовой модели, где часть распределения днРНК в пространстве классификации (рис. 4G) перекрывается с областью пика нкРНК (рис. 4H). Таким образом, существует четкий континуум между некоторыми нкРНК и днРНК, учитывая особенности, которые мы исследовали, что поднимает вопрос, являются ли некоторые из этих нкРНК предшественниками, из которых могут развиться новые гены.

    Заключение

    Таким образом, вычислительные модели, учитывающие консервативность, структуру последовательностей и биохимические особенности, позволяют точно предсказывать известные гены, кодирующие белки, и гены РНК, исходя из нефункциональных последовательностей. Функции, относящиеся к эволюционному сохранению и основанные на биохимической активности, могут использоваться независимо для построения моделей с сопоставимой производительностью и дополнять друг друга. Однако это не означает, что наличие биохимической активности предполагает, что область генома находится в процессе отбора и, таким образом, имеет функциональное значение.Скорее, рассмотрение нескольких биохимических характеристик в сочетании позволяет идентифицировать генные последовательности, вероятно, при сильной очистке, и может служить альтернативной мерой отбора.

    Применяя эти модели, мы отвечаем на вопрос, какая доля экспрессируемых участков генома, особенно тех, которые аннотированы как ncRNAs, вероятно, функциональна. Мы находим поддержку функциональности 18,5% аннотированных нкРНК на основании их сходства с известными генами. Тем не менее, функциональное значение остальных нкРНК остается неясным.Хотя эти ncRNA больше всего не похожи на функциональные участки болезненных генов, они, по-видимому, также отличаются от PS и RIR и могут представлять новый класс последовательностей с неизвестной функциональной значимостью. Несмотря на это, поскольку эти последовательности не имеют достаточного сходства с известными функциональными последовательностями, наша нулевая гипотеза состоит в том, что они представляют собой транскрипционный шум, который может быть опровергнут после того, как будет установлено экспериментальное доказательство их функциональности.

    Материалы и методы

    Последовательность, аннотации и обучающие данные

    Данные геномной последовательности и аннотации человека, использованные в этом исследовании (GRCh47 / hg19), были получены от Ensembl (Yates et al.2016). Дополнительные использованные аннотационные данные включали аннотации генов фенотипа / заболевания из базы данных Human Phenotype Ontology (HPO) (Köhler et al. 2014) и функциональную аннотацию РНК из lncRNAdb (Quek et al. 2015). Все аннотированные записи, использованные в исследовании, были ≥1 килобаз (кб). Для машинного обучения положительные функциональные примеры включают 3046 генов, кодирующих белок HPO (называемых HPO-p), и 92 аннотированных функциональных гена РНК из lncRNAdb (называемых lncRNA) (Quek et al.2015). Это гены с известным заболеванием или фенотипическими последствиями при мутации. Отрицательные нефункциональные примеры включают 4399 записей псевдогенного биотипа Ensembl. В случаях, когда PS также были аннотированы как функциональная РНК в lncRNAdb, они рассматривались только как lncRNAs.

    Мы также использовали 2500 межгенных областей, случайно выбранных из геномных областей человека, которые не перекрывались ни с какими аннотациями Ensembl, HPO или lncRNAdb в качестве предполагаемых негативов. В дополнение к вышеуказанным последовательностям для машинного обучения также были исследованы 16 618 генов Ensembl в биотипе, кодирующем белок (аннотированное кодирование белка), 10924 записи Ensembl в биотипе ncRNA (аннотированная ncRNA) и 10 генов РНК HPO.Любой ген, кодирующий белок, аннотированный Ensembl, который также был аннотирован в HPO, был исключен из категории Ensembl и рассматривался как HPO-p. Точно так же любая нкРНК, аннотированная в lncRNAdb, была исключена из категории аннотированной ncRNA и обработана как lncRNA. Информация об идентификаторах, исходных базах данных и расположении используемых последовательностей находится в дополнительной таблице S1, Дополнительные материалы онлайн.

    Сохранение объектов

    Было использовано три типа консервационных элементов.Первым типом была идентичность нуклеотидной последовательности каждой человеческой последовательности по сравнению с их предполагаемыми ортологами у пяти приматов ( Pan troglodytes CHIMP2.1.4, Gorilla gorilla gorGor3.1, Pongo abelii PPYG2, MacacaULatta_1 MM Callithrix jacchus C_jacchus3.2.1) и девять эвтерианов ( Mus musculus GRCm38, Rattus norvegicus Rnor_5.0, Oryctolagus cuniculus OryCun2.0, CanisFamily30008.1, Felis catus Felis_catus_6.2, Equus caballus EquCab2, Bos taurus UMD3.1, Ovis aries Oar_v3.1, Sus scrofa Sscrofa10.2). Таким образом, для каждой последовательности в качестве признаков использовалось 14 значений идентичности. Вторым типом были оценки phastCons выравниваний между геномами человека и 99 других позвоночных (набор данных phastCons100way; Siepel et al. 2005). Для каждой последовательности баллы phastCons использовались для генерации трех значений характеристик. Первым был третий квартиль оценок phastCons вместо медианы для захвата последовательностей с относительно небольшими частями, которые находились в процессе отбора.Второй - процент позиций, у которых показатель phastCons> 0,5. Третий - процент позиций, у которых показатель phastCons> 0,75.

    Положение нуклеотида за пределами 100-сторонней выровненной области и, следовательно, без данных phastCons, было присвоено значение ноль, чтобы зафиксировать отсутствие доказательств сохранения. Третий тип природоохранных характеристик - это оценка последствий пригодности (fitCons), сводная статистика, используемая для представления эффекта мутации (Gulko et al., 2015).Хотя оценка fitCons является совокупной мерой, основанной на нескольких характеристиках, не связанных напрямую с сохранением, она измеряет последствия соответствия мутаций положения нуклеотида и, таким образом, рассматривается в этой категории. Для каждой последовательности рассчитывали средний и максимальный баллы fitCons для всех положений нуклеотидов. В частности, использовались баллы i6 от fitCons, интегрированные для типов клеток HUVEC, h2-hESC и GM12878.

    Характеристики свойств последовательности

    Существует четыре типа характеристик свойств последовательности.Первый - это охват простых повторов последовательностей, включая последовательности низкой сложности и вкрапленные повторы, идентифицированные RepeatMasker (Smit et al. 2013) версии 4.0.3. Второй тип - это плотность однонуклеотидного полиморфизма (SNP) (количество SNP / kb), как аннотировано в базе данных dbSNP (Sherry et al. 2001), сборка 146. Третий и четвертый типы характеристик свойств последовательности связаны со структурой ДНК. Третий тип - это структурная информация динуклеотидов ДНК, состоящая из 125 конформационных и термодинамических свойств динуклеотидов, собранных из базы данных DiProDB (Friedel et al.2009 г.). Размерность набора данных DiProDB сначала была уменьшена с помощью анализа главных компонентов. По длине каждой последовательности значения пяти верхних основных компонентов (PC) (объяснение 83,3% вариации) вычислялись через каждые два нуклеотида (размер окна два) с размером шага в одно основание.

    Для каждого из пяти ПК были рассчитаны значения по всем окнам для каждой последовательности. Пять PC в основном соответствуют геометрии большой бороздки ДНК, свободной энергии, скручиванию и вращению, геометрии малой бороздки ДНК, а также наклону и подъему соответственно (Tsai et al.2015). Четвертый тип - это вторичная структура ДНК, отличная от B, которая может вызывать перестройки ДНК и повышенную скорость мутаций (Zhao et al. 2010). Для каждой последовательности плотность каждого из семи мотивов последовательности, образующих вторичные структуры ДНК, не относящиеся к B (число вхождений мотивов / kb), была рассчитана с использованием предварительно вычисленных данных из базы данных, не относящейся к B DB (Cer et al. 2013). Семь не-B мотивов, образующих вторичную структуру, включали: А-фазу, прямые, образующие G-квадруплекс, перевернутые, зеркальные, короткие тандемные и Z-ДНК-мотивы.Подсчитанный мотив имел перекрытие ≥1 п.н. с целевыми последовательностями.

    Функции, связанные с транскрипцией

    Дорожки секвенирования РНК ENCODE (RNA-seq) (CSHL Long RNA-seq) из 19 линий клеток человека (A549, AG04450, BJ, B-клетки CD20 +, GM12878, h2-hESC, HeLa-S3, HepG2, HMEC, HSMM , HUVEC, IMR90, K562, MCF-7, моноциты CD14 +, NHEK, NHLF, SK-N-SH и SK-N-SH RA) были получены из браузера генома UCSC (Speir et al., 2016). Эти чтения были парными и были сопоставлены со сборкой hg19 (Parkhomchuk et al.2009 г.). Поскольку данные RNA-seq сообщают о цепи происхождения транскриптов, смысловые и антисмысловые транскрипты анализировали отдельно. Характеристики, включая уровни экспрессии для 19 типов клеток, охват считыванием последовательностей РНК и количество считываний, были рассчитаны отдельно для смысловых и антисмысловых считываний. Таким образом, для каждой последовательности было четыре признака на основе РНК-seq. Позиции генома без сопоставленных считываний RNA-seq присвоили значение 0. Для уровня экспрессии сначала определяли максимальное покрытие смыслового или антисмыслового считывания по всем основаниям в последовательности.Затем максимальная глубина считывания была усреднена по всем линиям клеток, чтобы представить уровень экспрессии.

    Для охвата считыванием мы рассчитали процент позиций, имеющих глубину смыслового или антисмыслового считывания> 0 в ≥1 клеточной линии для каждой последовательности. В дополнение к RNA-seq, данные секвенирования хроматина-иммунопреципитации (ChIP-seq) для 161 TFs в 91 типе клеток были ENCODE TxnFactor ChIP Track из браузера генома UCSC (Wang et al. 2012). Для каждого пика ChIP-seq показатель expScore, основанный на значениях входного сигнала, использовался для представления интенсивности связывания (0–1000, предоставляется в браузере генома UCSC).Для каждой последовательности были рассчитаны три значения признаков на основе ChIP-seq. Первым была средняя интенсивность связывания, определяемая как среднее значение expScore сайтов, связанных каждым ТФ. Второй - это среднее количество сайтов связывания на килобазу среди всех TF в целевой области. Третий - это количество TF с expScore> 0 в целевом регионе.

    Доступность хроматина, модификация гистонов и метилирование ДНК

    Кластеры гиперчувствительности ENCODE DNase I в 125 типах клеток (v.3; Турман и др. 2012) из ​​браузера генома UCSC были получены для расчета двух признаков для каждой последовательности. Первым был охват доступной области, определяемый как доля пар оснований со значением дорожки DNaseClusters> 0. Вторым было максимальное значение трека DNaseClusters по всем позициям рассматриваемых последовательностей. Для гистоновых модификаций данные ChIP-seq, сгенерированные ENCODE / Broad Institute (Ram et al.2011), были получены из браузера генома UCSC, который содержал 156 обработанных наборов данных для 12 меток (CTCF, h3A.Z, h4k27ac, h4k27me3, h4k36me3, h4k4me1, h4k4me2, h4k4me3, h4k79me2, h4k9ac, h4k9me3 и h5k20me1) в 13 клеточных линиях (GM12878, h2-hESC, HeLa-HSM3, HeLa + HSM3, HeLa + HSM3, HeLa + , NHA, Nhdfad, NHE и NHLF).

    Для каждой последовательности были рассчитаны два признака для каждой гистоновой метки. Первый представляет собой средний балл, показывающий интенсивность модификации гистонов (охват считыванием ChIP-seq, нормализованный от 0 до 1000, положение без пропущенных значений исключено). Второй - это доля позиций, имеющих средний балл интенсивности модификации гистонов> 0.Для метилирования ДНК уменьшенное представление данных бисульфитного секвенирования 15 клеточных линий (AG04450, BJ, GM12878, h2-hESC, HeLa-S3, Hepatocytes, HepG2, HMEC, HSMM, K562, IMR90, MCF-7, Osteobl, SK-N -SH и SK-N-SH RA) были получены из браузера генома UCSC как треки метилирования ДНК ENCODE (Meissner et al. 2008). Для каждой последовательности рассчитывали плотность сайта метилирования ДНК (количество сайтов / т.п.н.) и средний балл метилирования ДНК (глубина считывания бисульфитного секвенирования, нормализованная от 0 до 1000) по клеточным линиям.

    Подход к машинному обучению, функциональная вероятность и показатели производительности модели

    Фреймворк машинного обучения на основе случайного леса был разработан, чтобы предсказать, будет ли геномная область функционировать или нет. Случайный лес был выбран из-за его эффективности для больших наборов данных, его способности сообщать о важности каждой функции и точности прогнозов (Breiman 2001). Чтобы избежать потенциальной предвзятости из-за дисбаланса в классе, для каждого цикла обучения использовалось равное количество положительных и отрицательных примеров.Мы использовали 10-кратную перекрестную проверку, при которой модели функционального прогнозирования были построены с использованием 90% последовательностей положительных и отрицательных классов. Затем для оценки эффективности модель была применена к 10% удерживаемых последовательностей. Обученная модель также применялась к остальным элементам последовательности, которые не использовались для обучения или тестирования, чтобы предсказать, принадлежат они к положительному или отрицательному классу. Для каждой записи последовательности, не входящей в обучающий набор, вычислялась доля положительных предсказаний дерева решений в модели случайного леса.Повторяя процедуру 1000 раз, мы затем вычислили среднюю долю и определили ее как FL. Для мультиклассовых моделей общая процедура была такой же, за исключением того, что были определены несколько классов. Были определены две трехклассовые модели, включая одну, классифицирующую гены HPO-p, PS и RIR, а другую - замену генов HPO-p днРНК. При каждом запуске модель классифицирует тестовый пример на один из трех классов. В модели с четырьмя классами нкРНК была добавлена ​​как новый класс. Следуя той же процедуре, что и бинарная классификация, определяли показатель достоверности для каждого из классов для каждой последовательности.Оценки достоверности классов (три и четыре для трех- и четырехклассовых моделей соответственно) для каждой последовательности в сумме дадут единицу. Произвольный анализ лесов проводился в R с использованием пакета «party» (Strobl et al. 2009) и пакета «PRROC» (Grau et al. 2015).

    Для оценки производительности функций использовалось несколько показателей, включая истинно положительную скорость (TPR), FNR, FPR, auROC и F-меру. Чтобы определить auROC модели на основе конкретной функции, мы сначала использовали несколько пороговых значений рассматриваемой функции, чтобы определить соответствующие TPR и FPR.Затем была построена кривая рабочих характеристик приемника (ROC) путем нанесения TPR против их соответствующих FPR. AuROC был рассчитан на основе ROC. В этой структуре функция, которая может отлично отличать гены от PS, имеет auROC, равное 1. Совершенно неинформативная функция будет иметь auROC, равную 0,5. F-мера - это гармоническое среднее между долей последовательностей, предсказанных как гены, которые действительно являются генами (точность), и долей истинно положительных генов, предсказанных как гены (отзыв).Для модели случайного леса пороговое значение FL определялось на основе максимальной F-меры модели с использованием нескольких значений FL в диапазоне от 0 до 1. Этот подход позволил нам одновременно учитывать как ложноположительные, так и ложноотрицательные значения при определении порог FL для классификации функциональных последовательностей.

    Оценка влияния зависимости между функциями в машинном обучении

    Поскольку некоторые особенности, обсуждаемые в этом исследовании, не были независимыми, мы приняли модель условного случайного леса и условную меру важности переменной перестановки в «партийном» пакете R, которые, как было продемонстрировано, особенно подходят для коррелированных переменных-предикторов (Strobl et al.2009 г.). Чтобы исследовать потенциальное влияние зависимости функций на производительность прогнозирования, мы также разработали модели прогнозирования с независимыми функциями, используя два метода. В первом методе мы применили анализ ПК и разработали модель ПК, используя все ПК, которые ортогональны друг другу и, следовательно, независимы. Во втором методе модель независимых компонентов (IC) была сгенерирована с использованием 250 IC, которые были рассчитаны с помощью пакета fastICA в R. auROC для моделей ПК и IC были равны 0.998 и 0,892 соответственно по сравнению с 0,988 для полной модели с использованием исходных зависимых функций. Таким образом, на способность различать функциональные и нефункциональные последовательности не повлияло отрицательно использование зависимых переменных-предикторов. Учитывая, что полная модель, использующая исходные характеристики, которые были зависимыми, могла в некоторых случаях выявить относительный вклад эволюционных и биохимических характеристик в определение функциональной области, мы использовали результаты модели, построенной с исходными, нетрансформированными характеристиками, во всех последующих анализах.

    Дополнительные материалы

    Дополнительные данные доступны в Интернете по адресу Molecular Biology and Evolution .

    Благодарности

    Авторы благодарят Дэвида Арности, Мелиссу Лехти-Шиу, Моник Флоер и Эми Ральстон за критическое прочтение рукописи и предложения. Эта работа была частично поддержана Национальным научным фондом (MCB-1119778, IOS-1126998 и IOS-1546617), грантом Мичиганского государственного университета (S.-H.S.) и Программа постдокторских исследований Министерства науки и технологий Тайваня MOST-104-2917-I-564-070 (на Z.T.-Y.T.).

    Список литературы

    Брейман

    LEO.

    2001

    .

    Случайные леса

    .

    Mach Learn

    .

    45

    :

    5

    -

    32

    .

    Cer

    RZ

    ,

    Donohue

    DE

    ,

    Mudunuri

    US

    ,

    Temiz

    NA

    ,

    Убыток

    MA

    ,

    GN

    Starner 9000

    Вольфовский

    N

    ,

    Yi

    M

    ,

    Luke

    BT

    и др.

    2013

    .

    Non-B DB v2.0: база данных предсказанных не-B ДНК-образующих мотивов и связанных с ней инструментов

    .

    Nucleic Acids Res

    .

    41

    :

    D94

    -

    D100

    .

    де Бур

    CG

    ,

    vanBakel

    H

    ,

    Tsui

    K

    ,

    Li

    J

    ,

    Morris

    QD

    ,

    000

    000

    Nislow

    QD ,

    Хьюз

    т.р.

    2014

    .

    Единая модель для определения транскрипта дрожжей

    .

    Genome Res

    .

    24

    :

    154

    -

    166

    .

    Димитриева

    S

    ,

    Bucher

    P.

    2013

    .

    UCNEbase - база данных ультраконсервативных некодирующих элементов и геномных регуляторных блоков

    .

    Nucleic Acids Res

    .

    41

    :

    D101

    -

    D109

    .

    Джебали

    S

    ,

    Дэвис

    CA

    ,

    Меркель

    A

    ,

    Добин

    A

    ,

    Lassmann

    T

    ,

    A0009000

    000

    000

    Mortazav2

    Mortazav2

    Lagarde

    J

    ,

    Lin

    W

    ,

    Schlesinger

    F

    и др.

    2012

    .

    Пейзаж транскрипции в клетках человека

    .

    Природа

    489

    :

    101

    -

    108

    .

    Дулиттл

    F.

    2013

    .

    Является ли мусорная ДНК ерундой? Критика ENCODE

    .

    Proc Natl Acad Sci USA

    .

    110

    :

    5294

    -

    5300

    .

    Doolittle

    F

    ,

    Brunet

    TDP

    ,

    Linquist

    S

    ,

    Gregory

    TR.

    2014

    .

    Различие между «функцией» и «эффектом» в геномной биологии

    .

    Genome Biol Evol

    .

    6

    :

    1234

    -

    1237

    .

    Эдди

    SR.

    2012

    .

    Парадокс значения C, мусорная ДНК и ENCODE

    .

    Курр Биол

    .

    22

    :

    R898

    -

    R899

    .

    Консорциум проектов ENCODE

    .

    2012 г.

    .

    Интегрированная энциклопедия элементов ДНК в геноме человека

    .

    Природа

    489

    :

    57

    -

    74

    .

    Fatica

    A

    ,

    Bozzoni

    I.

    2014

    .

    Длинные некодирующие РНК: новые участники дифференцировки и развития клеток

    .

    Нат Рев Генет

    .

    15

    :

    7

    -

    21

    .

    Friedel

    M

    ,

    Nikolajewa

    S

    ,

    Sühnel

    J

    ,

    Wilhelm

    T.

    2009

    .

    DiProDB: база данных свойств динуклеотидов

    .

    Nucleic Acids Res

    .

    37

    :

    D37

    -

    D40

    .

    Гилберт

    LA

    ,

    Horlbeck

    MA

    ,

    Адамсон

    B

    ,

    Villalta

    JE

    ,

    Chen

    Y

    000

    000

    ara Whitehead

    000

    000

    ara Whitehead 9000

    Панорамирование

    B

    ,

    Ploegh

    HL

    ,

    Bassik

    MC

    и др.

    2014

    .

    CRISPR-опосредованный контроль репрессии и активации генов на уровне генома

    .

    Ячейка

    159

    :

    647

    -

    661

    .

    Grau

    J

    ,

    Grosse

    I

    ,

    Keilwagen

    J.

    2015

    .

    PRROC: вычисление и визуализация кривых точного отзыва и рабочих характеристик приемника в R

    .

    Биоинформатика

    31

    :

    2595

    -

    2597

    .

    Graur

    D

    ,

    Zheng

    Y

    ,

    Цена

    N

    ,

    Azevedo

    RBR

    ,

    Zufall

    RA

    ,

    000

    .

    О бессмертии телевизоров: «функция» в геноме человека согласно безэволюционному евангелию кодирования. Геном

    Biol Evol

    .

    5

    :

    578

    590

    .

    Gulko

    B

    ,

    Hubisz

    MJ

    ,

    Gronau

    I

    ,

    Siepel

    A.

    2015

    .

    Метод расчета вероятностей последствий пригодности для точечных мутаций в геноме человека

    .

    Нат Генет

    .

    47

    :

    276

    -

    283

    .

    Hangauer

    MJ

    ,

    Vaughn

    IW

    ,

    McManus

    MT.

    2013

    .

    Всесторонняя транскрипция генома человека производит тысячи ранее не идентифицированных длинных межгенных некодирующих РНК

    .

    PLoS Genet

    .

    9

    :

    e1003569.

    Борона

    J

    ,

    Франкская

    A

    ,

    Gonzalez

    JM

    ,

    Frazer

    KA.

    2012

    .

    GENCODE: справочная аннотация генома человека для проекта ENCODE

    .

    Genome Res

    .

    22

    :

    1760

    -

    1774

    .

    Кабза

    M

    ,

    Ciomborowska

    J

    ,

    Makałowska

    I.

    2014

    .

    RetrogeneDB - база данных ретрогенов животных

    .

    Мол Биол Эвол

    .

    31

    :

    1646

    -

    1648

    .

    Kaessmann

    H

    ,

    Vinckenbosch

    N

    ,

    Long

    M.

    2009

    .

    Дупликация генов на основе РНК: понимание механизмов и эволюции

    .

    Нат Рев Генет

    .

    10

    :

    19

    -

    31

    .

    Kellis

    M

    ,

    Wold

    B

    ,

    Snyder

    MP

    ,

    Bernstein

    BE

    ,

    Kundaje

    A

    ,

    ov 9000K

    Birney

    E

    ,

    Crawford

    GE

    ,

    Dekker

    J

    и др.

    2014

    .

    Определение функциональных элементов ДНК в геноме человека

    .

    Proc Natl Acad Sci USA

    .

    111

    :

    6131

    -

    6138

    .

    Köhler

    S

    ,

    Doelken

    SC

    ,

    Mungall

    CJ

    ,

    Bauer

    S

    ,

    Firth

    HV

    ,

    M 9000 9000 I0002 Baille

    ,

    Коричневый

    DL

    ,

    Brudno

    M

    ,

    Campbell

    J

    и др.

    2014

    .

    Проект «Онтология фенотипа человека»: связь молекулярной биологии и болезней посредством фенотипических данных

    .

    Nucleic Acids Res

    .

    42

    :

    D966

    -

    D974

    .

    Lloyd

    JP

    ,

    Seddon

    AE

    ,

    Moghe

    GD

    ,

    Simenc

    MC

    ,

    Shiu

    S-H.

    2015

    .

    Характеристики основных генов растений позволяют внутри- и межвидовое предсказание летальных мутантных фенотипов

    .

    Plant Cell

    27

    :

    2133

    -

    2147

    .

    Meissner

    A

    ,

    Mikkelsen

    TS

    ,

    Gu

    H

    ,

    Wernig

    M

    ,

    Hanna

    J

    ,

    000 Zivachenko

    000

    000 Zivachenko

    Bernstein

    BE

    ,

    Nusbaum

    C

    ,

    Jaffe

    DB

    и др.

    2008

    .

    Карты метилирования ДНК в масштабе генома плюрипотентных и дифференцированных клеток

    .

    Nature

    454

    :

    766.

    Mercer

    TR

    ,

    Dinger

    ME

    ,

    Mattick

    JS.

    2009

    .

    Длинные некодирующие РНК: понимание функций

    .

    Нат Рев Генет

    .

    10

    :

    155

    -

    159

    .

    Неандер

    К.

    1991

    .

    Функции как отдельные эффекты: защита концептуального аналитика

    .

    Философские науки

    .

    58

    :

    168

    -

    184

    .

    Niu

    D-K

    ,

    Jiang

    L.

    2013

    .

    Может ли ENCODE сказать нам, сколько мусорной ДНК мы несем в нашем геноме?

    Biochem Biophys Res Commun

    .

    430

    :

    1340

    -

    1343

    .

    Пархомчук

    Д

    ,

    Бородина

    Т

    ,

    Амстиславский

    В

    ,

    Банару

    М

    ,

    Халлен

    L

    ch

    000

    000

    000

    0009000

    Kro

    Солдатов

    А.

    2009

    .

    Анализ транскриптома путем специфичного для нити секвенирования комплементарной ДНК

    .

    Nucleic Acids Res

    .

    37

    :

    e123.

    Quek

    XC

    ,

    Thomson

    DW

    ,

    Maag

    JLV

    ,

    Bartonicek

    N

    ,

    Сигнал

    B

    000

    000

    000

    B

    000 9000

    ,

    Дингер

    ME.

    2015

    .

    lncRNAdb v2.0: расширение справочной базы данных для функциональных длинных некодирующих РНК

    .

    Nucleic Acids Res

    .

    43

    :

    D168

    -

    D173

    .

    Quinn

    JJ

    ,

    Chang

    HY.

    2015

    .

    Уникальные особенности биогенеза и функции длинной некодирующей РНК

    .

    Нат Рев Генет

    .

    17

    :

    47

    -

    62

    .

    Ram

    O

    ,

    Goren

    A

    ,

    Amit

    I

    ,

    Shoresh

    N

    ,

    Yosef

    N

    ,

    Ernst

    Ernst

    Gymrek

    M

    ,

    Issner

    R

    ,

    Coyne

    M

    и др.

    2011

    .

    Комбинаторное формирование паттерна регуляторов хроматина, выявленное с помощью полногеномного анализа локализации в клетках человека

    .

    Ячейка

    147

    :

    1628

    -

    1639

    .

    Sherry

    ST

    ,

    Ward

    MH

    ,

    Kholodov

    M

    ,

    Baker

    J

    ,

    Phan

    L

    ,

    000

    000 9000

    K.

    2001

    .

    dbSNP: база данных генетических вариаций NCBI

    .

    Nucleic Acids Res

    .

    29

    :

    308

    -

    311

    .

    Siepel

    A

    ,

    Bejerano

    G

    ,

    Pedersen

    JS

    ,

    Hinrichs

    AS

    ,

    Hou

    M

    000 9000 9000 9000 9000 9000 9000 Rosenbloom Rosenblo

    Spieth

    J

    ,

    HillierL

    W

    ,

    Richards

    S

    и др.

    2005

    .

    Эволюционно консервативные элементы в геномах позвоночных, насекомых, червей и дрожжей

    .

    Genome Res

    .

    15

    :

    1034

    -

    1050

    .

    Speir

    ML

    ,

    Zweig

    AS

    ,

    Rosenbloom

    KR

    ,

    Raney

    BJ

    ,

    Paten

    B

    ,

    000

    000

    ,

    Nejad

    Learned

    K

    ,

    Karolchik

    D

    ,

    Hinrichs

    AS

    и др.

    2016

    .

    База данных браузера генома UCSC: обновление 2016 г.

    .

    Nucleic Acids Res

    .

    44

    :

    D717

    -

    D725

    .

    Штробл

    C

    ,

    Hothorn

    T

    ,

    Zeileis

    A.

    2009

    .

    Вечеринка! Новая условная мера переменной важности для случайных лесов, доступная в партийном пакете

    .

    Р Дж

    .

    1

    :

    14

    -

    17

    .

    Thurman

    RE

    ,

    Rynes

    E

    ,

    Humbert

    R

    ,

    Vierstra

    J

    ,

    Maurano

    MT

    ,

    0009000

    , NC

    , NC

    , NC

    , NC

    Stergachis

    AB

    ,

    Wang

    H

    ,

    Vernot

    B

    и др.

    2012

    .

    Доступный хроматиновый ландшафт генома человека

    .

    Природа

    489

    :

    75

    -

    82

    .

    Цай

    ZT-Y

    ,

    Шиу

    S-H

    ,

    Tsai

    H-K.

    2015

    .

    Вклад мотива последовательности, состояния хроматина и особенностей структуры ДНК в прогностические модели связывания фактора транскрипции у дрожжей

    .

    PLoS Comput Biol

    .

    11

    :

    1

    -

    22

    .

    van Bakel

    H

    ,

    Nislow

    C

    ,

    Blencowe

    BJ

    ,

    Hughes

    TR.

    2010

    .

    Большинство транскриптов «темной материи» связаны с известными генами

    .

    ПЛоС Биол

    .

    8

    :

    e1000371.

    Wang

    J

    ,

    Zhuang

    J

    ,

    Iyer

    S

    ,

    Lin

    X

    ,

    Whitfield

    TW

    ,

    Greven

    ce

    ce ,

    Донг

    X

    ,

    Кундаже

    A

    ,

    Cheng

    Y

    и др.

    2012

    .

    Особенности последовательности и структура хроматина вокруг участков генома, связанных 119 факторами транскрипции человека

    .

    Genome Res

    .

    22

    :

    1798

    -

    1812

    .

    Белый

    JK

    ,

    Гердин

    AK

    ,

    Карп

    NA

    ,

    Ryder

    E

    ,

    Buljan

    M

    ,

    Bussell

    0009 Salon

    Clare

    S

    ,

    Ingham

    NJ

    ,

    Podrini

    C

    и др.

    2013

    .

    Полногеномное поколение и систематическое фенотипирование мышей с нокаутом выявляют новые роли многих генов

    .

    Ячейка

    154

    :

    452

    -

    464

    .

    Yates

    A

    ,

    Akanni

    W

    ,

    Amode

    MR

    ,

    Barrell

    D

    ,

    Billis

    K

    ,

    Cumvalho

    -Silva

    -Silva 9

    ,

    Clapham

    P

    ,

    Fitzgerald

    S

    ,

    Gil

    L

    и др.

    2016

    .

    Ensembl 2016

    .

    Nucleic Acids Res

    .

    44

    :

    D710

    -

    D716

    .

    Zhao

    J

    ,

    Bacolla

    A

    ,

    Wang

    G

    ,

    Vasquez

    км.

    2010

    .

    Генетическая нестабильность и эволюция, вызванная не-B структурой ДНК

    .

    Cell Mol Life Sci

    .

    67

    :

    43

    -

    62

    .

    Заметки автора

    © Автор 2017.Опубликовано Oxford University Press от имени Общества молекулярной биологии и эволюции. Все права защищены. Для получения разрешений обращайтесь по электронной почте: [email protected]

    .

    Субгенная непереносимость, ClinVar и эпилепсия: исследование секвенирования всего экзома с участием 29 165 человек

    Резюме

    На легкую и тяжелую эпилепсию влияют варианты одних и тех же генов, но объяснение возникающих в результате фенотипических вариаций неизвестно . В рамках продолжающегося сотрудничества Epi25 мы выполнили анализ секвенирования всего экзома 13 487 человек с эпилепсией и 15 678 человек из контрольной группы.В то время как предыдущие исследования Epi25 были сосредоточены на анализе коллапса на основе генов, мы спросили, как характер вариации внутри генов отличается в зависимости от типа эпилепсии. В частности, мы сравнили генетическую архитектуру тяжелых онтогенетических и эпилептических энцефалопатий (DEE) и двух, как правило, менее тяжелых эпилепсий, генетической генерализованной эпилепсии и неприобретенной фокальной эпилепсии (NAFE). В нашем генном анализе коллапса редких вариантов использовалась кластеризация на основе географического происхождения, которая включала более широкие родословные, чем это было возможно ранее, и выявляла новые ассоциации.Используя коэффициент миссенс-непереносимости (MTR), мы обнаружили, что варианты у индивидуумов с DEE находятся в значительно более непереносимых генных субрегионах, чем у индивидуумов, затронутых NAFE. Только ранее сообщенные патогенные варианты, отсутствующие в доступных наборах геномных данных, показали значительную нагрузку на людей, пораженных эпилепсией, по сравнению с контрольными людьми, а крайне редкие патогенные варианты, связанные с DEE, были локализованы в более нетерпимых генных субрегионах, чем варианты, связанные с не-DEE эпилепсии.Фильтрация MTR улучшила выход ультра-редких патогенных вариантов у пораженных людей по сравнению с контрольными людьми. Наконец, анализ вариантов в генах без ассоциации с заболеванием выявил значительное бремя вариантов с потерей функции в генах, наиболее нетерпимых к такой вариации, что указывает на то, что дополнительные гены риска эпилепсии еще предстоит обнаружить. Взятые вместе, наше исследование предполагает, что генная и субгенная непереносимость являются критическими характеристиками для интерпретации эффектов вариации генов, влияющих на эпилепсию.

    Ключевые слова

    эпилепсия

    эпилептическая энцефалопатия

    судороги

    секвенирование всего экзома

    фокальная эпилепсия

    генерализованная эпилепсия

    непереносимость

    000

    0009 текст

    © Американское общество генетики человека, 2021 г.

    Рекомендуемые статьи

    Цитирование статей

    Фильтрация «генных» открытых рамок считывания из образцов геномной ДНК для расширенной аннотации | BMC Genomics

    Достижения в технологиях секвенирования привели к взрыву крупномасштабных проектов секвенирования: по состоянию на январь 2011 г. было успешно секвенировано 1331 бактериальный геном, а другие 4424 генома либо незавершенные, либо находящиеся на стадии сборки (http: // www.ncbi.nlm.nih.gov/genomes/lproks.cgi). Поскольку секвенирование больше не является проблемой, реальной проблемой является понимание того, как последовательность ДНК приводит к определенному фенотипу организма. Ключевым шагом в этом процессе является аннотация генов, кодирующих белки, которые вносят вклад в определенные функции. После завершения первого бактериального генома в 1998 году этот процесс обычно выполняется автоматически с использованием ab initio , гомологичных или комбинированных подходов [1]. Большинство генных структур основано на расчетных предсказаниях [2], а аннотации основаны на гомологии.Однако автоматическая аннотация может быть неправильной, если сходство последовательностей не связано с функциональным сходством или когда справочные базы данных содержат неправильные аннотации - проблема, которая, по оценкам, затрагивает до 49% генов в общедоступных базах данных [3–6]. Функция гена первоначально назначается там, где есть гомология с родственными генами, активность которых была определена экспериментально. Тем не менее, аннотации второго и третьего поколения, а также связанные с ними ошибки являются превалирующими.

    Экспериментальная информация, относящаяся к функции белков, необходима, но ее гораздо труднее получить на уровне всего генома.Гены должны быть информативно идентифицированы, прежде чем их можно будет клонировать, экспрессировать и протестировать на функцию, а исследование всего рекомбинантного протеома основывается на клонировании всех открытых рамок считывания (ORF) в геноме. Эти коллекции ORFeome, как их называют, требуют огромных усилий с точки зрения времени и ресурсов. После клонирования рекомбинаторные системы клонирования позволяют относительно простой перенос между разными векторами для проектов масштаба генома [7]. Однако даже после правильной идентификации и клонирования генов все еще существуют проблемы с точки зрения экспрессии и очистки полноразмерных белков: всего лишь 30% белков экспрессируются в растворе в E.coli на уровне, достаточном для использования в эксперименте [8, 9].

    Функциональную аннотацию можно было бы значительно упростить, если бы геномная ДНК могла использоваться напрямую без необходимости создания ресурсов ORFeome. Тот факт, что белки обычно содержат несколько доменов, каждый из которых способствует определенной функции, обеспечивает потенциальный механизм, с помощью которого это может быть выполнено. Однажды созданная библиотека белковых доменов будет полезна для многих целей. Такие приложения, как структурные исследования, генерация антител, анализ связывания белков / субстратов, перетасовка доменов для эволюции ферментов и протеиновые чипы, все выиграют от библиотеки хорошо уложенных доменов протеина.

    Анализ распределения длин белковых доменов [10] показывает, что большинство из них колеблются от 50 до 200 аминокислот с пиком около 100 аминокислот: мы предполагаем, что фрагментация всего (безинтронного) генома на фрагменты ДНК размером 200-800 bp, должны обеспечивать широкое представление всех белковых доменов от одного вида, популяции полипептидов, которая получила название «доменом» [11]. Доступность геномных последовательностей в сочетании с возможностью экспериментального определения функции домена, а не полноразмерного белка, также может обеспечить более простой метод аннотирования генов на основе конкретной функции.

    Для разработки метода аннотации генов, основанного на функции отдельных доменов в масштабе генома, необходим случайный подход, чтобы избежать предвзятости в отношении того, что уже известно. С этой точки зрения, случайно фрагментированная геномная ДНК представляет собой хороший источник ДНК для организмов без интронов. К сожалению, использование случайно сгенерированных фрагментов ДНК страдает рядом проблем: i) не ORF (ORF, содержащие подавляемые стоп-кодоны) и негенные ORF (альтернативные ORF в рамке, отличной от исходной рамки гена (генные ORF)), могут быть полученным для фрагментов, полученных в результате случайной фрагментации.Эти негенные ORF будут преобразовываться в полипептиды, не имеющие биологического значения; ii) сбой сворачивания происходит даже для правильно идентифицированных и клонированных ORF, что нарушает их функцию; iii) белки или фрагменты белков, которые сворачиваются в различных клеточных компартментах, могут подвергаться воздействию рекомбинантной экспрессии в неподходящей окислительно-восстановительной или шаперонной среде.

    Для решения этих проблем мы демонстрируем [12–14] вместе с другими [15–17], что складывание репортеров может быть очень полезным инструментом. Принцип, в соответствии с которым они работают, заключается в том, что плохо свернутый тестовый белок может отрицательно влиять на укладку «репортерного» белка, с которым он слит, улавливая его в нефункциональном или агрегированном состоянии.Более того, когда складывающийся репортер имеет легко идентифицируемый фенотип (например, устойчивость к антибиотикам [12], флуоресценция [15] или цветовая комплементация [16]), спасение этих клонов, экспрессирующих правильно свернутые и растворимые ORF, становится относительно простым процессом.

    Хотя можно было ожидать, что любая ORF (генная или негенная) будет обеспечивать позитивно селектируемый фенотип (флуоресценция, устойчивость к антибиотикам), мы недавно наблюдали, что, когда фрагменты кДНК клонируются перед складывающимся репортером, происходит отбор фрагментов из реальных гены [18], и когда плазмида, содержащая четыре известных гена, была фрагментирована и помещена перед складывающимся репортером, более 80% выбранных фрагментов ДНК были генными ORF [12].

    Сворачивающий репортер, который мы использовали в этой работе, - это β-лактамаза ТЕМ-1. Этот фермент придает бактериям устойчивость к ампициллину только при экспортировании в периплазматическое пространство, процесс, который зависит от присутствия лидера секреции на N-конце фермента. В нашей системе фрагменты ДНК клонируются между лидером секреции и геном β-лактамазы (рис. 1), так что только те фрагменты, которые способны когерентно складываться и находятся в рамке с обоими компонентами, обеспечивают правильную укладку фермента и его последующий экспорт в периплазму.Более того, двойное слияние гарантирует, что небольшие фрагменты, содержащие загадочные стартовые сайты, не могут быть положительно отобраны, поскольку у них отсутствует лидерная последовательность, что приводит к увеличению строгости отбора. Это контрастирует с другими моделями фолдинга репортера [15, 19], в которых фрагменты клонируются только перед репортерным геном. Поскольку фаги M13 собираются в периплазме, библиотека белковых доменов, транслоцированная в периплазму, также подходит для фагового дисплея на основе M13, обеспечивая доступность подходящих векторов [20].Это позволяет напрямую выбирать библиотеки доменов для фрагментов генов, кодирующих домены со специфическими связывающими свойствами или даже ферментативной активностью, если доступны совместимые зонды, основанные на активности [21].

    Рисунок 1

    Вектор фильтрации ORF. Характеристики фильтрующих векторов показаны на панели A. Случайные фрагменты гДНК с тупыми концами клонируют между лидерной последовательностью (Sec, SRP или TAT) и зрелым геном β-лактамазы. C-концевые теги SV5 и His используются для обнаружения и очистки соответственно.На панели B эффект селективного давления на ампициллин показан для ORF и не ORF.

    Правильный фолдинг полипептида зависит как от аминокислотного состава, так и от внешних факторов, таких как шапероны и окислительно-восстановительные условия. Следовательно, правильный фолдинг зависит от фолдинга белка в соответствующем клеточном компартменте.

    У бактерий большинство белков пересекает внутреннюю мембрану посредством секреторной системы II типа. Он включает три различных пути [22]: Sec-зависимый путь, сигнальные частицы распознавания (SRP) и пути двойной аргининовой транслокации (TAT).В то время как путь Sec экспортирует развернутые белки, пути SRP и TAT экспортируют ко- и посттрансляционно свернутые белки, соответственно. В этой статье мы покажем, как использование трех разных векторов фильтрации β-лактамаз, каждый из которых использует одну из различных систем экспорта, позволяет более широко представить домены, которые можно отфильтровать из генома.

    Чтобы продемонстрировать возможность применения метода фильтрации на уровне всего генома, мы выбрали Clostridium thermocellum в качестве модельного организма.Общий интерес к этой анаэробной бактерии основан на ее необычайной способности метаболизировать полисахариды клеточной стенки растений с помощью сложного секретируемого мультибелкового комплекса. Его компоненты имеют типичную многодоменную структуру, в которой каждый домен выполняет определенную функцию (например, закрепление на субстрате, закрепление на бактериальной мембране, адаптерные домены, каталитические домены) [23]. Действительно, тот факт, что его геном был недавно секвенирован (идентификатор GenBank: CP000568.1), но не полностью аннотирован, делает его хорошим кандидатом для целей функциональной аннотации на основе доменов.

    В этой статье мы описываем подготовку и характеристики фильтрованных доменных библиотек, полученных из геномной ДНК, с использованием библиотек, созданных из генома C. thermocellum в качестве модельной системы.

    Эволюционная адаптивность, связанная с вариацией длины коротких генных тандемных повторов

    Abstract

    Появляется все больше свидетельств того, что короткие тандемные повторы (STR) - горячие точки мутаций, присутствующие в генах и межгенных областях в большинстве геномов, - могут влиять на функцию генов и белков и следовательно, влияют на фенотип организма.Однако общая важность STR и их постоянная генетическая изменчивость в популяции, например вопрос о том, способствуют ли они эволюционным изменениям и адаптации к местным условиям, и каким образом. Посредством полногеномной характеристики STR у более чем тысячи диких образцов Arabidopsis thaliana мы продемонстрировали, что STR демонстрируют значительные различия в длине в зависимости от географического распространения вида. Мы обнаружили, что варианты длины коррелируют с условиями окружающей среды, ключевыми адаптивными фенотипическими признаками, а также уровнями экспрессии генов.Кроме того, мы показываем, что кодирующие STR чрезмерно представлены в предполагаемых сайтах взаимодействия с белками. Взятые вместе, наши результаты предполагают, что эти гипервариабельные локусы играют главную роль в облегчении адаптации у растений, и из-за повсеместного присутствия STR на всем древе жизни вероятны аналогичные роли у других организмов.

    Введение

    Короткие тандемные повторы (STR), часто определяемые как единицы из 1-6 пар оснований, повторяющиеся в тандеме, присутствуют в генах и в межгенных областях на протяжении большинства геномов.STR-мутации, возникающие из-за проскальзывания репликации, приводят либо к уменьшению, либо к увеличению количества повторяющихся единиц, и оцениваются скорости мутаций от 1 × 10 −4 до 1 × 10 −3 на локус 1 , что на порядки больше, чем точечные мутации. Вариации длины могут иметь драматические фенотипические эффекты, в основном известные из исследований болезней человека 2 . Например, количество повторяющихся единиц CAG в STR в кодирующей части гена Huntingtin коррелирует с возрастом начала болезни Хантингтона 3 .Однако такие драматические последствия - скорее всего, исключения. Исследования STR у других организмов показали, что вариации длины некоторых STR могут модулировать функцию генов и белков, не вызывая вредных эффектов 4,5 . Было высказано предположение, что STR, связанные с определенными генами, могут служить «ручками настройки», которые облегчают адаптацию 6 . Это подтверждается исследованиями отдельных STR в популяциях пшеницы и ячменя, предполагающими связь между разнообразием STR и экологическими факторами, такими как засуха 7–9 .Тем не менее, общий вклад вариаций STR в местную адаптацию еще не изучен с использованием общегеномных данных из более крупной коллекции образцов, представляющих глобальное распространение вида.

    Мелкий сорняк Arabidopsis thaliana оказался уникальной модельной системой для изучения и понимания механизмов, лежащих в основе развития растений, реакции на стресс, пластичности и адаптивных реакций в замкнутой среде. Кроме того, благодаря недавним инициативам по секвенированию полногенома и исследованиям транскриптомов, A.thaliana быстро превратилась в мощную систему экологических и эволюционных исследований, которая дает представление о геномике популяций, внутривидовой эволюции генома и о том, как дикие популяции реагируют на биотические и абиотические условия в своей локальной среде 10–12 . Несмотря на быстро растущее число таких исследований, биологическое значение генетической изменчивости, вызванной изменением длины STR, более или менее игнорируется. Единственным исключением является недавнее исследование Press et al. 13 , где было исследовано около 2000 STR-локусов среди 97 A.thaliana , и было обнаружено, что они имеют функциональное значение. Например, увеличение длины STR в 3’UTR MEE36 вызывало удержание его интрона и было связано со снижением уровней экспрессии. Следовательно, существует необходимость полностью охарактеризовать вариацию длины STR в различных популяциях A. thaliana на уровне полногенома. Если STR обеспечивают адаптивные преимущества, корреляция между вариантами длины STR и окружающей средой, связанной с географическим происхождением растений, должна быть очевидной.Чтобы исследовать этот путь, мы проанализировали полногеномные данные из более чем тысячи природных образцов (образцов) A. thaliana , секвенированных 1001 Genomes Consortium 10 . Исследованные образцы были собраны из различных местообитаний - от образца Cvi , собранного в Кабо-Верде, до Strand-1 , собранного в Северной Норвегии - и, таким образом, адаптировались к очень различным местным биотическим и абиотическим условиям. Таким образом, набор образцов предоставляет беспрецедентную возможность изучить вариацию STR в свете местной адаптации.Насколько нам известно, здесь мы представляем первое STR-профилирование полногенома в масштабе популяции нечеловеческого организма.

    Наши результаты демонстрируют, что более половины мононуклеотидных, динуклеотидных и тринуклеотидных STR-локусов, идентифицированных в образцах A. thaliana в дикой природе, различались по длине на всем протяжении своего географического распространения, и что вариация длины в большинстве случаев в значительной степени коррелировала с конкретными условиями окружающей среды. Из них почти треть вариантов находится в непосредственной близости от генов или внутри них.Поразительно, что около 80% STR, расположенных в последовательности, кодирующей белок, имели вариацию длины, значительно связанную с биоклиматическими переменными. Мы показываем, что кодирующие STR имеют тенденцию перекрываться с предполагаемыми сайтами связывания с белками, что указывает на функциональную роль STR во взаимодействиях белок-белок и белок-ДНК. Более того, мы обнаружили, что длина STR коррелировала с уровнями экспрессии генов и с вариациями ключевых адаптивных фенотипических признаков, таких как время цветения. Взятые вместе, наши результаты предполагают, что определенные варианты длины STR обеспечивают преимущества при определенных биотических или абиотических условиях и, таким образом, играют важную роль в облегчении адаптации.В более широкой перспективе это первое STR-профилирование полногеномной популяции нечеловеческого организма обеспечивает основу для аналогичного анализа механизмов, управляющих адаптацией, у других организмов.

    Результаты

    Обширные вариации длины STR в образцах A. thaliana в дикой природе

    Чтобы охарактеризовать простые повторы в A. thaliana , мы исследовали вариации 18835 моно-, ди- и три-STR в 1041 A. thaliana wild образцов, представляющих в значительной степени его распространение в Северном полушарии (рис. 1а).Выравнивание коротких считываний Illumina из образцов эталонного генома A. thaliana (образец Columbia-0) выявило огромные вариации, которые, вероятно, недооцениваются, поскольку считывания секвенирования, вероятно, были слишком короткими для захвата самых длинных вариантов. Более того, недостаточный охват секвенированием для некоторых образцов сделал невозможным вариантное обозначение всех STR-локусов во всех образцах, а некоторые образцы не имели чтения, совместимые с инструментом для выравнивания. Тем не менее 11665 STR-локусов (65.1%) были определены как изменчивые на основании частоты основного аллеля (MAF ≤ 0,9, количество названных вариантов образцов ≥ 25). На процент переменных STR сильно влиял геномный контекст и был ли STR моно-STR, ди-STR или три-STR (рис. 1d). В целом, моно- и ди-STR демонстрируют большое количество вариантов STR со средним числом аллелей 10 и 11 соответственно. Было обнаружено, что количество аллелей tri-STR намного ниже, в среднем 4 (рис. 1c). По сравнению с SNP, совершенно разные частотные спектры аллелей STR иллюстрируют дополнительное генетическое разнообразие, которое необходимо учитывать, чтобы понять полную генетическую изменчивость в популяции (рис. 1b).Примечательно, что распределение частот основных аллелей для tri-STR имеет длинный хвост, поскольку значительное количество локусов tri-STR (n = 2138) считалось вариабельным в общей популяции, из которых 758 располагались в кодирующей ДНК. В интронах, промоторах, 3’UTR и межгенных областях вариабельные STR составляют самую большую группу, тогда как неизменяемые STR в основном обнаруживаются в 5’UTR и кодирующей последовательности ДНК. Кроме того, мы обнаружили, что три-STR, присутствующие в кодирующей последовательности, кодируют аминокислотные гомополимерные участки в основном глутаминовых кислот (E) и серинов (S), в то время как высокие фракции вариабельных STR были обнаружены в фенилаланине (F), аспаргине (N) и глутамине. (Q) тракты с 52%, 48% и 38% вариабельных локусов (Рисунок 1e).Интересно, что было показано, что белки с определенными гомополимерными участками, такими как участки Q, E и F, имеют более высокую, чем в среднем, связность в белковых сетях, что указывает на то, что такие участки являются функциональными медиаторами взаимодействий, либо взаимодействуя напрямую, либо облегчая взаимодействия между домены 14 .

    Рис. 1. Вариации длины моно-, ди- и три-STR

    в популяции A. thaliana . а. Распределение отобранных образцов. г. График распределения, показывающий частоты основных аллелей для SNP и STR. Обратите внимание, что по оси ординат - логарифм 10 в масштабе. г. График оценки плотности ядра, показывающий количество вариантов для моно-, ди- и тринуклеотидных STR. г. Гистограмма, показывающая количество переменных и неизменяемых STR в их геномном контексте. Мы определили переменные STR-локусы как локусы с частотой основного аллеля менее 0,9 в исследуемой популяции. e. Гистограмма, показывающая количество вариабельных и неизменяемых тринуклеотидных STR-локусов, сгруппированных гомополимерным трактом аминокислот, которые они кодируют.

    Большинство STR-локусов коррелируют с условиями окружающей среды.

    В качестве следующего шага мы рассмотрели ассоциации между вариантами STR и заметно различающимися средами, в которых были взяты образцы. Это было исследовано путем тестирования, была ли объединенная длина обоих аллелей STR-локусов (STR-дозировка) среди различных образцов A. thaliana линейно коррелировала с переменными окружающей среды, представляющими их местную среду обитания (дополнительный рисунок 1). Для этого мы использовали линейные модели смешанного эффекта со случайной структурой популяции, как описано в разделе «Методы».Переменные окружающей среды состояли из 19 производных показателей температуры, солнечной радиации, осадков и влажности. После поправки Бенджамини-Хохберга для множественного тестирования 64,3% локусов дали значимые ассоциации по крайней мере с одной из 19 переменных окружающей среды. Чтобы оценить результаты испытаний, мы построили теоретическое распределение значений p , распределение значений p для контроля, где длины STR были перемешаны между образцами, и наблюдаемое распределение значений p .Результирующий график квантиль-квантиль (QQ) показывает, что наблюдается сильная инфляция значений p в наблюдаемых данных по сравнению с контролем и теоретическими значениями p , и, таким образом, статистическая поддержка отклонения нулевой гипотезы об отсутствии связи (рис. 2а). ). Графики QQ для каждой переменной окружающей среды показывают, что «сезонность температуры» - мера колебаний температуры в течение года - имеет самое сильное отклонение между наблюдаемым распределением значений p и ожидаемым распределением (дополнительный рисунок 2).Чтобы проверить, обогащены ли гены с STR, ассоциированными с местом обитания, конкретными функциями, мы выполнили анализ обогащения онтологии генов (GO) и анализ обогащения пути KEGG. Было обнаружено, что связывание ДНК, связывание с белками и активность протеинкиназы значительно расширяют молекулярные функции. Что касается биологических процессов, гены, как правило, связаны с развитием растений и гормональными реакциями (рис. 2b). Примечательно, что более 150 генов участвуют в биосинтезе вторичных метаболитов, соединений, которые в основном служат защитой от биотического стресса, такого как хищничество.

    Рис. 2.

    Изменение длины STR связано со средой обитания. а. Вверху слева: график квантиль-квантиль (QQ) полногеномных ассоциативных тестов, моделирующих длину STR как ответ на различия в среде обитания. Красная линия показывает наблюдаемые значения p , серые точки - значения p перетасованных элементов управления, а линия показывает ожидаемое распределение значений p на основе количества выполненных тестов. Коробчатые диаграммы показывают связи между дозировкой STR и переменными окружающей среды для восьми основных ассоциаций STR-местообитаний генных STR.WEL2 участвует в движении хлоропластов для оптимизации фотосинтеза, TK1B представляет собой тимидинкиназу, AT1G03440 представляет собой белок семейства лейциновых повторов (LRR), CASP может участвовать во внутригольджи-транспорте, AT4G32590 представляет собой ферредоксин-подобный белок, AT5G49780 представляет собой белок семейства LRR. Белок семейства богатых лейцином повторов (LRR), ACO3, является митохондриальной аконитатгидратазой и способствует устойчивости к окислительному стрессу. По оси ординат сезонность температуры дана как стандартное отклонение годовых C ° * 100, солнечная радиация - в МДж м -2 , а давление пара - в кПа. г. Онтология генов (GO) и обогащение пути KEGG генов STR, ассоциированных с местом обитания. BP: биологический процесс, MF: молекулярная функция. Звездочка означает, что «биосинтез сесквитерпеноидов и тритерпеноидов» был единственным путем KEGG, остававшимся статистически значимым после поправки на множественное тестирование. По оси абсцисс указано количество генов, связанных с соответствующим термином GO или путем KEGG. Для биологических процессов показаны 20 лучших обогащенных терминов, отсортированных по значению p .Чтобы избежать использования самых общих терминов, показаны только термины АД, связанные менее чем с 500 генами. Избыточные условия MF не показаны. Полный список терминов доступен в дополнительных данных.

    STR, кодирующие белок, перекрываются с предсказанными функциональными сайтами.

    Для дальнейшего исследования степени биологической связи между генами со связанными с местом обитания STR в кодирующей последовательности, мы проверили обогащение физических взаимодействий между белками, кодируемыми этими генами. Мы обнаружили, что белки имеют тенденцию структурно взаимодействовать друг с другом больше, чем можно было бы ожидать случайно, по сравнению с известным A.thaliana (тест обогащения выполнен через веб-службу STRING v10.5, p , значение: 1.05.e −14 ). Удивительно, но почти 80% STR, кодирующих аминокислоты, имели вариацию длины, которая коррелировала с местом обитания. Чтобы выяснить, могут ли такие STR иметь функциональный эффект, мы исследовали, где они расположены по отношению к структуре белка. Мы обнаружили, что распределение STR-положений в белках напоминало перевернутую колоколообразную кривую, наклоненную вправо, что указывает на селективное расположение на концах белка (дополнительный рисунок 3).Кроме того, мы обнаружили умеренную чрезмерную представленность STR в последовательностях сигнальных и транзитных пептидов, как аннотировано консорциумом UniProtKB / Swiss-Prot (дополнительный рисунок 3). В доменах мы обнаружили, что STR недостаточно представлены, хотя и заметно присутствуют в доменах протеинкиназ (дополнительный рисунок 3). Tri-STR кодируют гомополимеры аминокислот, которые, как сообщается, накапливаются в неупорядоченных областях белка, которые не образуют стабильную структуру 15 . Поскольку неупорядоченные области могут играть важную роль во взаимодействиях белков 16,17 , мы проверили обогащение STR предсказанными сайтами взаимодействия белок-белок, белок-ДНК и белок-РНК (PPI, DPI и RPI) в неупорядоченных областях.Два из используемых нами инструментов прогнозирования PPI, DisoRDPbind и ANCHOR, обнаруживают нестабильные области, которые, вероятно, будут стабилизированы, если будут связаны с глобулярным белком. Третий инструмент, MoRFpred, обнаруживает более короткие отрезки, которые могут быть стабилизированы за счет связывания с белком-партнером. Несмотря на разногласия по поводу степени статистического обогащения, DisoRDPbind и ANCHOR согласились с 214 сайтами PPI, которые имеют перекрывающиеся STR, и MoRFpred обнаружил 90 таких сайтов (рис. 3b). Один из сайтов был обнаружен в белке ELF3, где ранее было показано, что вариация длины STR влияет на возможность соединения с партнерами по взаимодействию 18 , оставляя поддержку нашему подходу.STR были статистически обогащены предсказанными сайтами взаимодействия ДНК-белок, но не сайтами связывания РНК-белка. Кроме того, мы сосредоточились на неупорядоченных гибких линкерах (DFL), поскольку такие области могут точно настраивать взаимодействия или расстояние между доменами белка 17,19 . Результаты DFLpred показали, что STR в 1,47 раза больше DFL. Взятые вместе, эти результаты подтверждают, что вариация длины в кодирующих STRs может настраивать функцию белка путем изменения взаимодействий белок-белок и белок-ДНК или влиять на структуру гибких линкеров внутри белков.Для дальнейшего изучения степени белок-белковых взаимодействий между белками с гомополимерными трактами, кодируемыми STR, где вариации длины были связаны со средой обитания, мы использовали geneMANIA, чтобы найти самую большую согласованную сеть этих белков и партнеров по взаимодействию (рис. 3а). Сеть взаимодействия состоит из множества кластеров белков, часто участвующих в одних и тех же процессах, таких как ремоделирование хроматина, регуляция развития и биотический стресс. Мы предполагаем, что кодирование вариации длины STR, влияющей на взаимодействия внутри таких кластеров, может приводить к изменениям на фенотипическом уровне, которые при определенных условиях окружающей среды обеспечивают селекционные преимущества.

    Рисунок 3.

    Сеть взаимодействия белков с вариацией длины кодирующего STR, связанной со средой обитания. а. Самая большая сеть межбелковых взаимодействий белков, кодируемых генами с STR в кодирующей последовательности (кружки), которые коррелируют со средой обитания. Партнеры по тесному взаимодействию, не обязательно с STR, имеют форму ромба. Белки с STR, перекрывающим прогнозируемый сайт белок-белкового взаимодействия, как согласовано с помощью инструментов прогнозирования DisoRDPbind и ANCHOR, имеют толстый контур или красный контур, если он прогнозируется MoRFpred.Плотно связанные подсети, как сообщает алгоритм кластеризации MCODE, окрашены и имеют увеличенный размер. Верхняя легенда дает информацию о биологических процессах или других общих характеристиках кластеров, основанную на ручном утверждении через ThaleMine. г. Диаграмма VENN, показывающая количество перекрытий между STR и сайтами белок-белкового взаимодействия с использованием трех различных инструментов прогнозирования.

    Сотни STR, связанных с экспрессией гена

    Для дальнейшего рассмотрения функциональных аспектов вариабельности STR мы проверили, влияют ли различия в длине STR на экспрессию генов.Для этого мы использовали данные секвенирования РНК из ткани листьев розетки, собранные Kawakatus et al. 11 . Требовалось, чтобы STR находились на расстоянии не более 500 п.н. от целевого гена, который должен захватывать большинство генных STR. Что касается тестов на ковариацию с переменными окружающей среды, отклонение между наблюдаемым распределением значений p и ожидаемыми значениями p при отсутствии связи было высоким, что видно из графика QQ (рис. 4a). 399 цис-STR имели варианты длины, ко-варьирующие со значениями экспрессии генов (далее называемые eSTR).Большинство eSTR были локализованы внутри транскрипта, то есть в CDS, интронах и UTR (рис. 3b). Статистически значимого смещения в направлении эффекта между дозировкой STR и экспрессией гена не было (тест × 2 : p = 0,073). Этот результат подтверждает роль STR в регуляции экспрессии генов в зависимости от длины, как показано у людей Gymrek et al. 20 посредством анализа транскриптомов лимфобластов человека 20 .

    Рисунок 4.

    Связь между STR и экспрессией генов. а. График QQ результатов eQTL с максимальным расстоянием между STR и целевым геном 500 п.н. г. Направление эффекта, предсказанное линейными моделями, сгруппированными по геномному контексту. г. Процент значимых ассоциаций для каждой категории STR, сгруппированных по геномному контексту. г. Коробчатые диаграммы, показывающие связи между выбросами, помеченными в a. PUX11, вероятно, действует в пути конъюгации убиквитина, AT1G80555 представляет собой изоцитрат / изопропилмалатдегидрогеназу, AT4G14840 и AT5G08010 не охарактеризованы, а ARI1 может действовать как убиквитин-лигаза E3.

    Длина STR зависит от фенотипических признаков

    Существует высокая степень фенотипической изменчивости среди образцов A. thaliana , и мы предположили, что некоторые из этих вариаций могут быть отнесены к вариации длины STR. Используя экспериментальные данные, депонированные в общедоступной базе данных фенотипов A. thaliana (https://arapheno.1001genomes.org), мы регрессировали 225 измерений фенотипических признаков по длинам STR. Фенотипические признаки можно в общих чертах разделить на измерения концентрации метаболитов, концентрации ионов в различных тканях, времени цветения (FT), особенностей развития и устойчивости к болезням.Поразительно, что мы обнаружили, что вариация длины STR в пределах 1202 генов коррелировала с измерениями времени цветения образцов. Графики QQ с результатами полногеномных ассоциаций со временем цветения и двумя другими признаками показаны на рисунке 5a. Пример FT-ассоциированного STR-локуса включает tri-STR, присутствующий в кодирующей области AGL65 , гена, который, как известно, необходим для созревания пыльцы 21 (рис. 5a-b, в середине). Примеры ассоциаций с другими признаками включают корреляцию между длиной STR в 5'UTR WAX2 , белком, участвующим в производстве воска кутикулы 22 , и количеством тлей, питающихся растением (рис. 5a-b. , верно).Отметим, что последняя ассоциация не прошла корректировку при многократном тестировании. Другим примером является ген IP5P7 , который функционирует в рамках устойчивости к солевому стрессу 23,24 и имеет интронную вариацию длины STR, коррелирующую с концентрацией натрия в листьях (рис. 5a-b, слева). Взятые вместе, эти результаты подтверждают, что изменение длины STR может облегчить адаптацию к микробиологическим средам обитания, например, когда цвести, как справляться с различными концентрациями соли и присутствием травоядных.

    Рисунок 5.

    STR и фенотипические вариации. а. Пример графиков квантиля-квантиля (QQ) для значений p , полученных в результате теста ассоциации с тремя различными характеристиками (из 225 выполненных в общей сложности). Выделены главные гены, основанные на значении p связанной STR. IP5P7 влияет на устойчивость к солевому стрессу 23,24 , известно, что AGL65 участвует в созревании пыльцы 21 , CYCD2-1 представляет собой белок клеточного цикла 25 , GL1 и GL2 участвуют в образовании трихомов 26,27 , AT2G24600 представляет собой белок семейства анкириновых повторов с неизвестной функцией, ARAC6 может участвовать в контроле клеточной полярности 28 , а WAX2 участвует в производстве воска кутикулы 22 . г. Коробчатые диаграммы, показывающие связи между дозировкой STR в выделенных генах из графиков QQ и тестируемыми признаками.

    Discussion

    Накапливаются доказательства того, что вариабельность длины STR может влиять на регуляцию генов и функцию белков и тем самым влиять на фенотипические вариации. В свою очередь, это может обеспечить быструю адаптацию к определенным режимам отбора. Опубликованные примеры вариации STR в связи с конкретными генами варьируются от вариаций адаптивной фазы у бактерий 29 , контроля флокуляции у дрожжей 4 , поддержания циркадного ритма в ответ на температуру у Drosophila 30 до быстрой эволюции морфологии конечностей и черепа у псовых 31 .Здесь мы использовали общегеномный подход, чтобы исследовать степень эволюционного значения STR в дикорастущих образцах A. thaliana по всему миру в северном полушарии. Наши результаты демонстрируют, что вариация длины STR по всему геному глубоко связана с условиями окружающей среды, в которых растут образцы. Используя обширные знания, полученные в результате десятилетий функциональных исследований с использованием A. thaliana в качестве модельного растения, мы обнаружили, что STR, как правило, находятся в генах, участвующих в регуляции развития, защите от патогенов или путях гормонов растений, и все это важные особенности адаптация к микропредприятию.

    В более широкой перспективе природа вариации длины STR в некоторой степени напоминает характер эпигенетических изменений (эпимутаций) в том, что как вариации длины STR, так и эпимутации происходят в быстром режиме и являются обратимыми. Как вариации STR, так и эпимутации могут быть вовлечены в феномены, связанные с фенотипической пластичностью, а также в локальную адаптацию. Однако эволюционное влияние эпигенетики широко обсуждается 32,33 . В отличие от эпимутаций, STR-мутации, действующие на уровне ДНК, наследственно стабильны и, как показывают наши результаты, могут влиять на белковые взаимодействия, а также на регуляцию генов.Таким образом, функциональные воздействия вариаций STR намного превышают регулирующие эффекты эпигенетики. Основываясь на наших выводах, мы пришли к выводу, что быстро мутирующие STR, расположенные в функционально важных сайтах, резко расширяют возможные фенотипические результаты белок-белковых и белок-генных сетей, включая регуляцию генов, на которую может воздействовать отбор. Учитывая высокую частоту мутаций длины STR, важным выводом является то, что адаптация к новым средам обитания или к изменчивой среде может происходить быстрее, чем могут позволить только точечные мутации (SNP).Еще один уровень сложности добавлен STR-управляемой экспрессией генов, как представлено здесь и в других исследованиях 13,20 , механизмы которой включают изменение связывания факторов транскрипции, влияние на стабильность / трансляцию РНК, ремоделирование хроматина и / или влияние на ДНК. паттерны метилирования 34,35,36 . Недавнее сообщение о том, что STR-экспансии могут влиять на сплайсинг генов 13 , может добавить дополнительный механизм к тому, как вариация длины потенциально формирует фенотипический ландшафт.Взятые вместе, эти результаты и разительно отличающийся спектр частот аллелей STR, отображаемый по сравнению с SNP, заставляет нас утверждать, что для полного понимания генетической изменчивости в популяции, которая может подпитывать адаптивную эволюцию, крайне важно учитывать вариацию длины STR. Кроме того, наши результаты подтверждают изменение нынешнего взгляда на STR как на нейтрально развивающиеся маркеры, которые иногда приводят к заболеваниям. В противоположность этой точке зрения, связь между STR и местной средой обитания, адаптивными фенотипическими признаками и экспрессией генов в сочетании с обширным перекрытием с предсказанными функциональными сайтами предполагает, что вариация длины STR является мощной эволюционной силой.Поскольку STR являются неотъемлемой частью геномов, мы считаем, что эти горячие точки мутаций способствуют адаптации не только к мелким сорнякам, но и по всему Древу Жизни.

    Методы

    STR-вариант, вызывающий

    Мы использовали lobSTR 37 (v. 3.0.2) для сопоставления необработанных считываний, произведенных консорциумом генома 1001 10 , с эталонным геномом Arabidopsis TAIR10 (Arabidopsis Information Resource 10). 38 . Программа поиска тандемных повторов 39 (TRF) была запущена на эталонном геноме со стандартными параметрами, за исключением того, что «оценка» была установлена ​​на 30.Мы ограничили наш анализ моноди- и тринуклеотидными STR. Выходные данные TRF (.dat) сообщали геномные координаты каждого STR. Обратите внимание, что СПО, отправленные TRF, могут быть прерваны. Увеличение параметра «оценка» приводит к более высокой чистоте обнаруженных STR, но увеличивает длину, необходимую для оценки последовательности как STR. Мы не хотели исключать более короткие повторы, поскольку STR с меньшим количеством единиц также могут быть интересны с биологической точки зрения. В качестве входных данных для lobSTR мы использовали все необработанные считывания, отправленные консорциумом генома 1001 в архив SRA 6 , извлекая последовательности FASTA из файла.sra с помощью инструментария SRA (v. 2.7.0, fastq-dump, с параметрами: --split-files, --fasta 0). Мы создали специальный индекс TAIR10, используя для этой цели скрипты Python lobSTR (v.2.7.10) (Python Software Foundation, https://www.python.org/) (lobstr_index.py и GetSTRInfo.py). Следовательно, чтения из образцов были выровнены по локусам, указанным TRF. Полученные файлы BAM были отсортированы с помощью samtools (v. 1.3.1) и объединены с помощью bamtools (v. 2.3.0). Объединенные файлы BAM служили входными данными для программы lobSTR 'allelotype', применяя модель шума заикания PCR, которая следует распределению lobSTR, которое соответствует данным чтения Illumina.Файл формата вызова вариантов (.vcf), созданный с помощью 'allelotype', был проиндексирован с помощью tabix (v. 0.2.6), отсортирован с помощью VCFtools 40 (v. 0.1.11) и аннотирован с помощью BCFtools (часть SAMtools 41 ). ) (v. 1.3). В аннотации присвоено имя гена строке в файле VCF, если повтор был обнаружен в гене (на основе аннотации гена TAIR10 GFF). Мы отметили, что STR, перекрывающие другие STR, могут привести к случаям, когда «аллелотип» не может определить происхождение обнаруженной вариации.

    Фильтрация наборов данных и разбиение на подмножества

    Чтобы свести к минимуму ложные варианты, которые могут возникнуть из-за ошибок секвенирования, мы сохранили только варианты длины, поддерживаемые как минимум пятью чтениями. Локусы STR были разделены на вариабельные (частота основного аллеля, или MAF ≤ 0,9) и неизменные (MAF ≥ 0,9) STR. Здесь мы включили только STR с обращениями по крайней мере от 25 образцов, так как этот размер выборки должен дать точные оценки MAF для STR 42 . Для анализа ассоциаций мы не требовали, чтобы размер выборки для каждого вызова STR был ≥ 25, но чтобы уменьшить количество тестов и, таким образом, увеличить мощность обнаружения истинных ассоциаций, мы проанализировали только STR с MAF ≤ 0.9. Мы преобразовали TAIR10_GFF3_genes.gff, полученный из TAIR, в файл BED и использовали pybedtools 43 (оболочка BEDTools 44 ), чтобы найти совпадения между STR и функциями, аннотированными в файле GFF. Мы требовали, чтобы вся STR содержалась внутри функции. STR, отсутствующие в характеристиках, описанных в GFF, были определены как межгенные. STR, охватывающие несколько функций (например, как межгенную область, так и 5’UTR), были обозначены как «Spanning». Мы определили STR в пределах 500 п.н. выше гена как находящиеся в промоторе этого гена, основываясь на оценках A.thaliana длиной промоторов от Korcuc et al. 45 .

    Анализ характеристик белка

    Мы извлекли все проанализированные данные по белку A. thaliana из UniProtKB / SwissProt 46 (загружено 7 августа 2017 г.) и протестировали на перекрытие между выходными данными TRF, полученными при кодирующей последовательности ДНК из TAIR, и функциями. в GFF. Чтобы исследовать, были ли STR обогащены внутренне неупорядоченными регионами (IDR), функция, не оцениваемая кураторами UniProtKB / SwissProt, мы загрузили прогнозы протеомного расстройства TAIR10 из d2p2 47 и протестировали на перекрытие между STR и прогнозируемыми IDR.Мы использовали DisoRDPbind 48 для прогнозирования сайтов взаимодействия IDR в отношении белков, ДНК и РНК. Пересечения между STR-локусами и сайтами взаимодействия количественно оценивали с помощью pybedtools. В дополнение к DisoRDPbind мы использовали ANCHOR 49 и MoRFpred для прогнозирования межбелкового взаимодействия. ANCHOR обнаруживает нестабильные сайты, которые, по прогнозам, будут стабильными при связывании с глобулярным партнером. MoRFpred предсказывает короткие области связывания, расположенные в более длинных IDR, которые связывают белки-партнеры посредством переходов от беспорядка к порядку.Для прогнозирования неупорядоченных гибких линкеров мы использовали DFLpred 50 . Мы провели тест перестановки для каждого набора перекрытий, чтобы определить, было ли количество перекрытий значительно отличаться от ожидаемого при случайном позиционировании STR. Для этой цели использовался модуль randomstats в pybedtools, который генерирует оценочное значение p на основе выбранного количества перестановок (при n = 1000 нижний предел оценочного значения p равен 0,001).

    Вывод структуры популяции

    Чтобы получить наилучшее обозначение группы с поправкой на структуру популяции, мы провели анализ главных компонент на основе SNP и STR.В PCA на основе STR мы использовали локусы 1971 года, где по крайней мере 70% образцов были названы вариантами. Недостающим значениям была дана средняя длина STR. В PCA на основе SNP мы использовали 50 000 случайных SNP из анализа SNPeff, проведенного консорциумом 1001 Genomes Consortium 10 . Мы оценили, насколько хорошо PCA на основе STR повторяет PCA на основе SNP путем визуального осмотра (дополнительный рисунок 5). Мы обнаружили, что пять групп, Италия / Балканы / Кавказ, Испания, Центральная Европа, Западная Европа и «смешанные», образовали общий кластер в СПС на основе STR, и объединили их в одну группу.Наши последние шесть групп состояли из объединенной группы, Германии, Азии, Южной Швеции, Северной Швеции и реликвий.

    Моделирование среды обитания

    Перед моделированием мы удалили чтение из образцов, которые в настоящее время находятся в конвейере проверки из-за возможных путаниц во время отбора образцов 51 . Мы добыли данные об окружающей среде (производные меры температуры, осадков, солнечной радиации и влажности) из Worldclim 2.0 (www.worldclim.org; биоклиматические переменные с разрешением 2,5 угловых минуты 52 ) на основе координат каждого образца (с ~ 10 км точность).Для каждого STR-локуса мы проверили, насколько хорошо переменные среды предсказывают изменение длины STR. Для этого мы построили модели линейного смешанного эффекта (LME) с объединенной длиной STR обоих аллелей для каждого STR-локуса (дозировка STR), смоделированная значениями каждой переменной-предиктора (которых было 19, после удаления наиболее коррелированных переменных). ). Тесты проводились с использованием пакета R «nlme» (версия 3.1, параметры по умолчанию) 53 .

    Моделирование экспрессии генов

    Мы использовали нормализованные данные профилирования РНК-seq листьев розетки из 727 A.thaliana образцов 11 . Из них мы получили данные вызова вариантов STR из 665. Используя MatrixEQTL 54 , мы смоделировали экспрессию с использованием аддитивных линейных моделей, где мы проверили значимость дозировки STR на экспрессию генов. Мы учли структуру населения, включив ранее определенные группы в качестве ковариаты.

    Онтология генов и белковые сети

    Мы использовали ThaleMine 55 для проверки обогащения терминов GO. Для теста на обогащение межбелкового взаимодействия мы использовали STRING 56 .Для рисования белковых сетей мы использовали Cytoscape 57 с надстройкой GeneMANIA 58 и загрузили список генов, включающий все гены с кодирующей STR, связанной с местом обитания. Мы искали не более 20 дополнительных партнеров по взаимодействию для каждого гена на основе автоматического взвешивания. Для обнаружения плотных кластеров в сети мы использовали надстройку MCODE 58,59 Cytoscape.

    Фенотипы

    Мы собрали данные о фенотипах для 225 различных экспериментов из базы данных AraPheno (https: // arapheno.1001genomes.org 60 ). Для измерения количества дней до цветения при 10 ° C и 16 ° C были доступны данные по всем образцам, секвенированным в рамках проекта 1001 Genomes Project. Для других фенотипов количество образцов с измерениями фенотипа составляло от 198 до 57 образцов. Мы протестировали влияние дозы STR на каждый STR-локус в качестве предиктора фенотипа с использованием линейных моделей смешанного эффекта. Ранее определенные группы использовались в качестве случайного эффекта для контроля структуры населения. Тесты проводились с использованием пакета R «nlme» (v.3.1, параметры по умолчанию) 53 .

    Взносы

    W.B.R. и J.B.K. внес равный вклад в эту работу.

    K.S.J. и M.A.B. задумал проект. О.К.С. и С.Дж. дал техническую поддержку и концептуальные советы. W.B.R. и J.B.K. спроектировал и провел все анализы. W.B.R. и J.B.K. написал рукопись при участии всех авторов.

    Заявление о конкурирующих интересах

    Авторы заявляют об отсутствии конкурирующих интересов.

    Благодарности

    Работа финансировалась за счет грантов Исследовательского совета Норвегии (грант RCN 251076) К.С.Дж. Большая часть вычислительной работы была выполнена в суперкомпьютерном кластере Abel (Норвежский метацентр для высокопроизводительных вычислений (NOTUR) и Университет Осло), которым управляет группа исследовательских вычислительных услуг в USIT, Департамент информационных технологий Университета Осло. Мы благодарим The 1001 Genomes Project за предоставление данных секвенирования, использованных в этом исследовании. Авторы также хотели бы поблагодарить следующих людей за их вклад: Кьетила Войа, Александра Хубина, Дэнни Хичкока, Лекса Недербрагта (Университет Осло) и Рюдигера Саймона (Университет Генриха Гейне в Дюссельдорфе).

    Белковый комплекс ALBA считывает генные R-петли для поддержания стабильности генома у Arabidopsis

    ВВЕДЕНИЕ

    R-петля - это встречающаяся в природе структура хроматина, состоящая из гибрида ДНК-РНК и смещенной одноцепочечной ДНК (оцДНК). R-петли распространены у бактерий, дрожжей, животных и растений и играют решающую роль в регуляции экспрессии генов, структуры хроматина и репарации ДНК ( 1 - 4 ). У дрожжей образование R-петли стимулирует дефекты репликации в транскрибируемых областях ( 5 ).У млекопитающих образование R-петли способствует терминации транскрипции ( 6 , 7 ), удерживанию гетерохроматина гистон-лизинметилтрансфераз ( 8 ) и митотической сегрегации хромосом ( 9 ). У растений R-петли регулируют экспрессию генов и развитие растений ( 10 - 12 ).

    Однако R-петли представляют угрозу для стабильности генома, потому что смещенная оцДНК чувствительна к нуклеотидным изменениям и разрыву цепи ( 13 , 14 ).R-петли также являются структурными барьерами, которые нарушают репликацию ДНК ( 15 ) и в конфликтах транскрипции-репликации могут вызывать повреждение ДНК и нестабильность генома ( 16 - 18 ). Ферменты рибонуклеаза (РНКаза) H и геликазы РНК-ДНК растворяют R-петли и предотвращают повреждение ДНК и геномную нестабильность, вызванные устойчивым образованием R-петли ( 10 , 19 - 21 ). Белок репликации А (RPA), связывающий оцДНК белок, функционирует как датчик R-петель для рекрутирования РНКазы h2 для удаления R-петель и подавления геномной нестабильности в линиях клеток человека ( 19 ).Ряд белков, таких как Npl3 ( 22 ) в дрожжах и комплекс THO-TREX ( 23 ) и BRCA2 ( 24 ) в клетках человека, предотвращают образование или стабилизацию R-петли и тем самым защищают стабильность генома. Недавняя полногеномная карта повреждений ДНК, индуцированных R-петлей у дрожжей, показала, что даже с R-петлями многие области генома не подвержены повреждению ДНК ( 25 ), предполагая, что механизмы, кроме уменьшения R-петли уровни существуют для защиты ДНК от повреждений.

    Белки Alba - это небольшие димерные ДНК / РНК-связывающие белки, действие которых лучше всего охарактеризовано у архей ( 26 ). Структурные и молекулярные исследования показали, что димеры Alba связываются с ДНК независимым от последовательности и кооперативным образом ( 27 , 28 ). При низком соотношении белок-ДНК димеры Alba взаимодействуют с димерами Alba на соседнем дуплексе ДНК и соединяют два дуплекса ДНК, в то время как при высоком соотношении белок-ДНК димеры Alba связываются бок о бок с дуплексами ДНК и укрепляют ДНК ( 29 ) .Роль белков Alba в формировании архитектуры хроматина напоминает роль гистонов. Белки архей Alba связывают РНК со сродством, аналогичным обнаруженному для ДНК ( 30 ), и могут регулировать процессинг РНК ( 31 ). Исследования на других организмах показали, что белки Alba также регулируют стабильность РНК ( 32 ) и трансляцию белков путем связывания с РНК ( 33 , 34 ). Однако функции белков Alba у растений и млекопитающих до сих пор неясны.

    Здесь мы охарактеризовали функции двух белков ALBA Arabidopsis (AtALBA1 и AtALBA2). AtALBA1 и AtALBA2 обладают разными свойствами связывания нуклеиновых кислот, но они колокализуются и образуют гетеродимеры в ядре. На основе их активности мы обнаружили, что in vitro они могут связывать структуры R-петли. Они предпочтительно связываются с генными областями с активными эпигенетическими метками зависимым от R-петли образом in vivo. Истощение AtALBA1 или AtALBA2 приводит к гиперчувствительности растений к агентам, повреждающим ДНК, поскольку R-петли, на которые нацелены AtALBA1 и AtALBA2, теряют защиту.Наши результаты показывают, что AtALBA1 и AtALBA2 являются считывателями R-петли, которые обеспечивают стабильность генома.

    РЕЗУЛЬТАТЫ

    AtALBA1 и AtALBA2 связывают разные типы нуклеиновых кислот

    Согласно филогенетическому анализу, геном Arabidopsis кодирует шесть белков Alba, принадлежащих к двум различным подсемействам ( 31 ). Члены Rpp20-подобного подсемейства, включая AtALBA1, AtALBA2 и AtALBA3, имеют только консервативный домен Alba, в то время как члены Mdp2-подобного подсемейства, включая AtALBA4, AtALBA5 и AtALBA6, имеют дополнительный RGG (Arg-Gly-Gly) повторы, которые часто встречаются в белках, регулирующих транскрипцию, сплайсинг и трансляцию (рис.S1).

    Чтобы исследовать функции белков ALBA, мы сначала начали анализировать аффинность связывания AtALBA1 и AtALBA2, двух простейших белков в семействе генов, с различными формами нуклеиновых кислот. Для этой цели мы очистили рекомбинантные формы дикого типа и мутантные K30E AtALBA1 и AtALBA2 (рис. S2A). K30 соответствует положению одного из критических остатков связывания ДНК, обнаруженных в архейных белках Alba (K20 в ssoAlba1 и K11 в AfAlba2), и консервативен в AtALBA1, AtALBA2 и многих белках Alba у других видов (рис.С2Б) ( 35 , 36 ). Очищенный AtNDX также получали в качестве положительного контроля ( 12 ). Затем мы выполнили анализ сдвига электрофоретической подвижности (EMSA) с использованием различных субстратов (рис. S2C). Наши результаты показали, что AtALBA1-His дикого типа связывается с одноцепочечной РНК (оцРНК) и гибридами ДНК-РНК (рис. 1А). Напротив, AtALBA2-His дикого типа связывается с оцДНК и двухцепочечной ДНК (дцДНК) (рис. 1В). В соответствии с предыдущими результатами, AtNDX может связывать оцДНК (рис. S3A). Поскольку AtALBA1 и AtALBA2 связаны со всеми последовательностями нуклеиновых кислот, которые мы разработали (рис.S3, B к D и таблица S1), их связывание с нуклеиновыми кислотами считалось независимым от последовательности. Все наблюдаемые связывания можно было конкурировать с избытком холодного зонда, и связывание AtALBA1 с гибридами ДНК-РНК было чувствительным к расщеплению РНКазой H (фиг. S3, B-D), что указывает на специфичность связывания. Мутация K30E отменила связывающую активность AtALBA1-His и AtALBA2-His (рис. 1, A и B), предполагая, что остаток K30 важен для связывания белков Alba с ДНК, РНК и гибридами ДНК-РНК.Чтобы сравнить относительное сродство AtALBA1 и AtALBA2 к различным типам нуклеиновых кислот, мы количественно оценили их сродство с помощью Agilent 2100 BioAnalyzer. Наши результаты показали, что AtALBA1 и AtALBA2 обладают более высоким сродством к гибридам ДНК-РНК и дцДНК, соответственно, in vitro (рис. S3, E и F).

    Рис. 1 AtALBA1 и AtALBA2 связывают R-петли in vitro.

    ( A ) гель EMSA, демонстрирующий связывание AtALBA1 с оцРНК и гибридами ДНК-РНК. Различные меченные 5'-биотином субстраты (5 нМ) инкубировали с возрастающими концентрациями (25, 50 и 75 нМ) белка дикого типа AtALBA1 (дорожки 2–4) и 75 нМ мутантного белка AtALBA1 (K30E) (дорожка 5). ).( B ) Гель EMSA, демонстрирующий связывание AtALBA2 с оцДНК и дцДНК. Различные меченные 5'-биотином субстраты (5 нМ) инкубировали с возрастающими концентрациями (25, 50 и 75 нМ) белка дикого типа AtALBA2 (дорожки 2-4) и 75 нМ мутантного белка AtALBA2 (K30E) (дорожка 5). ). ( C ) Гель EMSA, демонстрирующий связывание AtALBA1 с искусственными R-петлями. Искусственный субстрат R-петли (5 нМ) с меченной 5'-биотином ДНК (1) или РНК (2) инкубировали с 75 нМ белком дикого типа AtALBA1. Субстраты R-петли инкубировали с РНКазой h2 в течение 0 и 10 минут.( D ) Гель EMSA, демонстрирующий связывание AtALBA2 с искусственными R-петлями. Искусственный субстрат R-петли (5 нМ) с меченной 5'-биотином ДНК (1) или РНК (2) инкубировали с 75 нМ белком дикого типа AtALBA2. Субстраты R-петли инкубировали с РНКазой H в течение 0 и 10 мин. Для EMSA было выполнено не менее трех биологических повторов, и показаны репрезентативные результаты.

    AtALBA1 и AtALBA2 совместно локализуются и образуют гетеродимеры в ядре

    Далее мы исследовали субклеточную локализацию AtALBA1 и AtALBA2.Мы временно экспрессировали C-концевой зеленый флуоресцентный белок (GFP) - помеченный AtALBA1 и AtALBA2 (AtALBA1-GFP и AtALBA2-GFP) в протопластах Arabidopsis . AtALBA1-GFP и AtALBA2-GFP наблюдались как в цитоплазме, так и в ядре (рис. S4A). Эти результаты были подтверждены экспериментами по субклеточному фракционированию с использованием трансгенных растений (рис. S4B). Как и белки Alba у других видов, AtALBA1 и AtALBA2 образуют гомодимеры и гетеродимеры, как было определено нашими анализами комплементации расщепленной люциферазы и коиммунопреципитации (рис.S4, C и D). Чтобы визуализировать паттерны ядерной локализации гомодимеров и гетеродимеров, образованных из AtALBA1 и AtALBA2, мы иммуноокрашивали AtALBA1-Myc и AtALBA2-Flag в гибридных растениях Col-0 и F1 от скрещивания ALBA1-Myc и ALBA2-Flag трансгенных растений. растения. AtALBA1 и AtALBA2 совместно локализованы примерно в 92% трансгенных ядер, как показано желтыми сигналами, возникающими в результате перекрытия зеленого и красного сигналов (рис. S4E). Никаких других сигналов, кроме сигналов 4 ', 6-диамидино-2-фенилиндола (DAPI), не было обнаружено во всех ядрах дикого типа (рис.S4E), что свидетельствует о специфичности окрашивания. Совместная локализация AtALBA1 и AtALBA2 согласуется с их гетеродимеризацией.

    AtALBA1 и AtALBA2 связывают R-петли in vitro

    Поскольку AtALBA1 и AtALBA2 взаимодействуют и потенциально гетеродимеризуются в ядре, и, основываясь на наших результатах EMSA, гетеродимеры должны быть способны связывать как гибриды ДНК-РНК, так и смещенную оцДНК в R -loops, мы предположили, что AtALBA1 и AtALBA2 являются белками, связывающими R-петлю. Чтобы проверить эту гипотезу, мы провели ЭМС с использованием искусственной подложки R-петли (рис.S2C). Наши результаты показали, что AtALBA1 и AtALBA2 связывают искусственные R-петли способом, чувствительным к обработке РНКазой H (рис. 1, C и D). Как и ожидалось, положительный контроль AtNDX также связывал R-петли, которые мы разработали (рис. S3A). Сравнение относительного сродства к R-петлям с использованием Agilent 2100 BioAnalyzer показало, что гетеродимеры AtALBA1 и AtALBA2 имеют большее сродство к R-петлям, чем только AtALBA1 или AtALBA2 (рис. S3G). Вместе эти результаты предполагают, что AtALBA1 и AtALBA2 могут связывать R-петли in vitro.

    AtALBA1 и AtALBA2 связывают R-петли in vivo

    Чтобы оценить возможность того, что AtALBA1 и AtALBA2 специфически распознают R-петли у растений, мы сначала выполнили иммунопреципитацию хроматина (ChIP) в сочетании с высокопроизводительным секвенированием (ChIP-seq) для идентификации геномные сайты, связанные с AtALBA1. В общей сложности 2146 пиков связывания были последовательно идентифицированы в двух биологических повторах AtALBA1 ChIP-seq, и 2060 генов связаны с этими пиками, что составляет примерно 4.63% из генов Arabidopsis (рис. S5A и таблица S2). Большинство этих пиков приходилось на генные области, и обогащение AtALBA1 наблюдалось по всему телу гена (рис. 2, A и B). AtALBA1 предпочтительно был обогащен генами короче 2 т.п.н. (рис. 2С). Анализ уровней модификаций гистонов в областях пиков показал, что связывание AtALBA1 в высокой степени совпадает с модификациями гистонов, характерными для активно транскрибируемых генов, включая h4K9Ac, h4K14Ac, h4K27Ac, ​​h4K4me2 и h4K4me3.Не было обнаружено корреляции между связыванием AtALBA1 и репрессивными гистоновыми метками, такими как h4K9me2 (рис. 2D). Соответственно, наши результаты иммуноокрашивания показали, что AtALBA1 и AtALBA2 не обогащены репрессивными доменами h4K9me1 (рис. 2E). Дальнейший анализ уровней экспрессии генов показал, что гены, связанные с пиком AtALBA1, имеют значительно более высокие уровни экспрессии, чем гены, не связанные с AtALBA1 (рис. S5B). Наши результаты показали, что AtALBA1 более склонен связывать активные гены.

    Инжир.2 AtALBA1 предпочтительно связывает участки тела гена с активными эпигенетическими метками in vivo.

    ( A ) Общее количество и геномное распределение пиков AtALBA1, идентифицированных с помощью ChIP-seq. ( B ) Считывает метагенные графики AtALBA1 ChIP-seq. TSS, сайт начала транскрипции; TTS, терминальный сайт транскрипции; -2 К и +2 К представляют собой 2 т.п.н. перед TSS и 2 т.п.н. ниже TTS, соответственно. Ось y показывает плотность чтения AtALBA1 ChIP-seq. ( C ) Распределение длины генов, связанных с AtALBA1.Ось y показывает количество генов. Ось x указывает длину генов. ( D ) Метагеновые графики уровней модификации гистонов на генах, связанных с AtALBA1. Ось и представляет плотность считывания ChIP-seq модификации гистона. ( E ) Взаимосвязь между связыванием AtALBA1 и AtALBA2 и репрессивными модификациями гистонов определяли с помощью иммуноокрашивания. AtALBA1-Flag и AtALBA2-Flag в трансгенных растениях окрашивали анти-Flag (красный).h4K9me1 был окрашен анти-h4K9me1 (зеленый). ДНК окрашивали DAPI (синий). Частота ядер, отображающих каждый межфазный узор, показана справа. Масштабная линейка 2,5 мкм.

    Чтобы определить, связывается ли AtALBA2 с одними и теми же участками хроматина, мы исследовали обогащение AtALBA1 и AtALBA2 в случайно выбранных генах, выполнив ChIP-количественную полимеразную цепную реакцию (qPCR). AtALBA2, как и AtALBA1, был обогащен всеми исследованными генами, связанными с AtALBA1, но не генами, не связанными с AtALBA1 (рис.S5C). Наши результаты предполагают, что AtALBA1 и AtALBA2 совместно занимают субнабор областей хроматина. AtALBA1-FLAG и AtALBA2-MYC не были обогащены связанными с AtALBA1 генами при использовании трансгенных растений AtALBA1-Flag и AtALBA2-Myc на фоне alba1-1alba2-1 , соответственно, что дает дополнительные доказательства гетеродимеризации AtALBA1 и AtALBA2 в целевых локусах. (рис. S5C).

    Затем мы проанализировали наличие или отсутствие R-петель в генах, связанных с AtALBA1, используя доступные данные о R-петле для всего генома в Arabidopsis ( 11 ).Мы обнаружили сильную положительную корреляцию между связыванием AtALBA1 и наличием R-петель (рис. 3А). В частности, было обнаружено, что 75,5% генов, связанных с AtALBA1, содержат R-петли (таблица S2). Гены, несущие как смысловые, так и антисмысловые R-петли (перекрывающиеся R-петли), значительно обогащены генами, связанными с AtALBA1 (рис. 3B). Чтобы еще раз подтвердить, что AtALBA1 и AtALBA2 специфически связывают R-петлю in vivo, мы провели эксперименты с ChIP после обработки РНКазой H. Наши результаты ChIP-qPCR показали, что связывание AtALBA1 и AtALBA2 со случайно выбранными генами было чувствительно к расщеплению РНКазой H (рис.3С). Напротив, на связывание не влияла обработка РНКазой III (фиг. S5D). Эти результаты предполагают, что AtALBA1 и AtALBA2 могут специфически распознавать R-петли in vivo.

    Рис. 3 Связывание AtALBA1 и AtALBA2 коррелирует с наличием R-петель.

    ( A ) Метагеновые графики уровней R-петли в генах, связанных с AtALBA1. Ось y показывает плотность чтения ssDRIP-seq. ( B ) Процент генов, связанных с AtALBA1, перекрывающихся со смысловыми, антисмысловыми и перекрывающимися (смысловыми и антисмысловыми) R-петлями.Было указано соотношение обогащения связанных с AtALBA1 генов, несущих перекрывающиеся R-петли, ко всем генам, несущим перекрывающиеся R-петли в геноме Arabidopsis . P Значение было рассчитано с помощью R из точного теста Фишера. ( C ) Ассоциация AtALBA1 и AtALBA2 с R-петлями, определенная с помощью ChIP-qPCR. Использовали трансгенные растения AtALBA1-Flag / alba1-1 и AtALBA2-Flag / alba2-1 . Экспрессия AtALBA1-Flag и AtALBA2-Flag находилась под контролем их соответствующих нативных промоторов.ChIP эксперименты проводились с антителом против Flag. Обработку РНКазой Н проводили перед перекрестным связыванием. Гены, перекрывающиеся со смысловыми, антисмысловыми и перекрывающимися R-петлями, были представлены красным, синим и желтым цветами соответственно. Межгенная область без образования R-петли выбирается в качестве отрицательного контроля. Две биологические копии дали очень похожие результаты. SE рассчитывались из трех технических повторений; * P <0,05, ** P <0,01, *** P <0.001 (двусторонний тест Стьюдента t ).

    Уровни R-петли не затронуты у мутантов

    alba

    Для изучения функций AtALBA1 и AtALBA2 в биологии R-петли мы получили мутанты по вставке перенесенной ДНК (Т-ДНК) для AtALBA1 и AtALBA2 ( рис. S6A). Эксперименты с обратной транскрипцией (ОТ) с ПЦР показали, что alba1-1 и alba1-2 имели полную потерю экспрессии мРНК AtALBA1 . Была обнаружена слабая полоса, соответствующая мРНК AtALBA2 в alba2-1 , но она была сдвинута вверх, что свидетельствовало о том, что произошло событие вставки нуклеотида (рис.S6, B и C). Секвенирование по Сэнгеру подтвердило вставку из 27 нуклеотидов во фланкирующую последовательность Т-ДНК в кодирующей последовательности (CDS) AtALBA2 (рис. S6D), которая вызвала вставку из девяти аминокислот в домен Alba AtALBA2 (рис. S6E) . Мутанты для AtALBA1 и AtALBA2 не проявляли явных фенотипов развития в нормальных условиях роста (рис. S6F).

    Затем мы проверили, влияют ли уровни R-петли у двойного мутанта alba1-1alba2-1 .Мы иммуноокрашивали ядра, выделенные из растений Col-0 и alba1-1alba2-1 , с использованием антитела S9.6 к R-петле. Аналогичные паттерны окрашивания наблюдались в ядрах каждого генотипа (фиг. S7A). Чтобы проанализировать уровни R-петли по всему геному в alba1-1alba2-1 , мы выполнили построение библиотеки на основе лигирования одноцепочечной ДНК после гибридной иммунопреципитации ДНК: РНК в сочетании с секвенированием следующего поколения (ssDRIP-seq) ( 11 ) . Наши результаты показали, что общие уровни R-петли и уровни R-петли в локусах, связанных с AtALBA1, в Col-0 и alba1-2alba2-1 сопоставимы (рис.S7, B - E и таблица S2). Вместе эти результаты предполагают, что AtALBA1 и AtALBA2 имеют минимальное влияние на стабильность R-петли. Поскольку они связываются с R-петлями in vitro и in vivo, AtALBA1 и AtALBA2 могут функционировать как считыватели R-петли, чтобы распознавать и связываться с R-петлями, связанными с генными областями в геноме Arabidopsis .

    AtALBA1 и AtALBA2 защищают генные R-петли от повреждения ДНК

    R-петли являются источником нестабильности генома ( 2 ). Защита генных областей R-петли от повреждения особенно важна.Хотя AtALBA1 и AtALBA2 не регулируют уровни R-петли, мы затем проверили, могут ли AtALBA1 и AtALBA2, как генные белки, связывающие R-петлю, защищать генные R-петли от повреждения ДНК. Одинарные и двойные мутанты Col-0 и alba обрабатывали с использованием или без добавления агента алкилирования ДНК метилметансульфоната (MMS). Сначала мы выявили очаги γh3AX путем иммуноокрашивания с использованием антитела против γh3AX. У мутантов Col-0 и alba без обработки MMS фокусы γh3AX практически не выявлялись (рис.S8A). Уровни очагов γh3AX были значительно увеличены у одиночных и двойных мутантов alba при обработке MMS (рис. 4, A и B). Паттерн очагов γh3AX у мутантов alba напоминает паттерн, индуцированный γ-облучением (рис. 4A и рис. S8B). Наши результаты показывают, что и AtALBA1, и AtALBA2 необходимы для поддержания стабильности генома. Во-вторых, мы провели RT-qPCR для определения уровней экспрессии RAD51 и BRCA1 , которые активируются в ответ на повреждение ДНК ( 37 , 38 ).Наши результаты показали, что уровни экспрессии RAD51 и BRCA1 были значительно увеличены у одиночных и двойных мутантов alba после обработки MMS (рис. S8C), и этот молекулярный фенотип может быть дополнен AtALBA1 или AtALBA2 . трансгены под контролем их нативных промоторов (рис. S8D). В-третьих, измерение роста растений путем измерения сырой массы растений показало, что одиночные и двойные мутанты alba были более чувствительны к MMS, чем растения Col-0 (рис.4С). Примечательно, что уровни экспрессии AtALBA1 и AtALBA2 были увеличены при лечении MMS (рис. S8E). Увеличение экспрессии AtALBA1 и AtALBA2 не привело к изменению паттерна локализации AtALBA1 и AtALBA2 после обработки MMS (рис. S8F). Чтобы определить, вызывает ли обработка MMS изменения уровней R-петли, вызывая высокую чувствительность мутантов alba к повреждению ДНК и индукцию экспрессии AtALBA1 и AtALBA2 , мы проанализировали уровни R-петли у растений с обработкой MMS и без нее ( инжир.S8G). Общие уровни R-петли остаются неизменными при лечении MMS, хотя мы не могли исключить возможность того, что уровни R-петли в определенных локусах изменяются при лечении MMS.

    Рис. 4 Истощение AtALBA1 или AtALBA2 приводит к гиперчувствительности растений к MMS.

    ( A ) Типичные микроскопические изображения, показывающие образование очагов γh3AX (зеленый) в Col-0, alba1-1 , alba1-2 , alba2-1 , alba1-1alba2-1 и alba1 -2alba2-1 растений, обработанных 50 м.д. MMS.Очаги γh3AX выявляли путем иммуноокрашивания с использованием антитела против γh3AX. Ядра окрашивали DAPI (синий). Масштабные линейки 5 мкм. ( B ) Коробчатые диаграммы, показывающие интенсивность сигнала фокусов γh3AX на ядро ​​для растений Col-0 и указанных мутантов. Интенсивность сигнала γh3AX анализировали с помощью программы ImageJ. Темная горизонтальная линия, срединная; края ящиков, 25-й (нижний) и 75-й (верхний) процентили; усы, минимальное и максимальное значения серого. Множественное сравнение было рассчитано с помощью Краскала-Уоллиса.Параметр α по умолчанию равен 0,05. Апостериорный тест использовал критерий наименьшего значимого различия Фишера. К методам корректировки относятся поправка Бонферрони и другие. ( C ) Свежая масса 14-дневных проростков Col-0 и указанных мутантных проростков, выращенных на среде 1/2 MS с добавлением 0 или 20 частей на миллион MMS. Статистически анализировали свежую массу 120 проростков. SE рассчитывали из трех биологических повторов; * P <0,05, ** P <0.01 (двусторонний тест Стьюдента t ). ( D ) Метаплот накопления γh3AX в областях, связанных с AtALBA1 (сплошные линии), в сравнении со случайно выбранными областями (пунктирные линии) в Col-0 и alba1-1alba2-1 после обработки MMS. ( E ) Рабочая модель роли AtALBA1 и AtALBA2 в биологии R-петли. AtALBA1 и AtALBA2 образуют гетеродимер или гетерополимер и связывают R-петли в генных областях с активными гистоновыми метками. Занимая R-петли, AtALBA1 и AtALBA2 защищают R-петли от повреждения ДНК и помогают поддерживать стабильность генома.

    Чтобы продемонстрировать прямую роль AtALBA1 и AtALBA2 в защите стабильности генома, мы затем проверили, происходит ли повреждение ДНК у мутантов alba на сайтах-мишенях AtALBA1 и AtALBA2. Мы выполнили γh3AX ChIP-seq с использованием MMS-обработанного Col-0 и alba1-1alba2-1 (рис. S8, H и I). Наши результаты показали, что области, связанные с AtALBA1, были обогащены сигналами γh3AX по сравнению со случайно выбранными областями (рис. 4D), а в alba1-1alba2-1 сигналы γh3AX были повышены по сравнению с Col-0 в областях, связанных с AtALBA1 ( Инжир.4D). Эти результаты предполагают, что области, связанные с AtALBA1, особенно уязвимы к повреждению ДНК и что AtALBA1 и AtALBA2 непосредственно защищают эти области от повреждения ДНК.

    ОБСУЖДЕНИЕ

    В этом исследовании мы обнаружили, что AtALBA1 и AtALBA2 являются читателями R-петли в Arabidopsis . Они образуют гетеродимеры и связывают подмножество R-петель в генных областях. Их связывание защищает генные области R-петли от повреждения (рис. 4E). Было обнаружено, что белки альба у архей и других организмов регулируют архитектуру хроматина, метаболизм РНК и трансляцию белков ( 31 ).У растений AtALBA1 и AtALBA2 эволюционировали, чтобы связывать R-петли и поддерживать стабильность генома.

    Уникальной характеристикой AtALBA1 и AtALBA2 является то, что они могут связывать гибрид ДНК-РНК и оцДНК, соответственно, и могут гетеродимеризоваться. Эта характеристика позволяет AtALBA1 и AtALBA2 связывать две части R-петель. Наши результаты EMSA и ChIP демонстрируют, что они связывают R-петли. AtALBA1 имеет более высокое сродство к гибриду ДНК-РНК, чем к оцРНК (рис. S3E). Таким образом, AtALBA1 предпочтительно распознает R-петли.Однако AtALBA2 имеет более низкое сродство к оцДНК, чем к дцДНК (рис. S3F). Чтобы специфически связать R-петли, может потребоваться привлечь ее к R-петлям с помощью AtALBA1. На фоне мутанта alba1-1alba1-2 AtALBA2 не обогащен генами, перекрывающимися с R-петлями (рис. S5C), что позволяет предположить, что AtALBA1 и AtALBA2 связывают R-петли как гетеродимеры. Это отличается от всех ранее идентифицированных факторов, связанных с R-петлей, которые нацелены только на одну часть R-петель. Например, в Arabidopsis локализованный в хлоропласте белок РНКазы h2 AtRNh2C расщепляет цепь РНК гибрида ДНК-РНК ( 10 ), а AtNDX связывает оцДНК R-петли на промоторе COOLAIR ( 12 ).В клетках человека многие белки взаимодействуют с гибридными частями ДНК-РНК R-петель ( 39 ).

    AtALBA1 и AtALBA2 связывают R-петли независимым от последовательности образом in vitro. Мы также не смогли найти консервативные последовательности ДНК для связывания AtALBA1 после биоинформатического анализа наших данных ChIP-seq. Однако AtALBA1 и AtALBA2 не связывают все R-петли в геноме Arabidopsis . Около трех четвертей из 2060 генов, связанных с AtALBA1, содержат R-петли. Таким образом, AtALBA1 связывает примерно 1500 R-петель, что соответствует небольшому подмножеству R-петель в геноме Arabidopsis (~ 47000 R-петель) ( 11 ).Более 90% связывания AtALBA1 находится в генных областях. Связывание AtALBA1 преимущественно связано с активными эпигенетическими метками. Кроме того, гены, несущие перекрывающиеся R-петли, значительно обогащены генами, связанными с AtALBA1. Однако механизмы, посредством которых AtALBA1 рекрутируется в R-петли с этими особенностями, остаются неясными. Мы предполагаем, что локальное окружение хроматина может быть важным для определения специфичности нацеливания AtALBA1.

    Функции AtALBA1 и AtALBA2 в биологии R-петли также уникальны, поскольку мы обнаружили, что уровни R-петли не затрагиваются у мутантов alba .В предыдущих исследованиях большинство, если не все факторы, связанные с R-петлей, регулируют экспрессию генов или стабильность генома посредством влияния на уровни R-петли. В Arabidopsis AtNDX регулирует экспрессию и цветение FLOWERING LOCUS C , стабилизируя структуру R-петли на промоторе COOLAIR ( 12 ). AtRNh2C вместе с AtGyrases поддерживает стабильность генома за счет ограничения образования R-петли и разрешения конфликтов прямой транскрипции-репликации в хлоропластах ( 10 ).В клетках человека РНКаза h2, использующая RPA в качестве сенсора R-петли, поддерживает стабильность генома за счет снижения уровней R-петли ( 19 ). Геликаза DXH9 способствует терминации транскрипции и предотвращает нестабильность генома за счет подавления R-петель ( 39 ).

    Хотя AtALBA1 и AtALBA2 не регулируют уровни R-петли, мы обнаружили, что AtALBA1 и AtALBA2 защищают клетки растений от повреждения ДНК. Наши результаты γh3AX ChIP-seq также показывают, что повреждение ДНК в alba1-1alba2-1 является результатом незащищенных R-петель, что позволяет предположить, что AtALBA1 и AtALBA2 напрямую предотвращают возникновение повреждений ДНК на R-петлях, которые они связывают.Хотя R-петли наиболее обогащены промоторами в человеческих и растительных клетках ( 11 , 40 ), преобладают генные R-петли, а когда эти R-петли не разрешены должным образом, геномная нестабильность разрывы) часто можно обнаружить ( 11 , 20 , 41 ). Более того, накопление R-петель в телах генов вызывает асимметричный мутагенез ДНК ( 42 ). Таким образом, особенно важно разрешить R-петли или защитить R-петли в телах генов.Поскольку AtALBA1 и AtALBA2 распознают подмножество генных R-петель, они служат специфическими хранителями генных R-петель. Тогда как же AtALBA1 и AtALBA2 выполняют свои защитные функции? В свете ранее задокументированной роли гистонов в защите от спонтанных мутаций оснований ( 43 ), окислительного повреждения ДНК ( 44 , 45 ) и радиационно-индуцированного повреждения ДНК ( 46 ), мы предлагаем, что: Занимая R-петли, AtALBA1 и AtALBA2 специфически защищают R-петли от повреждения ДНК (рис.4E). Наблюдается, что alba1-1 и alba2-1 имеют некоторые аддитивные эффекты на накопление γh3AX (рис. 4B). Мы предположили, что AtALBA1 и AtALBA2 могут также образовывать гомодимеры или гетеродимеризоваться с другими членами AtALBA, чтобы предотвратить возникновение повреждений ДНК в разных локусах. В будущем будет интересно изучить функции AtALBA3 по отношению к AtALBA6 и их целевую специфичность относительно AtALBA1 и AtALBA2.

    МАТЕРИАЛЫ И МЕТОДЫ

    Растительные материалы и условия роста

    Были получены линии вставки Т-ДНК SALK_069210 ( alba1-1 ), GK560_B06 ( alba1-2 ) и GK128_D08 ( alba2-1). Ноттингемский центр семян Arabidopsis , Великобритания.Генотипы всех гомозиготных мутантов или двойных мутантов были подтверждены анализами генотипирования на основе ПЦР. После холодной стратификации в течение 2 дней стерилизованные семена выращивали на твердой среде 1/2 Murashige-Skoog (MS) при 23 ° C в условиях длинного дня (16 часов света и 8 часов темноты) в течение 14 дней. Затем проростки собирали для дальнейших экспериментов или пересаживали в почву и выращивали при 23 ° C с тем же световым периодом.

    Для комплементации мутантов геномную ДНК AtALBA1 и AtALBA2 с промоторными областями приблизительно 2 т.п.н. амплифицировали из геномной ДНК Col-0 дикого типа с помощью ПЦР и клонировали в бинарный вектор pCAMBIA1305 для трансформации растений.Штамм Agrobacterium tumefaciens GV3101, несущий различные конструкции AtALBA1 или AtALBA2 , использовали для трансформации мутантных растений стандартным методом окунания цветов. Первичные трансформанты отбирали на чашках 1/2 MS, содержащих гигромицин (25 мг / л). Гомозиготные линии Т3 использовали для дальнейших экспериментов. См. Таблицу S1 для получения подробной информации о праймерах, использованных в этом исследовании.

    Временная экспрессия конструкций слияния GFP

    Для создания конструкций слияния GFP полноразмерные геномные ДНК AtALBA1 и AtALBA2 были амплифицированы с помощью ПЦР и клонированы в вектор Super1300-GFP , который экспрессирует C -концевой GFP-меченный интересующий белок под контролем конститутивного промотора.Анализы временной экспрессии проводили с использованием протопластов мезофилла из Arabidopsis . Сигналы GFP наблюдали с помощью конфокального микроскопа Leica TCS SP8 STED 3 ×.

    Ядерно-цитоплазматическое фракционирование

    Для ядерно-цитоплазматического фракционирования 14-дневные проростки (0,5 г) измельчали ​​до мелкого порошка в жидкости N 2 , используя холодную ступку и пестик, а затем суспендировали в 1 мл лизирующего буфера. [20 мМ трис-HCl (pH 7,5), 20 мМ KCl, 2 мМ EDTA, 2,5 мМ MgCl 2 , 25% глицерин, 250 мМ сахароза, 5 мМ дитиотреитол (DTT) и коктейль ингибиторов протеазы].После фильтрации гомогената через два слоя Miracloth его центрифугировали при 1500 g при 4 ° C в течение 10 минут для осаждения ядер. Супернатант центрифугировали при 10,000 g при 4 ° C в течение 10 мин и собирали в виде цитоплазматической фракции. Осадок промывали четыре раза 5 мл буфера 1 для ресуспендирования ядер (NRB1) [20 мМ трис-HCl (pH 7,5), 25% глицерин, 2,5 мМ MgCl 2 и 0,2% Triton X-100]. Осадок ресуспендировали в 500 мкл NRB2 [20 мМ трис-HCl (pH 7.5), 0,25 M сахарозы, 10 мМ MgCl 2 , 0,5% Triton X-100, 5 мМ β-меркаптоэтанола и коктейль ингибиторов протеазы], а затем осторожно наложили поверх 500 мкл NRB3 [20 мМ трис-HCl ( pH 7,5), 1,7 M сахарозы, 10 мМ MgCl 2 , 0,5% Triton X-100, 5 мМ β-меркаптоэтанола и коктейль ингибиторов протеазы]. Затем образец центрифугировали при 16000 g в течение 45 мин при 4 ° C. Конечный ядерный осадок ресуспендировали в 100 мкл 2х белкового буфера для загрузки.

    Вестерн-блот

    Белки разделяли с помощью электрофореза в 10% SDS-полиакриламидном геле и переносили на поливинилидендифторидные мембраны.Мембраны блокировали в буфере TBST [20 мМ трис-HCl (pH 7,5), 137 мМ NaCl и 0,1% Tween 20] с 5% обезжиренным молоком в течение 1 часа и инкубировали с анти-Flag (F7425, Sigma), анти- Myc (05-724, Millipore), антигистон h4 (07-690, Millipore) или антитела против тубулина (CW0098, CWBIO) в течение ночи в TBST. После трех промывок TBST белки были обнаружены с помощью набора для определения хемилюминесценции пероксидазы хрена (CW0049, CWBIO).

    Анализ комплементации с расщепленной люциферазой

    Полноразмерные CDS AtALBA1 и AtALBA2 были амплифицированы с помощью ПЦР и клонированы в вектор pCAMBIA1300-nLUC или pCAMBIA1300-cLUC для генерации вектора N--cLUC-. терминальная конструкция слияния люциферазы, соответственно. A. tumefaciens штамм GV3101, несущий различные конструкции, культивировали в жидкой среде LB с канамицином (50 мг / литр) и рифампицином (50 мг / литр) при 28 ° C в течение 12 часов и ресуспендировали в буфере для инфильтрации [10 мМ MES (pH 5.7), 10 мМ MgCl 2 и 150 мкМ ацетосирингона] для достижения OD 600 (оптическая плотность при 600 нм) 0,5. Равные количества суспензий смешивали в различных комбинациях, и полученные смеси использовали для инфильтрации листьев Nicotiana benthamiana .Для предотвращения сайленсинга генов конструкция, кодирующая вирусный белок p19, была инфильтрирована в то же время при OD 600 , равном 0,3. Проникшие листья держали в темноте в течение 24 часов. Люциферазную активность определяли с помощью системы визуализации люминесценции (Princeton Instrument).

    Коиммунопреципитация

    Гибриды F1 (14-дневные) от скрещивания трансгенных растений AtALBA1-Myc и AtALBA2-Flag и гибридов F1 от скрещивания AtALBA1-Flag и Myc и трансгенных растений AtALBA1- Трансгенные растения AtALBA1-Flag и AtALBA2-Flag быстро замораживали и измельчали ​​в жидкости N 2 .Полученный мелкодисперсный порошок (1 г) суспендировали в 2 мл лизирующего буфера [50 мМ трис-HCl (pH 8,0), 230 мМ NaCl, 5 мМ MgCl 2 , 10% глицерин, 0,2% NP-40, 0,5 мМ. DTT, 1 мМ фенилметилсульфонилфторид (PMSF) и коктейль ингибиторов протеазы]. После центрифугирования супернатант инкубировали с агарозой против Myc (A7470, Sigma) при 4 ° C в течение 3 часов. Гранулы трижды промывали 10 мл промывочного буфера [50 мМ трис-HCl (pH 7,5), 150 мМ NaCl и 5 мМ EDTA]. Иммунопреципитаты подвергали Вестерн-блоттингу с использованием антител против Flag (F1804, Sigma) и против Myc (05-724, Millipore) в качестве первичных антител.

    Иммунолокализация

    Анализы локализации иммунофлуоресценции выполняли, как описано Martínez-Macías et al . ( 47 ). Сначала для подготовки ядер использовали образцы ткани проростков. Препараты ядер инкубировали при комнатной температуре с различными комбинациями anti-Flag (F7425, Sigma), anti-Flag (F1804, Sigma), anti-Myc (05-724, Millipore), h4K9me1 (07-352, Millipore), S9.6 (из лаборатории Q. Sun, Университет Цинхуа) и первичные антитела против γh3AX (4418-APC-020, Trevigen) в течение ночи, после чего их инкубировали с мышиной Alexa594 (A23410, Abbkine), конъюгированной или кроличьей Alexa- 488 (A23220, Abbkine) - вторичные антитела, конъюгированные в течение 2 часов при 37 ° C.После промывания физиологическим раствором с фосфатным буфером ДНК подвергали контрастному окрашиванию с использованием DAPI в Prolong Gold Antifade Mountant (Invitrogen). Ядра наблюдали с помощью конфокального микроскопа Leica TCS SP8 STED 3 × (Leica).

    Анализ сдвига электрофоретической подвижности

    Полноразмерные CDS AtALBA1 и AtALBA2 амплифицировали и клонировали в вектор экспрессии pET28a для очистки белка. Мутация K30E была введена в конструкцию посредством сайт-направленного мутагенеза с помощью набора QuikChange II XL Site-Directed Mutagenesis Kit в соответствии с инструкциями производителя (Agilent Technologies).Белки экспрессировали в клетках Escherichia coli DE3 (BL21) и очищали с помощью аффинной хроматографии на никель-нитрилотриуксусной кислоте (Ni-NTA). EMSA выполняли, как описано ранее ( 19 ). Олигонуклеотидные последовательности, использованные в этом исследовании, описаны в таблице S1. Указанные олигонуклеотиды ДНК или РНК были синтезированы и помечены биотином на 5'-конце. Затем олигонуклеотиды отжигали с комплементарной цепью, нагревая их до 95 ° C в течение 5 минут и медленно охлаждая.В результате отжига были созданы дцДНК, дцРНК, гибрид ДНК-РНК и структура R-петли. Олигонуклеотиды (5 нМ) инкубировали с рекомбинантными белками AtALBA1 или AtALBA2 при 25 ° C в течение 10 мин в связывающем буфере [20 мМ трис-HCl (pH 7,6), 10 мМ MgCl 2 и 1 мМ DTT]. Полученные комплексы белок-субстрат разделяли на 4% неденатурирующих полиакриламидных гелях при 80 В в течение 80 мин, используя 1 × TBE буфер (89 мМ трис-HCl, 89 мМ борная кислота и 2 мМ динатрий EDTA). После электрофореза олигонуклеотиды в гелях детектировали с использованием набора для обнаружения хемилюминесцентных биотин-меченых нуклеиновых кислот (D3308, Beyotime).

    Анализ ChIP и анализ данных

    Для анализа ChIP AtALBA1 и AtALBA2 14-дневные проростки (2 г) измельчали ​​в порошок в жидком N 2 и сшивали в холодном буфере для экстракции ChIP I [10 мМ трис -HCl (pH 7,5), 10 мМ MgCl 2 и 400 мМ сахароза), содержащий 1% формальдегид, при 4 ° C в течение 10 мин. В некоторых экспериментах обработку РНКазой H [M0297, New England Biolabs (NEB)] или РНКазой III (M0245, NEB) проводили перед перекрестным связыванием. Реакцию поперечного сшивания гасили добавлением глицина до конечной концентрации 0.125 М. Гомогенат фильтровали через сетчатый фильтр для клеток (431751, Falcon) и осаждали центрифугированием при 4000 об / мин в течение 20 минут при 4 ° C. Осадки несколько раз промывали буфером для экстракции ChIP II [10 мМ трис-HCl (pH 7,5), 10 мМ MgCl 2 , 250 мМ сахарозы и 1% Triton X-100] до тех пор, пока они не стали белыми. Ядра суспендировали и инкубировали в 100 мкл буфера для лизиса ядер [50 мМ трис-HCl (pH 8,0), 10 мМ EDTA и 1% SDS] в течение 30 минут при 4 ° C. После добавления 200 мкл буфера для разведения ChIP [16.7 мМ трис-HCl (pH 8,0), 1,2 мМ EDTA, 1,1% Triton X-100 и 167 мМ NaCl], ядра обрабатывали ультразвуком в течение 24 циклов (UCD-200, Diagenode) с получением фрагментов ДНК размером от 0,2 до 0,5 т.п.н. длина. После центрифугирования супернатант хроматина разбавляли 700 мкл буфера для разведения. Для ChIP-seq образец инкубировали с гранулами anti-Flag (M8823, Sigma) при 4 ° C в течение ночи. Для ChIP-qPCR образец инкубировали с анти-Flag (F3165, Sigma) или анти-Myc (ab32, Abcam). После промывки, элюирования и обращения поперечного сшивания ДНК выделяли экстракцией фенолом / хлороформом и осаждением этанолом.Для ChIP-seq две биологические копии обогащенной ДНК были подвергнуты конструированию библиотеки. Прибор Illumina HiSeq 2000 использовался для одностороннего секвенирования библиотек с высокой пропускной способностью. Для ChIP-qPCR три биологических дубликата обогащенной ДНК подвергали анализу qPCR.

    Для γh3AX ChIP-seq был применен собственный метод ChIP. Подробно, обработанные MMS проростки собирали и измельчали ​​до мелкого порошка в жидком азоте. Ядра экстрагировали и промывали буфером Хонда [0.44 M сахароза, 1,25% фиколла, 2,5% декстрана T40, 20 мМ Hepes (pH 7,4), 10 мМ MgCl 2 , 0,5% Triton X-100, 5 мМ DTT и смесь ингибиторов протеазы]. Затем ядра ресуспендировали в 500 мкл буфера MNase [50 мМ трис-HCl (pH 7,6), 5 мМ CaCl 2 , 0,1 мМ PMSF и коктейль ингибиторов протеазы] и инкубировали с РНКазой A при 37 ° C в течение 30 дней. мин. Объемы образцов доводили до 1 мл с помощью буфера MNase, а затем добавляли 4,5 мкл микрококковой нуклеазы (M0247S, NEB). После инкубации при 37 ° C в течение 30 мин процесс фрагментации был остановлен добавлением EDTA (конечная концентрация 10 мМ).Нуклеосомы высвобождали добавлением 0,1% SDS и вращением образцов при 4 ° C в течение 3 часов. Образцы центрифугировали, и супернатанты разбавляли буфером для разведения МНКаз (0,1% Triton X-100, 50 мМ NaCl, 0,1 мМ PMSF и коктейль ингибиторов протеаз). За день до выделения хроматина гранулы белка Dynabeads G (Invitrogen) инкубировали с антителами γh3AX и h4 (ABclonal) в буфере для разведения ChIP [1,1% Triton X-100, 1,2 мМ EDTA, 16,7 мМ трис-HCl (pH 8,0). , и 167 мМ NaCl, смесь ингибиторов протеазы] при 4 ° C в течение ночи.После выделения хроматина шарики белка Dynabeads G, конъюгированные с антителами, дважды промывали 1 мл буфера для разведения МНКазы и добавляли к разбавленным хроматинам. Стадия иммунопреципитации выполнялась при 4 ° C в течение 5 часов. Затем шарики дважды промывали промывочным буфером с низким содержанием соли [50 мМ трис-HCl (pH 7,6), 10 мМ EDTA, 50 мМ NaCl, 0,1 мМ PMSF и смесь ингибиторов протеазы], дважды промывали промывочным буфером с промежуточной солью [ 50 мМ трис-HCl (pH 7,6), 10 мМ EDTA, 100 мМ NaCl, 0,1 мМ PMSF и коктейль ингибиторов протеазы], промывали один раз высокосолевым промывочным буфером [50 мМ трис-HCl (pH 7.6), 10 мМ EDTA, 150 мМ NaCl, 0,1 мМ PMSF и коктейль ингибиторов протеазы] и, наконец, один раз промыли TE-буфером [1 мМ EDTA и 10 мМ трис-HCl (pH 8,0)]. Иммунные комплексы элюировали дважды добавлением 200 мкл элюирующего буфера (0,1% SDS и 0,1 M NaHCO 3 ) при 65 ° C в течение 10 мин. Образцы обрабатывали 2 мкл протеиназы К (10 мг / мл) при 45 ° C в течение 1 часа. Конечную ДНК выделяли экстракцией фенолом / хлороформом и осаждением этанолом.

    Считывания

    ChIP-seq были сопоставлены с геномом Arabidopsis (TAIR10) с использованием Bowtie2 (v2.1.0) (Illumina) с параметрами по умолчанию. Повторяющиеся чтения и чтения с низким качеством сопоставления были удалены с помощью SAMtools. Только идеально и однозначно сопоставленные чтения были сохранены для дальнейшего анализа. Файлы BigWig сопоставлений были созданы с помощью bam2wig и визуализированы с помощью встроенного браузера генома. Количество считываний из каждой биологической реплики показано на рис. S8 и таблица S2. Чтобы определить корреляции между биологическими репликами, корреляции Пирсона были рассчитаны из нормализованных интенсивностей сигналов с помощью deepTools.MACS2 использовался для пиковых вызовов с P = 1 × 10 −3 .

    Анализ эпигенетических признаков

    Уровни модификации гистонов и уровни экспрессии генов в локусах, связанных с AtALBA1, определяли с использованием ранее опубликованных наборов данных ChIP-seq ( 31 , 48 - 51 ) и секвенирования РНК (RNA-seq). соответственно. Данные ChIP-seq h4K9Ac и h4K14Ac (GSE89768), h4K27Ac (GSE80056), h4K4me2 и h4K4me3 (GSE73972) и h4K9me2 (SRA010097) для Col-0 и данные RNA-seq (GSE80303) были загружены из Col-0 и данные RNA-seq (GSE80303) для Col База данных Expression Omnibus (GEO).

    ssDRIP-seq и анализ данных

    ssDRIP был выполнен, как описано ранее ( 11 ) с некоторыми изменениями. Вкратце, 14-дневные проростки (3 г) измельчали ​​в тонкий порошок в жидкости N 2 и суспендировали в 30 мл предварительно охлажденного буфера Honda [20 мМ Hepes (pH 7,4), 0,44 М сахарозы, 1,25% фиколла, 2,5% декстрана T40, 10 мМ MgCl 2 и 0,5% тритона X-100]. После фильтрации гомогената через два слоя Miracloth его центрифугировали при 2000 g в течение 15 мин при 4 ° C для осаждения ядер.Ядра трижды промывали NRB1 [20 мМ трис-HCl (pH 7,5), 25% глицерин, 2,5 мМ MgCl 2 и 0,2% Triton X-100]. Осадок ресуспендировали в 2 мл TE-буфера [10 мМ трис-HCl (pH 8,0) и 1 мМ EDTA] с добавлением 0,5% SDS и протеиназы K (0,33 мг / мл) и инкубировали при 37 ° C в течение ночи при постоянном встряхивании при 400 об. / Мин. ДНК выделяли путем экстракции фенолом / хлороформом, и очищенную ДНК расщепляли Mse I, Mbo I, Dde I и Nla III для фрагментации. Для иммунопреципитации S9.6 4 мкг фрагментированной ДНК (концентрацию ДНК измеряли с помощью набора Qubit dsDNA) инкубировали с 10 мкг S9.6 антител в буфере для связывания DRIP [10 мМ NaPO 4 (pH 7,0), 0,14 M NaCl и 0,05% Triton X-100] при 4 ° C в течение ночи. Комплексы ДНК-антитело инкубировали с гранулами Protein G (Invitrogen) при 4 ° C в течение 4 часов с вращением. Гранулы с протеином G промывали четыре раза буфером для связывания DRIP при комнатной температуре. Гранулы инкубировали с буфером для элюирования [50 мМ трис-HCl (pH 8,0) и 10 мМ EDTA] при 55 ° C в течение 1 часа при вращении со скоростью 1000 об / мин. Наконец, для переваривания белка добавляли 200 мкг протеиназы К.DRIPed ДНК выделяли путем экстракции фенолом / хлороформом и использовали для конструирования библиотеки, как описано ранее ( 11 ).

    Анализ данных ssDRIP был выполнен, как описано ранее ( 11 ). Обрезанные считывания были сопоставлены с геномом Arabidopsis (TAIR10) с использованием Bowtie 2 (v2.3.0) с настройками по умолчанию. Чтения с более чем тремя несовпадениями и чтения с неоднозначным отображением были удалены SAMtools (v1.3.1). Набор отображенных считываний был разделен на прямые и обратные группы для анализа смысловой / антисмысловой R-петли.Определение смысловых / антисмысловых R-петель было предоставлено Xu et al . ( 11 ). MACS2 использовался для идентификации пиков для каждого образца. Файлы Binary Alignment Map (BAM) были преобразованы в файлы нормализованного покрытия (BigWig) с ячейками из 5 пар оснований с использованием deepTools (v2.26.0). Файлы BigWig использовались для визуализации и построения метаплотов с computeMatrix из deepTools.

    Анализ гибридизации слот-блоттингом

    Геномную ДНК очищали, как описано в DRIP-seq. Сто нанограмм геномной ДНК из разного фона обрабатывали РНКазой Н или без нее, а затем наносили на нитроцеллюлозную мембрану (Hybond N + , GE Amersham) и детектировали с помощью S9.6 антитело.

    Анализ экспрессии генов

    Общую РНК экстрагировали из 14-дневных проростков с помощью набора RNeasy Plant Mini (Qiagen) и обрабатывали ДНКазой, не содержащей РНКаз (Qiagen). RT выполняли с использованием системы синтеза первой цепи PrimeScript II (6210A, Takara). Уровни РНК-транскрипта определяли с помощью полуколичественной ОТ-ПЦР или ПЦР в реальном времени. ПЦР в реальном времени выполняли с использованием набора Perfect Real-time Kit (Takara). ACTIN2 использовался в качестве внутреннего контроля. Праймеры, используемые для ПЦР, перечислены в таблице S1.

    Благодарности: Мы благодарим X. Wang за биоинформатический анализ, D. Li за техническую поддержку анализа ChIP, G. Li за техническую поддержку с очисткой белка и C. Shan за обработку изображений. Финансирование: Эта работа финансировалась грантами Министерства науки и технологий Китая (грант № 2016YFA0500800 для WQ и QS) и Национального фонда естественных наук Китая (гранты № 31571326 и 31522005 для WQ и

    105 и 31822028 к Q.S.) Авторские взносы: W.Q. и Q.S. концептуализировал исследование. W.Q. и W.Y. разработал эксперименты. W.Y. выполнил большинство экспериментов. J.T. провели анализ комплементации расщепленной люциферазы и анализ коиммунопреципитации. J.Z. выполнили DRIP-seq и γh3AX ChIP-seq и анализ данных. Л.В. выполнили часть EMSA, экспериментов по иммунофлуоресценции и анализов лечения MMS. W.Z. провели анализ ChIP. W.Y., J.Z., Y.L. Q.S. и W.Q. написал газету. Конкурирующие интересы: Авторы заявляют об отсутствии конкурирующих интересов. Доступность данных и материалов: Все данные, необходимые для оценки выводов в статье, представлены в документе и / или дополнительных материалах. Дополнительные данные, относящиеся к этой статье, могут быть запрошены у авторов. Данные о последовательностях доступны под номерами доступа. SRP134706, GSE124943 и GSE121683.

    Секвенирование всего генома позволяет выявить регуляторные и новые генные варианты детской кардиомиопатии.

    РЕЗЮМЕ

    Кардиомиопатия (CMP) является наследственным генетическим заболеванием.Варианты кодирования белков составляют 20-30% случаев. Вклад вариантов в некодирующие элементы ДНК, которые регулируют экспрессию генов, не исследовался. Мы выполнили полногеномное секвенирование (WGS) 228 неродственных семейств CMP. Помимо патогенных вариантов кодирования белков в известных генах CMP, в 5% случаев наблюдались редкие варианты с потерей функции в новых сердечных генах, причем NRAP и FHOD3 были сильными кандидатами. WGS также выявила высокое бремя вариантов высокого риска в промоторах и энхансерах генов CMP еще в 20% случаев (отношение шансов 2.14, 95% ДИ 1,60-2,86, p = 5,26 × 10 -7 против 1326 контролей) с генами, участвующими в гликозилировании α-дистрогликана ( FKTN, DTNA ) и десмосомной передаче сигналов ( DSC2, DSG2 ), специально обогащенных для регуляторные варианты (коэффициент ложного обнаружения <0,03). Эти результаты были независимо воспроизведены в когорте Genomics England CMP (n = 1266). Функциональное влияние некодирующих вариантов на транскрипцию было функционально подтверждено в анализах миокарда пациента и репортерных исследований в кардиомиоцитах человека, а также в новых вариантах генов при нокаутах у рыбок данио.Наши результаты показывают, что функционально активные варианты в новых генах и в регуляторных элементах генов CMP вносят большой вклад в геномную этиологию CMP с началом в детстве.

    ВВЕДЕНИЕ

    Кардиомиопатия (CMP) - это генетическое заболевание сердечной мышцы с распространенностью от 1: 500 до 1: 2500 в общей популяции (в зависимости от типа CMP). По оценкам, более 20 миллионов человек во всем мире живут с этим заболеванием 1 . Фактическая распространенность, по оценкам, еще выше, учитывая, что у многих пациентов с дефектом гена еще не проявилось заболевание.Только в Северной Америке ежегодно выявляется несколько тысяч новых случаев ХБП 2 . Более трети случаев передаются по наследству, а остальные носят спорадический характер 3 . Большинство из них являются аутосомно-доминантными по своей природе, вызванными редкими повреждающими вариантами генов, влияющих на структуру и функцию мышц 4,5 . Существует пять фенотипов - гипертрофический (HCM), дилатационный (DCM), рестриктивный (RCM), кардиомиопатия без уплотнения левого желудочка (LVNC) и аритмогенная желудочковая кардиомиопатия (AVC).Заболевание имеет высокую пенетрантность в детстве 6 , при этом БКМ является ведущей причиной сердечной недостаточности и внезапной сердечной смерти у детей 7 . Предполагается, что более серьезная тяжесть заболевания у детей с дебютом БКМП частично связана с генетическими различиями, которые не подвергались систематической оценке 8 .

    Существует значительное генетическое совпадение между различными подтипами CMP. В то время как саркомерные гены, включая MYH7 и MYBPC3 , объясняют ~ 50% всех случаев ГКМП, другие БКМП являются более полигенными, и, несмотря на включение более 100 предполагаемых генов заболевания БКМП в панели клинических диагностических тестов, более 70% БКМП остаются неуловимыми для генов (включая семейные случаи) 9–11 .Частично это связано с тем, что стандартные тесты на панели генов обычно захватывают только небольшие варианты на уровне последовательности в кодирующих областях известных генов CMP и пропускают участки, трудно поддающиеся секвенированию, большинство событий интронного сплайсинга, структурные вариации и новые гены, не включенные в панели. . Важно отметить, что эти тесты не оценивают некодирующий геном, который несет регуляторные последовательности ДНК, включая ядерные и проксимальные промоторы и энхансеры, а также дистальные регуляторные элементы 12 . Эти варианты могут нарушать процесс активации транскрипции посредством множества механизмов, включая изменения в структуре хроматина, некодирующей РНК, стабильности транскрипта и, что важно, через изменение последовательности ДНК сайтов связывания факторов транскрипции (TFBS).

    Растущее число исследований полногеномного секвенирования (WGS) направлено на выявление новых генетических вариантов при педиатрических и семейных заболеваниях 13–15 . При расстройстве аутистического спектра, сложном генетическом заболевании, WGS позволил идентифицировать предполагаемые некодирующие области как горячие точки для de novo вариантов зародышевой линии 16,17 , новых генов-кандидатов 18 и только обнаруженных новых механизмов мутации по WGS 19,20 . Совсем недавно WGS идентифицировала более высокое содержание de novo вариантов в энхансерах связанных с заболеванием генов у пациентов с врожденными пороками сердца по сравнению с контрольной группой 21 .Однако только 5 из 31 идентифицированного энхансера были связаны с измененными уровнями транскрипции генов-мишеней. По сравнению с ИБС, которая представляет собой сложное заболевание, которое включает не только генетические, но и экологические причины, роль регуляторных вариантов не изучалась при БКМ, в первую очередь генетическом заболевании.

    Здесь мы использовали WGS, чтобы охарактеризовать все классы генетической изменчивости в уникальной и исчерпывающе фенотипированной когорте, установленной для CMP с началом в детстве. WGS идентифицировала 11 новых генов, важных для клинических диагностических испытаний, а также выявила значительно более высокое бремя регуляторных вариантов в генах CMP в 20% случаев по сравнению с контролем, результаты были воспроизведены в независимой когорте CMP.Функция наиболее важных идентифицированных вариантов была подтверждена посредством изучения экспрессии эндогенных генов в миокарде пациента, анализов на основе клеток человека 22,23 и редактирования генов CRISPR у эмбрионов рыбок данио, что обеспечивает парадигму для интерпретации WGS в будущих геномных исследованиях БКМП с детским началом, а также другие генетические нарушения.

    РЕЗУЛЬТАТЫ

    Вариант выхода на WGS в когорте открытий

    Когорта открытий состояла из 228 неродственных пробандов моложе 21 года на момент постановки диагноза первичной БКМ и 69 затронутых и незатронутых членов семьи ( Дополнительная таблица 1 ).Когорта включала 49% DCM, 33% HCM, 7% LVNC, 6% RCM и 3% AVC. 29% случаев имели положительный семейный анамнез БКМП. WGS выполняли на геномной ДНК с использованием платформы Illumina HiSeq X со средним охватом секвенирования 31X (диапазон: 20-50X). Мы опросили 133 гена, представленных в различных коммерческих панелях генов CMP ( Дополнительная таблица 2, ), на предмет редких [популяционная частота минорных аллелей (MAF) <0,01%], прогнозируемого вредного бессмысленности, потери функции (LoF) (сдвиг рамки, временная задержка / stoploss, splicing) и варианты регулирования с высоким риском. Рисунок 1a изображает рабочий процесс для фильтрации патогенных и вероятных патогенных белок-кодирующих однонуклеотидных вариантов (SNV), вставок-делеций (инделий), вариантов числа копий (CNV) и регуляторных вариантов высокого риска в общей когорте. Варианты, кодирующие белок, были классифицированы как патогенные (включая вероятные патогенные) с использованием критериев Американского колледжа медицинской генетики (ACMG) 17,24–30 . Патогенные белок-кодирующие SNV и инделки в известных генах CMP были обнаружены в 78/228 (34%) случаях, а CNV - в 6/228 (2%) случаях.Только в двух случаях имелись гомозиготные варианты. Еще 20% случаев содержали варианты высокого риска в регуляторных элементах генов CMP, а 5% случаев имели вероятные патогенные варианты LoF в новых генах-кандидатах ( Рисунок 1b ). Распределение вариантов по подтипу CMP, пациентам и категориям генов показано на рисунках 1c-e .

    Рисунок 1: Количество вариантов, кодирующих белок, и регуляторных вариантов в 228 неродственных случаях БКМ в детском возрасте.

    (a) Блок-схема, показывающая процесс отбора и выход кодирующих белок и регуляторных вариантов в общей когорте и в неуловимой гене подгруппе.36% всех случаев содержали по крайней мере один патогенный кодирующий белок вариант в гене CMP; среди оставшихся 146 неуловимых случаев генов 20% содержали по крайней мере один регуляторный вариант высокого риска в гене CMP; и еще 5% несли вариант LoF в новом гене. (b ) Круговая диаграмма, показывающая распределение кодирующих белок и регуляторных вариантов в генах CMP и вариантах LoF в новых генах в когорте (n = 228). WGS выявила предположительно причинные белок-кодирующие SNV / indels / CNV в генах CMP в 36% случаев, варианты высокого риска в регуляторных элементах генов CMP в дополнительных 20% случаев и варианты потери функции (LoF) в новых генах в еще 5% случаев.( c ) Распределение вариантов по подтипам CMP: случаи HCM имели более высокий выход вариантов, кодирующих патогенный белок, по сравнению с другими подтипами CMP (OR 3,14, CI 1,77-5,57, p = 1,22 × 10 -4 ). ( d ) Вариантное бремя для пациента в когорте: 11 случаев (5%) имели несколько вариантов кодирования белка в известных генах CMP, 10 случаев (4%) имели несколько вариантов регуляции и 23 случая (10%) имели оба варианта. белковые кодирующие и регуляторные варианты в генах CMP. ( e ) Распределение вариантов по функциональным категориям генов: из всех патогенных вариантов, кодирующих белок, 64% относились к саркомерным генам, которые представляли собой значительное обогащение по сравнению с другими категориями генов (биномиальный p = 3.16 × 10 −49 ). Напротив, ни один из регуляторных вариантов высокого риска не был в саркомерных генах.

    БКМП, кардиомиопатия; SNV, однонуклеотидный вариант; CNV, вариант номера копии; gnomAD, База данных агрегирования генома; ACMG, Американский колледж медицинской генетики; TFBS, сайт связывания фактора транскрипции; P / LP, патогенные или вероятные патогенные; LoF, потеря функции; HCM, гипертрофическая кардиомиопатия; ДКМП, дилатационная кардиомиопатия;

    Варианты кодирования белков в известных генах CMP

    SNV и CNV, кодирующие белок, описаны в дополнительных таблицах 3 и 4 .Большинство (64%) вариантов, кодирующих патогенный белок, относились к саркомерным генам, которые представляли собой значительное обогащение по сравнению с другими категориями генов (бином р = 3,16 × 10 -49 ). Случаи HCM имели более высокий выход вариантов патогенного кодирования белка по сравнению с другими подтипами CMP с отношением шансов (OR) 3,14, 95% доверительным интервалом (CI) 1,77–5,57 (p = 1,22 × 10 –4 ). Следует отметить, что WGS выявила патогенные варианты кодирования белков в 17/228 (7,5%) случаях, ранее пропущенных панельным клиническим генетическим тестированием, поскольку не все гены CMP улавливаются коммерческими группами тестирования, и ни одна из групп генов не исследует CNV 31 .

    Влияние вариантов, кодирующих белок, на экспрессию генов-мишеней в миокарде

    Уникальной особенностью нашего биобанка является доступ к образцам миокарда пациентов, перенесших операцию или трансплантацию сердца. Секвенирование РНК было выполнено в образцах миокарда LV от 35 пациентов с секвенированным CMP, чтобы подтвердить влияние SNV и CNV LoF на экспрессию генов. Рисунок 2a-c показывает, что экспрессия мРНК гена-кандидата была ниже 25 -го процентиля в миокарде пациентов, несущих SNV LoF ( DSC2, FLNC, MYBPC3 ), по сравнению с остальной когортой.Уровни экспрессии эндогенных генов также были снижены у пациентов с одиночными копиями CNV с делециями, влияющими как на промотор, так и на первые экзоны генов JPh3 и NEXN , а также экзон 11 из CTNNA3 ( Рисунок 2d-f ). Возможность показать влияние вариантов кодирования на экспрессию эндогенных генов в органе-мишени является уникальным открытием, которое поддерживает использование миокарда пациента для проверки патогенности вариантов.

    Рисунок 2: Эффект потери функции и делеции числа копий в генах CMP на экспрессию генов миокарда.

    На рисунке показана экспрессия гена миокарда LV с использованием секвенирования РНК у пациента с потерей функции или удалением числа копий (красная точка) по сравнению с другими случаями без варианта (серые точки) (n = 35 случаев). ( ac ) На левой панели показаны аминокислотные положения трех вариантов патогенной потери функции в DSC2 (конечный результат), FLNC (акцептор сплайсинга), MYBPC3 (делеция сдвига рамки считывания), которые, по прогнозам, приведут к бессмысленному распаду. мРНК. Правые панели показывают масштабированную экспрессию целевой мРНК RPKM до уровня ниже 25 -го процентилей по сравнению с остальной когортой; ( d-f ) На левой панели показано геномное расположение трех одиночных делеций CNV в генах CTNNA3, JPh3, NEXN .На правых панелях показана масштабированная экспрессия целевой мРНК RPKM до уровня ниже 25 -го процентилей по сравнению с остальной когортой.

    RPKM, считываний на килобазу транскрипта, на миллион отображенных считываний

    Кодирующих белок вариантов LoF в новых генах CMP

    WGS предоставил нам возможность исследовать новые биологически релевантные гены помимо известных генов CMP в качестве потенциальных источников патогенных вариантов кодирования . Мы провели поиск редких (gnomAD MAF <0,01%) предсказанных вредоносных гетерозиготных и гомозиготных вариантов LoF в генах, участвующих в сердечной функции с умеренно-высокой экспрессией сердца, которые, как считалось, ограничены для вариантов LoF 32,33 .Используя эти критерии, мы идентифицировали редкие варианты LoF в 11 новых генах у пациентов с CMP, которые не имели патогенного кодирующего белок варианта (5% когорты) ( Дополнительная таблица 5 ). Изучение 1266 независимых пробандов CMP в репликационной когорте 100000 Genomes Project выявило редкие гетерозиготные или гомозиготные варианты LoF в пяти из этих новых генов ( FHOD3, NRAP, PDE4DIP, PTGDS и TRPM4 ). FHOD3 содержал самую высокую долю вариантов LoF, с вариантами, идентифицированными в пяти дополнительных случаях CMP из проекта 100 000 Genomes Project, в отличие от только одного контрольного образца ICGC.

    Из этих 11 генов мы исследовали FHOD3 и NRAP в качестве сильных кандидатов, поскольку известно, что они обладают высокой сердечно-специфической экспрессией 34,35 , важны для поддержания саркомерного и актинового цитоскелета в сердце. , и были связаны с CMP в исследованиях на мышах и в небольших сериях случаев 36–43 . В нашей когорте мы обнаружили редкий вариант со сдвигом рамки в FHOD3 у пациента с DCM и редкий гомозиготный вариант со сдвигом рамки в NRAP у пациента с DCM, рожденным от кровных родителей.Интересно, что делеция FHOD3 со сдвигом рамки в chr18: 36652786, наблюдаемая в нашей когорте, также была обнаружена в случае из проекта 100000 геномов ( Дополнительная таблица 6 ). Распределение вариантов LoF в NRAP показано на рис. 3a и FHOD3 на рис. 3b для когорты обнаружения, когорты репликации проекта 100 000 геномов и gnomAD. Используя миокард ЛЖ пациента с вариантом NRAP , мы подтвердили, что экспрессия мРНК NRAP (с использованием RNAseq и целевой qRT-PCR) и экспрессия белка (на вестерн-блоттинге) значительно подавлялись у пациента, у которого был вариант, по сравнению с другими. Пациенты с CMP, у которых не было этого варианта (, рис. 3c, ).

    Рисунок 3: Варианты потери функции в новых генах CMP:

    Местоположение вариантов потери функции в ( a ) NRAP (ENST00000359988) и ( b ) FHOD3 (ENST000005

    ) в 228 случаях CMP в когорта открытия (оранжевые точки) и в 1326 случаях CMP в когорте репликации проекта 100 000 Genomes Project (синие точки). Фоновая карта плотности вариантов gnomAD показана серым цветом. ( c ) Экспрессия NRAP в миокарде: анализ РНК-seq продемонстрировал низкую экспрессию мРНК NRAP (<75 th перцентиль) в миокарде ЛЖ пациента с DCM, имеющего гомозиготный вариант со сдвигом рамки считывания (chr10: 115401188G / T / T) (красная точка) по сравнению с 34 пациентами с ХМП без варианта (черные точки).Коробчатая диаграмма показывает медианное выражение для когорты, 25 -го и 75 -го процентилей, а также нижние и верхние предельные значения. qRT-PCR подтвердила снижение экспрессии мРНК NRAP у пациентов с вариантом по сравнению с 2 пациентами с CMP без варианта, то есть WT (* p <0,05 по сравнению с WT). Вестерн-блоттинг подтвердил подавление экспрессии белка NRAP у пациента с вариантом по сравнению с 3 пациентами с CMP без варианта на репрезентативных изображениях вестерн-блоттинга (* p <0.05 против WT). ( d-g ) Эмбрионы рыбок данио Эмбрионы рыбок данио на стадии 1 клетки инъецировали 4 комплексами направляющих РНК CRISPR-Cas9, чтобы вызвать нокаут 2 генов, nrap и fhod3ab . ( d ) qRT-PCR показала подавление экспрессии целевой мРНК на 35-49% в объединенных образцах мутантов nrap и fhod3ab по сравнению с контролями WT и контролями только Cas9 (n = 3 независимых повтора на ген) (* * p <0,01 по сравнению с контролем). ( e ) 22% мутантов nrap и 26% мутантов fhod3ab показали аномальный сердечный фенотип по сравнению с 0% в контроле только с Cas9 (** p <0.01 по сравнению с элементами управления). ( f ) Конечная систолическая площадь предсердий была выше, а конечная диастолическая зона желудочков была ниже у мутантов nrap и fhod3ab по сравнению с контролем только WT и Cas9 (** p <0,01 по сравнению с контролем). ( g ) Типичные изображения фазового контраста трансгенных myl7 : эмбрионов GFP, показывающих кардиомегалию, дилатацию предсердий и ограничение желудочков у мутантных эмбрионов по сравнению с контрольными эмбрионами дикого типа или только Cas9. (** р <0,01 по сравнению с контролем). Масштабная линейка = 50 мкм.Данные представлены в виде среднего значения ± стандартное отклонение трех независимых экспериментов на образец, причем каждый эксперимент включает 3 технических повтора.

    gnomAD, База данных агрегирования генома; WT, дикий тип; mut, мутант

    Эффект нокаута CRISPR-Cas9 новых генов у рыбок данио

    Чтобы подтвердить роль этих новых генов в структуре и функции сердца in vivo , мы индуцировали направленный нокаут nrap и fhod3 у рыбок данио. эмбрионы путем инъекции в желточный мешок наборов из 4 комплексов управляющей РНК (gRNA) CRISPR-Cas9, которые избыточно нацелены на один ген и вызывают эффективный нокаут, что позволяет быстро провести скрининг функции гена 44,45 ( Рисунок 3d-g) .Секвенирование по Сэнгеру выявило большое количество вариантов с высокой эффективностью разрезания 4 гРНК, нацеленных на экзоны nrap, fhod3a и fhod3b по сравнению с 0% в контроле только с Cas9 ( Дополнительный рисунок 1) . qRT-PCR показала 0,64-кратное подавление nrap и 0,4-кратное подавление fhod3a и fhod3b в эмбрионах, отредактированных CRISPR-Cas9, по сравнению с контрольными (, рис. 3d, ). Фенотипический анализ выявил значительное увеличение предсердий у генетически отредактированных эмбрионов по сравнению с контрольными эмбрионами дикого типа или только Cas9 (p <0.01 по сравнению с контролями для всех генов) ( Рисунок 3e ). Конечная диастолическая площадь желудочков была значительно снижена у генетически отредактированных эмбрионов по сравнению с контрольными эмбрионами дикого типа или Cas9 ( Рисунок 3f-g ), но фракция выброса желудочков была сохранена (дикий тип 36 ± 2%, Cas9 34 ± 4%, мутанты nrap 37 ± 3% и fhod3ab , мутанты 42 ± 2%), что указывает на рестриктивный фенотип CMP у эмбрионов с дефектами nrap и fhod3 . Вместе эти исследования подтверждают роль вариантов LoF в новых генах, таких как NRAP и FHOD3 , в возникновении CMP.

    Регуляторные варианты генов CMP

    Мы создали атлас функционально активных регуляторных элементов сердечных экспрессируемых генов по всему геному. Это было сделано путем картирования некодирующих областей в сердце человека, которые предположительно регулируют транскрипцию сердечно-активных генов на основе экспериментальных данных, собранных из связанных с сердцем эпигенетических, ДНКазных и гистоновых данных ChIP-seq, депонированных в ENCODE и других базах данных 46 –49 . Мы определили промоторные области генов CMP путем слияния пиков ДНКазы-seq открытого хроматина и гистоновых меток, специфичных для промоторов и энхансеров в сердечных тканях.Там, где эта информация была недоступна, мы определили промоторные области как 1,5 т.п.н. выше и 1 т.п.н. от сайта начала транскрипции (TSS). В этом исследовании мы сосредоточились на промоторах и энхансерах известных генов CMP, а не на всем геноме, чтобы избежать ложноположительных результатов, связанных с генами с неясной ассоциацией с CMP. Мы сопоставили SNV с активными регуляторными регионами и определили их как уровень 1, если они были редкими, то есть MAF <0,01% в популяционном контроле, и было предсказано изменение связывания фактора транскрипции (TF) по крайней мере с помощью 3 из 4 инструментов прогнозирования, которые предсказывают, Изменение последовательности влияет на вероятные эффекты TFBS или хроматина с однонуклеотидной чувствительностью 50–53 (см. Методы).

    Мы дополнительно отдали приоритет вариантам, которые имели по крайней мере 1,3-кратное обогащение в случаях по сравнению с контролем, которые были в регуляторных элементах, активных в левом желудочке (LV) человека, и которые наблюдались в случаях, неуловимых генами (т.е. кодирующие варианты в генах CMP). Это предоставило окончательный список приоритетных 52 вариантов уровня 1 с высоким уровнем риска в 19% когорты ( Рисунок 4a ). Два дополнительных пациента имели CNV высокого риска в регуляторных элементах BAG3 и TGFB3 (дополнительная таблица 4) .Для анализа бремени случай-контроль мы использовали данные WGS от 1326 больных раком без сердечных заболеваний из Международного консорциума генома рака (ICGC) 54 . Это подтвердило обогащение регуляторных вариантов генами CMP в случаях по сравнению с контролем (OR 2,14, 95% CI 1,60–2,86, p = 5,26 × 10 -7 ) ( Рисунок 4b ). Дополнительная таблица 7 предоставляет подробную информацию о вариантах регулирования с высоким уровнем риска. Четыре главных гена, значительно обогащенных регуляторными вариантами, были в путях, связанных с (i) гликозилированием α-дистрогликана, важным для структуры саркомера i.е. FKTN (OR 53.2, CI 2.9-991) и DTNA (OR 5.6, CI 2.5-12.5), и (ii) десмосомная передача сигналов, т.е. DSC2 (OR 29.3, CI 1.4-611) и DSG2 (OR 9.7, CI 1.2-74) ( Рисунок 4c ). Ни один из вариантов не был de novo среди пробандов с полными данными по трио. Дополнительные варианты кандидатов уровня 1 в этих и других генах, важных в этих двух сигнальных системах, также описаны в таблице, хотя они не соответствуют всем критериям высокого риска.

    Рис. 4. Бремя нормативных вариантов в случаях (n = 228) и контроле (n = 1326).

    ( a ) Бремя регуляторных вариантов уровня 1 в генах CMP в случаях (оранжевый) и контроле (синий). Наблюдалось значительное обогащение регуляторных вариантов уровня 1 в случаях по сравнению с контролем (OR 2,14, 95% CI 1,60–2,86, p = 5,26 × 10 −7 ). (b ) Бремя регуляторных вариантов уровня 1 генами в случаях в когорте открытия по сравнению с контролем. Четыре лучших гена, обогащенных регуляторными вариантами по сравнению с контролем, включали FKTN (OR = 53.2, CI = 2.9-991), DTNA (OR = 5.6, CI = 2.5-12.5), DSC2 (OR 29.3, CI 1.4-611) и DSG2 (OR 9.7, CI 1.2-74). ( c ) Когорта репликации (n = 1266): точечная диаграмма показала положительную корреляцию между генами, обогащенными регуляторными вариантами высокого риска в когорте обнаружения CMP по сравнению с когортой репликации проекта 100000 Genomes (Spearman ρ 2 0,737, p = 1,02 × 10 −8 ), причем верхние гены сходны в обеих когортах CMP ( FKTN, DTNA, DSC2, DSG2 )

    OR, отношение шансов

    Мы расширили наш анализ на независимую репликационную когорту из 1266 CMP. Пробанды с данными WGS из проекта 100,000 Genomes Project.Наблюдалась положительная корреляция между когортами открытия и репликации для генов, обогащенных регуляторными вариантами высокого риска (Spearman ρ 2 0,737, p = 1,02 × 10 −8 ), причем верхние гены были сходными в обеих когортах CMP ( FKTN, DTNA, DSC2, DSG2 ) с OR в диапазоне от 3,14 до 13,7 ( Рисунок 4d ).

    Анализ обогащения путей

    Сравнение путей, обогащенных кодирующими белками, с регуляторными вариантами было выполнено с использованием баз данных Gene Ontology и Reactome 55–57 .Варианты, кодирующие патогенные белки, были обогащены узким набором категорий генов, непосредственно связанных с сокращением мышц, включая связывание актина, тропонина С, кальмодулина и протеинкиназы (, дополнительный рисунок 2a, ). Напротив, регуляторные варианты высокого риска были обогащены не только генами, участвующими в процессах, связанных с сокращением мышц, но также и дополнительными разнообразными путями, связанными с передачей сигналов ERK / Ras, передачей сигналов рецептора фактора роста фибробластов и передачей сигналов тирозинкиназы ( Дополнительный рисунок 2b). ).В отличие от вариантов, кодирующих белок, ни один из регуляторных вариантов высокого риска не был в саркомерных генах. Было только шесть генов ( DSC2, DSG2, JPh3, LAMP2, NEXN, PRKAG2 ), которые несли варианты высокого риска как в кодирующей, так и в регуляторной областях.

    Следует отметить, что высокая доля, то есть 44 (19%) случаев, содержала множественные кодирующие и / или регуляторные варианты в известных генах CMP, включая 5% с множественными вариантами кодирования белка, 4% с множественными вариантами регуляции и 10% с комбинация обоих типов вариантов ( Рисунок 1d ).Множественные варианты у трети пациентов были в генах, важных для архитектуры миокарда, то есть саркомерных, цитоскелетных, десмосомных и других структурных генах. Множественные варианты были более распространены в случаях HCM по сравнению с другими подтипами CMP (OR = 3,4, CI = 1,7–6,6, p = 5,75 × 10 –4 ).

    Функциональная оценка регуляторных вариантов

    Мы отдали приоритет регуляторным вариантам уровня 1 в 6 генах ( BRAF, DSP, DTNA, FKRP, FKTN, LARGE1, PRKAG2, TGFB3) для функционального анализа на основе наличия левого желудочка (LV) миокард от вариантно-положительных пациентов. На рис. 5 показаны регуляторные варианты с высоким риском, идентифицированные в этих восьми генах в нашей когорте открытий и в когорте 100000 Genomes Project, наложенных на фон частотного распределения в эталонной популяции базы данных геномной агрегации (gnomAD) 33 . Большинство регуляторных локусов были лишены вариантов в gnomAD, что указывает на сильно ограниченные локусы. Дополнительная фигура 3 показывает изменение одного нуклеотида в представляющем интерес варианте в нашей группе открытий по сравнению с последовательностью дикого типа и прогнозируемым эффектом на мотивы связывания TF 58 .

    Рисунок 5: Геномное расположение вариантов в регуляторных элементах генов, приоритетных для функциональных исследований.

    На рисунках показаны геномные координаты SNV в когорте открытия (n = 228, оранжевые точки) и когорте репликации проекта 100 000 Genomes Project (n = 1266, синие точки), отображенных относительно первой (P1) области промотора и сайта начала транскрипции. для следующих генов ( a ) BRAF , ( b ) DSP , ( c ) DTNA , ( d ) FKRP , ( e ) FKT f ) LARGE1 , и в области энхансера для ( g ) PRKAG2 (E15) и ( h ) TGFB3 (E1).SNV, наблюдаемые в эталонных образцах gnomAD, отображаются в виде кривых плотности серого цвета по всему региону. Все регуляторные варианты наблюдались с частотой аллелей <0,01% в наборе данных gnomAD и имели тенденцию к кластеризации в регионах, которые были истощены для вариантов в gnomAD. Координаты основаны на эталонном геноме hg19.

    gnomAD, База данных агрегации генома

    Ассоциация регуляторных вариантов с экспрессией миокардиального гена

    Способность показать изменение экспрессии миокардиального гена является важным доказательством влияния регуляторных вариантов на транскрипцию эндогенных генов.Экспрессию мРНК и белка измеряли с помощью RNAseq, qRT-PCR и Western blot или иммуногистохимии у 35 пациентов, у которых был доступен миокард LV. Экспрессию миокарда сравнивали у пациента, у которого был вариант, с контролем без CMP или у пациентов с CMP, не несущих вариант.

    Мы оценили варианты промоторов в BRAF, DSP, FKTN и LARGE1 проксимальнее соответствующего TSS, которые, как предполагалось, изменяют связывание TF. По сравнению с контрольной группой и / или пациентами с отрицательным вариантом CMP, мРНК BRAF показала 0.76-кратное подавление qRT-PCR у пациента, несущего вариант промотора (chr7: 140624223_G / A) ( Рисунок 6a ). Вариант DSP (chr6: 7541776_G / A) был связан с более высокой экспрессией в миокарде DSP как на РНК-seq (выше 75 -го процентиля для когорты), так и на qRT-PCR (1,6-кратное усиление) ( Рисунок 6b ). Вариант промотора FKTN (chr9: 108320330_G / A) был связан с более низкой экспрессией FKTN у пациента RCM на RNAseq, на qRT-PCR (0.5-кратное подавление) и Вестерн-блоттинг (0,24-кратное подавление) (, фиг. 6c, ). У пациента с HCM, несущего вариант промотора LARGE1 (chr22: 34316416_C / T), иммуногистохимия показала снижение экспрессии периъядерного белка LARGE1 у пациента по сравнению с контролем ( Рисунок 6d ). Вариант энхансера PRKAG2 (chr7: 1513_A / C), обнаруженный у пациента с DCM, был связан с 1,4-кратной активацией при qRT-PCR и 1,5-кратной активацией при вестерн-блоттинге в миокарде пациента ( Рисунок 6e ).Экспрессия TGFB3 в миокарде у пациента с RCM с вариантом усилителя высокого риска (chr14: 76289218_A / G), предположительно взаимодействующим с промотором TGFB3 48 , была связана с более высокой экспрессией мРНК на RNA-seq, 4,2-кратной активацией мРНК при qRT-PCR и 1,5-кратная повышающая регуляция белка TGFB3 при вестерн-блоттинге по сравнению с контролем ( Рисунок 6f ). Эти данные, полученные непосредственно из миокарда пациентов, несущих интересующие варианты, подтвердили, что SNV в ключевых регуляторных элементах связаны с важным влиянием на функциональные генные продукты и предоставляют важные подтверждающие доказательства патогенности вариантов.

    Рисунок 6: Экспрессия целевого гена и белка в миокарде ЛЖ пациентов, несущих регуляторные варианты.

    RNA Seq, qRT-PCR, Western blot и иммуногистохимия были выполнены в доступном миокарде LV от пациентов с CMP (n = 35) для выявления экспрессии мРНК и белков целевых генов у пациентов, несущих регуляторные варианты в BRAF, DSP, FKTN, LARGE1 , ПРКАГ2 или ТГФБ3 . Для данных секвенирования РНК, целевую масштабированную экспрессию гена RPKM сравнивали между пациентом, у которого был вариант (красная точка), и остальной частью когорты (черные точки), используя прямоугольные диаграммы, показывающие медианную экспрессию для когорты, 25 th и 75 th процентилей, а также максимальные и минимальные значения (n = 35).Для кОТ-ПЦР, вестерн-блоттинга и иммуногистохимии экспрессия целевого гена или белка в миокарде ЛЖ пациента, несущего этот вариант, сравнивалась с контролем дикого типа, включая образец аутопсии от человека без сердечного заболевания, а также один или несколько CMP пациенты, которые не имели каких-либо известных патогенных кодов или вариантов регуляции. Для каждого образца было проведено три независимых эксперимента, каждый из которых включал три технических повтора для каждого образца. Уровень экспрессии белка GAPDH в качестве гена домашнего хозяйства использовали в качестве контроля загрузки для вестерн-блоттинга.Планки погрешностей указывают стандартное отклонение между средними значениями каждого независимого эксперимента. ( a ) BRAF : вариант промотора chr7: 140624223_G / A был связан с нормальной экспрессией мРНК BRAF на RNAseq, но снижал экспрессию мРНК BRAF при qRT-PCR. Вариант промотора chr7: 140624286_C / T был связан с повышенной экспрессией мРНК на RNAseq (> 75 th процентиль). ( b ) DSP : вариант промотора (chr6: 7541776_G / A) был связан с повышенной экспрессией мРНК DSP на RNAseq (> 75 th процентиль) и на qRT-PCR (* p <0.05 по сравнению с элементами управления). ( c ) FKTN : вариант промотора 1 (chr9: 108320330_G / A) был связан со сниженной экспрессией мРНК FKTN на RNAseq (<75 th процентиль), сниженной экспрессией мРНК на qRT-PCR (p <0,05 по сравнению с контролем), снижение экспрессии белка на репрезентативных изображениях вестерн-блоттинга и снижение относительного содержания белка при количественной оценке (* p <0,05 по сравнению с контролями). ( d ) LARGE1 : Вариант промотора chr22: 34316416_C / T был связан с более низким перинуклеарным окрашиванием LARGE1 (коричневый) (ядерное окрашивание, синий) на репрезентативных иммуногистохимических изображениях и более низким% LARGE1-положительных клеток в миокарде пациента (* р <0.05 по сравнению с элементами управления). Ткань тимуса использовали в качестве отрицательного контроля. Шкала шкалы = 20 мкм. ( e ) PRKAG2 : вариант энхансера chr7: 1513_A / C был связан с нормальной экспрессией мРНК PRKAG2 на RNAseq, но более высокой экспрессией мРНК на qRT-PCR (* p <0,05 по сравнению с контролем), более высокой экспрессией белка на Western репрезентативные изображения блоттинга и более высокая относительная экспрессия белка при количественной оценке (* p <0,05 по сравнению с контролями). ( f ) TGFB3 : вариант энхансера (chr14: 76289218_A / G) был связан с более высокой экспрессией мРНК TGFB3 на RNAseq, более высокой экспрессией мРНК на qRT-PCR (* p <0.05 по сравнению с контролями), более высокая экспрессия белка на репрезентативных изображениях вестерн-блоттинга и более высокое относительное содержание белка при количественной оценке (* p <0,05 по сравнению с контролями).

    RNA Seq, секвенирование РНК; WT, дикого типа

    Влияние регуляторных вариантов на транскрипцию гена с использованием репортерных анализов
    Репортерный анализ люциферазы

    Генные промоторы или энхансер + промоторы, содержащие кандидатные SNV, и соответствующую контрольную область были клонированы в репортеры люциферазы светлячка и трансфицированы в индуцированные человеком плюрипотентные Кардиомиоциты, полученные из стволовых клеток (ИПСК), для определения влияния вариантов на транскрипционную активность репортерного гена люциферазы ( Дополнительная фигура 4a ).Клонированные варианты промотора BRAF (chr7: 140624223_G / A), DTNA (chr18: 32072866_A / G), FKRP (chr19: 47249754_C / T), FKTN_A 3, chr9 108320330_G / A) и LARGE1 (chr22: 34316416_C / T) снижали активность люциферазы по сравнению с контрольными последовательностями. Вариант промотора DSP ( chr6: 7541776_G / A ) , второй вариант промотора LARGE1 ( chr22: 34316687_G / A ) и вариант энхансера TGFB3 (chr14 / G14: 7628) значительно повышенная активность люциферазы по сравнению с контрольными последовательностями (, фиг. 7a, ).Измененная регуляция транскрипции репортера люциферазы путем вставки вариантов промотора и энхансера нескольких генов CMP предполагает прямой регуляторный эффект этих SNP на транскрипцию целевого гена.

    Фигура 7: Репортерные анализы в человеческих ИПСК-кардиомиоцитах.

    ( a ) Репортерный анализ люциферазы, показывающий влияние регуляторных вариантов на транскрипцию. Клонированные варианты промотора BRAF (chr7: 140624223_G / A), DTNA (chr18: 32072866_A / G), FKRP (chr19: 47249754_C / T), FKTN_A 3, chr9 108320330_G / A) и LARGE1 (chr22: 34316416_C / T) снижали активность люциферазы по сравнению с контрольными последовательностями.Вариант промотора DSP ( chr6: 7541776_G / A ) , второй вариант промотора LARGE1 ( chr22: 34316687_G / A ) и вариант энхансера TGFB3 (chr14 / G14: 7628) значительно повышенная активность люциферазы по сравнению с контрольными последовательностями. * p <0,05 по сравнению с контрольной последовательностью. Все анализы люциферазного репортера проводили с 3 биологическими повторами, каждый с 3 техническими повторами. (b ) График вулкана, представляющий влияние 54 регуляторных вариантов на экспрессию генов с использованием MPRA.29 вариантов имели значительные различия в транскрипционной активности между референсным и альтернативным аллелями (FDR <0,05, представлен горизонтальной черной линией). Серый = активность варианта CMP ниже, чем у референсного аллеля; черный = активность варианта CMP выше, чем референсного аллеля. ( c ) 66% значимых вариантов были связаны с более высокой транскрипционной активностью референсного аллеля. ( d ) Log2-кратные изменения транскрипционной активности между альтернативными и референсными последовательностями аллелей.( e ) Репрезентативные графики подсчета MPRA альтернативного аллеля (зеленый) по сравнению с последовательностями референсных аллелей (серый) BRAF (chr7: 140624223_G / A), DSP (chr6: 7541468_T / C) и DTNA (chr18: 32073296_C / G). Все анализы MPRA проводили в 5 независимых биологических повторностях.

    MPRA, массово-параллельный репортерный анализ; ref seq, последовательность референсного аллеля; FDR, ложное обнаружение; CMP, кардиомиопатия

    Массивно-параллельный репортерный анализ (MPRA)

    Для оценки функционального эффекта дополнительных регуляторных вариантов уровня 1 на транскрипционную активность мы использовали MPRA с более высокой пропускной способностью в кардиомиоцитах 22,23 .В частности, мы протестировали регуляторные эффекты 54 вариантов, проанализировав транскрипционную активность их референсных и альтернативных аллелей (каждый аллель представлен 25 уникальными штрих-кодами, см. Методы) в iPSC-кардиомиоцитах PGP17 (n = 5 независимых повторов) ( Дополнительный рисунок 4b). -e, Дополнительная таблица 8 ). Из 54 исследованных вариантов 29 вариантов (54%) показали значительные транскрипционные различия между двумя аллелями [коэффициент ложного обнаружения (FDR) <0,05] ( Рисунок 7b , c ) с изменением в 2 раза в диапазоне от -2.72 до +2,23 ( Рисунок 7d, Дополнительная таблица 8 ). Это представляло 26 дополнительных вариантов с высокой регуляторной активностью помимо тех, которые были подтверждены в предыдущих анализах репортера миокарда и люциферазы. Репрезентативные примеры для подсчета MPRA показывают высокую регуляторную активность вариантов в BRAF, DSP и локусах DTNA ( Рисунок 7e ). В целом, результаты MPRA подтверждают, что наша WGS уверенно идентифицировала варианты, которые функционально активны в кардиомиоцитах.

    Таким образом, наши результаты с использованием WGS выявили значительный вклад регуляторных вариантов и CNV в генах CMP (в 20% случаев) и небольшой, но заметный вклад вариантов, кодирующих белок LoF в новых генах (еще в 5% случаев). случаев) с началом CMP в детстве.

    ОБСУЖДЕНИЕ

    WGS дает большое количество вариантов, кодирующих и регулирующих белок зародышевой линии. Пониманию их вклада в болезнь человека мешает отсутствие строгих биоинформатических и функциональных подходов, адаптированных к изучаемому заболеванию.Используя WGS в CMP, мы выявили вредоносные варианты кодирования белков у 36% нашей когорты, включая 7,5%, которые были пропущены, несмотря на клинические испытания генов-кандидатов. Более того, мы обнаружили 5% пациентов с вредными вариантами в новых генах CMP и, что очень важно, еще у 20% пациентов с регуляторными вариантами высокого риска, о которых ранее не сообщалось в CMP. Было подтверждено, что важное подмножество этих регуляторных вариантов влияет на экспрессию экзогенных и эндогенных генов в функциональных анализах, тем самым обеспечивая убедительные доказательства их вклада в CMP.Открытие и проверка этих новых вариантов снизили вдвое количество случаев неуловимого геном БКМ в нашей когорте.

    Из новых генов, содержащих вредоносные варианты кодирования белков, два гена, NRAP и FHOD3 , оказались сильными кандидатами. Оба важны для поддержания саркомерного и актинового цитоскелета в сердце и были связаны с CMP в исследованиях на мышах и небольших сериях случаев 36–43,59,60 . Наш пробанд был гомозиготным по варианту LoF в NRAP , как и ранее описанная семья с аутосомно-рецессивным фенотипом DCM 39 .Более того, в нашей репликационной когорте также было обнаружено большое количество вариантов этих генов. Сниженная экспрессия NRAP в миокарде пациента в сочетании с данными о сниженной экспрессии nrap и fhod3 и фенотипом CMP у рыбок данио подтверждают доказательства того, что NRAP и FHOD3 являются новыми генами, которые следует рассматривать как сильные гены-кандидаты для клинических испытаний при ХМП.

    Чрезвычайно захватывающим открытием нашего исследования было обогащение высокоэффективных регуляторных SNV и CNV в случаях по сравнению с контролем, причем 20% случаев несли эти варианты в рекуррентно мутировавших областях, активных в LV человека.При анализе по подтипу CMP, выход регуляторных вариантов с высоким риском был выше у CMP без HCM, в которых варианты, кодирующие белок, составляют лишь небольшую часть случаев. В целом, регуляторные варианты были обогащены не только путями, связанными с сокращением мышц, но также связыванием α-дистрогликана, десмосомной передачей сигналов и передачей сигналов ERK / Ras. Хотя кодирующие варианты в этих путях обычно вызывают мультисистемное вовлечение, мы не наблюдали системных особенностей у пациентов, несущих некодирующие варианты этих генов.Возможно, что действие регуляторных вариантов ограничено сердцем, в отличие от кодирующих вариантов, которые влияют на функцию белка во многих тканях. Кроме того, саркомерные гены менее подвержены влиянию регуляторных вариантов, вероятно, потому, что они более толерантны к гапло-недостаточности.

    Известный набор генов с дисрегулируемой экспрессией включал DTNA, FKTN, FKRP, LARGE1 и POMT , которые необходимы для функции α-дистрогликана посредством посттрансляционного гликозилирования.Дистрогликан является центральным компонентом комплекса дистрофин-гликопротеин, где он действует как трансмембранный линкер, прикрепляя цитоскелет к внеклеточному матриксу и играет роль в стабильности миоцитов, сарколеммы и саркомеров 61,62 . Нарушение гликозилирования было связано с тяжелой сердечной дисфункцией у FKTN или LARGE1-дефицитных мышей и с DCM (с легким или отсутствующим вовлечением скелетных мышц) часто в контексте гомозиготных или сложных гетерозиготных вариантов 63–65 .Мы также обнаружили обогащение регуляторных вариантов, нарушающих экспрессию десмосомных генов ( DSG2, DSC2, JUP, DSP ), в которых, как сообщалось, как миссенс, так и варианты LoF вызывали AVC, DCM и RCM, аналогично пациентам из нашей когорты 66 .

    Сильной стороной нашего исследования была возможность функционально проверить влияние регуляторных вариантов на экспрессию генов и белков. Мы подтвердили, что активность репортерного гена люциферазы была изменена под действием вариантных последовательностей промотора / энхансера по сравнению с контролем дикого типа в кардиомиоцитах человека 67,68 .Мы признаем, что анализы репортера люциферазы не в состоянии оценить регуляторные варианты, которые влияют на структуру хроматина. Однако мы определили промоторы генов CMP путем слияния пиков ДНКазы-seq открытого хроматина и гистоновых меток, специфичных для промоторов и энхансеров, полученных из сердечной ткани. Более того, мы смогли показать, что экспрессия эндогенных генов была изменена в миокарде ЛЖ пациентов, несущих эти варианты, что поистине уникальное преимущество нашего исследования. Например, повышенная регуляция TGFB3 в миокарде наблюдалась у пациентов с DCM или HCM, но это первый случай, когда вариант регуляторного элемента этого гена связан с повышенной экспрессией TGFB3 в миокарде пациента 69,70 .Сходным образом, насколько нам известно, это первое сообщение о сниженной экспрессии целевого гена в миокарде пациентов, несущих варианты промоторов Tier 1, а также тех, у кого есть CNVs, включающие гены кандидатов CMP 71–74 . Важно отметить, что с помощью MPRA мы смогли продемонстрировать значительный регуляторный эффект большего подмножества вариантов высокого риска, связанных с этими генами, усиливая силу нашей стратегии выбора вариантов 75–78 . Вместе эти находки не только представляют собой важный прогресс в нашем понимании сердечной регуляции, но также предоставляют новое понимание геномной архитектуры CMP у детей и вносят свой вклад в открытие некодирующих вариантов при заболеваниях человека 21 .

    Как и в предыдущих отчетах, мы обнаружили несколько вариантов кодирования в 5% случаев, которые, как сообщалось, вносили вклад в более тяжелый фенотип 79 . В нашей когорте мы также смогли обнаружить совместную встречаемость не только кодирующих SNV, но и CNV. Два пациента с ГКМП, один с патогенным MYBPC3 SNV и MYOM1 CNV умерли, а другой с вариантом сайта сплайсинга LoF в FLNC и делецией CNV в CTNNA3 потребовалась трансплантация сердца в течение первого года жизни. .Особенно интригующим открытием нашего исследования было то, что до 14% случаев имели несколько вариантов регуляции высокого риска, иногда в сочетании с вариантом патогенного кодирования. Все эти варианты были обнаружены в генах, важных в структуре миоцитов. Необходимы дальнейшие исследования, чтобы изучить связь нескольких вариантов регуляции с тяжестью заболевания.

    Роль регуляторных вариантов могла быть недооценена в нашем исследовании, так как мы не изучали дистальные энхансеры. Кроме того, TFBS, которые не похожи на согласованную последовательность, могли быть ошибочно классифицированы как не относящиеся к группе высокого риска.Поскольку прогнозы in silico со временем улучшаются, это позволит более широко исследовать регулом для вариантов заболевания. Наконец, мы были ограничены в нашей способности оценивать экспрессию эндогенных генов из-за небольшого количества доступных образцов миокарда.

    В целом, наши выводы о том, что варианты с высокой степенью достоверности, идентифицированные с использованием моделей прогнозирования in silico , имеют функциональные последствия, подтверждают наш биоинформатический подход к открытию новых вариантов и дают веские основания для изучения вариантов в рекуррентно мутировавших цис-регуляторных элементах генов CMP с целью повышение урожайности генетического тестирования 80,81 .Таким образом, наша работа обеспечивает руководящую стратегию для решения регуляторных вариантов сердечных заболеваний и подчеркивает необходимость дальнейших исследований для подтверждения клинической применимости этих результатов.

    МЕТОДЫ

    Когорта исследования

    Когорта исследования включала несвязанные первичные пациенты с индексом CMP в возрасте до 21 года на момент постановки диагноза, а также затронутые и незатронутые члены семьи, набранные в период с 2007 по 2018 год через Биобанк кардиологического центра при Больнице для больных детей, Торонто 80 .HCM, DCM, RCM, LVNC и AVC были диагностированы на основании опубликованных клинических критериев 82,83 . Были исключены пациенты с вторичными БКМ, возникшими в результате врожденных нарушений метаболизма, митохондриальных нарушений, синдромной и нервно-мышечной этиологии. Были собраны клинические данные, включая демографические данные, диагноз, семейный анамнез, результаты клинического генетического тестирования и исходы во время последующего наблюдения. Средний возраст на момент постановки диагноза составлял 2,8 года (диапазон 0-20), 42% составляли женщины. Основными этническими группами, о которых сообщают сами респонденты, были 71% белых, 17% азиатских и 6% черных.26% случаев были генотип-положительными при предыдущем клиническом панельном тестировании, 47% были генотип-отрицательными и 27% клинически не тестировались. Десять пациентов (4,7%) умерли, и 130 случаев (57%) испытали серьезное неблагоприятное сердечное событие при последующем наблюдении ( Дополнительная таблица 1 ). Сбор и использование ДНК человека и ткани миокарда от пациентов с CMP через Реестр биобанков кардиологического центра было одобрено Советом по этике институциональных исследований (Больница для больных детей, Детская больница Восточного Онтарио, Общая больница Торонто, Лондонский центр медицинских наук, Кингстонская больница общего профиля , и Hamilton Health Sciences Center), и письменное информированное согласие было получено от всех пациентов и / или их родителей / законных опекунов 80,81 .

    Полное секвенирование генома (WGS)

    WGS было выполнено на высококачественной ДНК из крови или слюны для достижения минимального 30-кратного покрытия с использованием платформы Illumina HiSeq X через Macrogen, Южная Корея, и Центр прикладной геномики (TCAG, Больница для больных детей, Торонто). Высококачественные считывания парных концов (2 × 150 п.н.) были сопоставлены с эталонной последовательностью генома человека (hg19) с использованием выравнивателя Isaac, а варианты были вызваны с использованием вызывающего варианта Isaac варианта 84 . Метрики качества WGS были рассчитаны с использованием mosdepth (https: // github.com / brentp / mosdepth) 85 . Образцы со средним охватом всего генома менее 10X были исключены из дальнейшего анализа. Варианты, передающие стандартные метрики качества вызывающего варианта Isaac, были аннотированы с помощью snpEff (v.4.3) 86 и annovar (v.2016.02.01) 87 . Варианты, используемые для последующего анализа, дополнительно должны были иметь флаг «PASS» в поле «FILTER». SNV дополнительно требовалось, чтобы общая фильтрованная глубина чтения (‘DP’) ≥ 10X, в то время как indels дополнительно требовалось, чтобы общая фильтрованная глубина считывания в позиции, предшествующей indel (‘DPI’) ≥ 10X.Общее количество SNV на выборку было рассчитано с помощью bcftools 88 .

    Варианты кодирования белков в генах CMP

    Путем анализа данных из онлайн-базы данных Mendelian Inheritance in Man (OMIM), различных коммерчески доступных панелей генов CMP, ручной выборки из литературы, мы составили первичный список из 133 генов-кандидатов с сильной ассоциацией с CMP ( Дополнительная таблица 2 ). Митохондриальные гены были исключены. Мы разработали вычислительные рабочие процессы для интерпретации SNV (missense, splicing, LoF), indels и CNV в областях кодирования и некодирования.

    SNV, кодирующие белки, и индели

    Мы разработали рабочий процесс индивидуальной классификации вариантов для идентификации SNV, кодирующих патогенные белки и сайтов сплайсинга, на основе руководящих принципов ACMG 2015 24 . Автоматизированная система классификации вариантов была основана на информации из различных источников, включая ClinVar 89 и базу данных мутаций генов человека (HGMD) 90 , чтобы определить патогенные или вероятные патогенные варианты, о которых ранее сообщалось. 1000 Genomes 91 , NHLBI-ESP 92 , Exome Aggregation Consortium (ExAC) и база данных агрегации генома (gnomAD) были использованы в качестве контрольных элементов для фильтрации редких вариантов, определенных как MAF <0.01% 93 . Патогенность миссенс-вариантов была предсказана с использованием оценок прогнозирования по крайней мере из пяти инструментов прогнозирования, включая SIFT 94 , PolyPhen2 95 , MutationTaster2 96 , Mutation Assessor 97 , CADD 27 , PROVEAN 25 значение из пакета PHAST для множественного выравнивания 99 геномов позвоночных с геномом человека (phyloP100way_vertebrate) 98 , MetaSVM и MetaLR 26 . Оценка сохранности генома была получена из GERP ++ 99 и phastCons 12 .Предполагаемые варианты усечения белка, которые, по прогнозам, вызывают потерю функции, включая варианты сайта сплайсинга, бессмысленные варианты и варианты со сдвигом рамки, были оценены и аннотированы с помощью инструмента LOFTEE (https://github.com/konradjk/loftee) в качестве подключаемого модуля через Ensembl Variant Effect Predictor (VEP v90) инструмент 100 . Патогенность вариантов, выявленных в ходе клинических испытаний, была подтверждена с использованием классификаций ClinVar 89 и InterVar 101 , где это возможно. Сегрегация и анализ de novo были выполнены для всех вариантов, когда WGS из членов семьи был доступен.SNV и инделки в генах CMP, которые соответствовали критериям патогенности, описанным выше, и которые, кроме того, имели MAF <0,01% в эталонной популяции gnomAD v2.1.1, считались причинными для CMP. Эти вероятные причинные варианты были рассмотрены и подтверждены посредством независимой классификации институциональной лабораторией молекулярно-генетического тестирования, и все зарегистрированные SNV были подтверждены с использованием секвенирования по Сэнгеру, где это возможно.

    CNV, кодирующие белок

    Для вызова CNV используются два алгоритма на основе глубины чтения, ERDS v1.1 (оценка по глубине чтения с SNV) 102 и CNVnator v0.3.2 103 , использовались, как описано ранее 29 . Выявленные области CNV были аннотированы с помощью специального конвейера аннотаций, разработанного в TCAG. Чтобы повысить достоверность звонков, в последующий анализ были включены только области CNV размером> 1kb с как минимум 50% взаимным перекрытием между вызовами ERDS и CNVnator и <70% перекрытием с теломерами, центромерами и сегментарными дупликациями. Редкие CNV были определены как варианты, встречающиеся с частотой <1% в более чем 1500 контрольных образцах родительских образцов из когорты аутистов, MSSNG 18 .Используя карту CNV генома человека 30 , события CNV, перекрывающие области CNV, которые были подвержены количеству копий <30%, были приоритетными для последующих анализов. Редкие CNV размером> 1 КБ, влияющие на кодирующие экзоны, были проверены вручную с использованием чтения из файлов BAM и дополнительно проверены с помощью qPCR со 100% соответствием. Пациенты, у которых не было хотя бы одного причинного варианта (т.е. редкий, кодирующий белок патогенный SNV или CNV в генах CMP), считались неуловимыми для генов, и их дополнительно оценивали на предмет кодирующих белки вариантов в новых генах и в регуляторных элементах известных CMP. гены.

    Анализ вариантов De novo

    Полные трио родитель-потомок были доступны в 22 случаях. Чтобы идентифицировать варианты de novo, мы создали полный набор инструментов анализа генома (GATK) / v4.1.2.0 передовой опыт 104 локально для совместного вызова коротких вариантов (SNV и indels) в нашей когорте. Необработанные считывания с парных концов были сначала обрезаны и очищены с помощью trimmomatic v.0.32, затем сопоставлены с эталонным геномом человека GRCh47 для каждого образца с помощью bwa v.0.7.15. Эталонная последовательность генома и обучающий набор данных были загружены с сайта пакета GATK (ftp.broadinstitute.org/bundle/b37). Сопоставленные показания были повторно согласованы и откалиброваны с помощью инструментов перекалибровки базовой оценки качества (BQSR). HaplotypeCaller использовался для создания файлов генотипа VCF (gVCF) для каждого образца. Наконец, файлы gVCF для всех образцов были объединены и вызваны совместно с помощью инструментов CombineGVCFs и GenotypeGVCFs. Чтобы отфильтровать вероятные артефакты в вызовах, SNP и инделки были повторно откалиброваны отдельно с помощью инструментов Variant Quality Score Recalibration (VQSR) и вариантов, которые прошли уровень достоверности VQSR 99.5 для SNP и 99.0 для инделей. Мы развернули рабочий процесс уточнения GATK, чтобы идентифицировать варианты de novo, которые были признаны патогенными или вероятными патогенными в соответствии с критериями ACMG. Чтобы сделать вывод о возможных сайтах de novo с высокой степенью достоверности, мы сначала пересчитали вероятности генотипов образцов в масштабе phred, введя набор вызовов проекта «1000 геномов» (1000G_phase3_v4_20130502) и родословные троек. Эти дополнительные данные могут использоваться в качестве предварительных данных для повторной калибровки достоверности генотипов, а не только для расчета вероятности генотипа образца только по его считыванию.На этом этапе был применен инструмент CalculateGenotypePosteriors. Затем мы использовали VariantFiltration, чтобы выделить сайты с низким качеством генотипа (GQ), значения GQ которых были ниже 20, а глубина считывания была ниже 10. Наконец, только сайты со всеми числами трио ≥ GQ 20 были определены как сайты с высоким уровнем достоверности de novo. варианты в окончательном наборе вызовов.

    Кодирующие белки варианты LoF в новых генах CMP

    Чтобы идентифицировать новые предполагаемые гены CMP помимо 133 установленных генов CMP, мы провели поиск предполагаемых вредных гетерозиготных и гомозиготных вариантов LoF (т.е.е. варианты со сдвигом рамки, бессмыслица, временная задержка, стоп-лосс и сплайсинг) в остальной части экзома среди случаев CMP, которые действительно несли патогенный кодирующий белок или регуляторный вариант с высоким риском в гене CMP. Варианты LoF были идентифицированы с помощью LOFTEE (https://github.com/konradjk/loftee) 32,33 . Все варианты LoF должны были быть предсказаны как высокоэффективные с помощью VEP 100 , наблюдаемые при частоте аллелей <0,01% в эталонной популяции gnomAD, наблюдаемые в <1% неродственных семей в когорте и влияющие на гены, которые экспрессируются в человеческое сердце.Варианты дополнительно определялись по приоритету, если они принадлежали к сильно ограниченному гену (gnomAD pLI> 0,9) и / или были важны для функции сердца. Категории уровней экспрессии генов в тканях были получены из Атласа белков человека (http://www.proteinatlas.org) 35 .

    SNV и CNV в регуляторных элементах генов CMP

    Была создана карта регуляторных областей генома человека, в первую очередь промоторов и проксимальных и дистальных энхансеров, активных в развивающемся сердце и сердце взрослого человека, на основе экспериментальных данных и данных Проект энциклопедии элементов ДНК (ENCODE) 47 , проект FANTOM 46 , эпигеномика Roadmap 49 и опубликованные данные Dickel et al 48 .Промоторные области всех генов CMP, не включенных Dickel et al, были определены как 1,5 т.п.н. выше и 1,25 т.п.н. от сайта начала транскрипции (TSS). TSS для канонических транскриптов и, при необходимости, сердечных транскриптов в сборке 37 генома человека (hg19) были загружены из Ensembl Genome Browser (www.ensembl.org - по состоянию на октябрь 2017 г.). Чтобы идентифицировать SNV риска в определенных регуляторных областях генов CMP, был разработан и внедрен автоматизированный конвейер приоритезации нестандартных вариантов без кодирования.Вкратце, варианты в определенных регуляторных областях аннотировали с помощью Ensembl's Variant Effect Predictor (VEP v90) 100 . Варианты, перекрывающие известные регуляторные особенности Ensembl, сравнивали с вариантами, идентифицированными в данных WGS в контрольных популяциях в gnomAD (n = 141 456). Регуляторные регионы перечислены в дополнительной таблице 9 . Функциональное влияние редких регуляторных вариантов оценивалось на основе баллов создания или разрушения TFBS. Баллы для разрушения TFBS (потеря мотива) и создания TFBS (усиления мотива) были основаны на комбинированных оценках прогнозов, полученных с помощью четырех различных инструментов - RegulomeDB 50 , motifbreakR 51 , DeepSEA 52 и Fathmm-MKL 105 .Варианты считались Уровнем 1 и оценивались как разрушающие по крайней мере 3 из 4 инструментов прогнозирования (Уровень 1). Регуляторные варианты были дополнительно расставлены по приоритету, если они встречались в неуловимых генах случаев CMP, были связаны с геном, имеющим OR> 1,3 по сравнению с контрольной когортой ICGC, и находились в области, которая активна в LV человека. Межгенные и интронные CNV, а также перекрывающиеся промоторы indels <1kb и энхансеры, активные в развивающемся и взрослом сердце человека, как определено Dickel et al.

    Анализ бремени нормативных вариантов по контролю за случаями

    Вызовы вариантов WGS были получены от 1326 пациентов без сердечных заболеваний, зарегистрированных в Международном консорциуме по геному рака (ICGC) 54 . Образцы WGS были получены из нормальной ткани, 998 из которых состояли из крови, 224 из твердых тканей из участка, удаленного от первичной опухоли, 76 прилегающих твердых тканей и 28 других тканей. Пациенты включали 579 женщин и 747 мужчин; диагнозы включали 286 рака поджелудочной железы, 221 рак мозга, 178 рака простаты, 123 рака груди, 98 рака пищевода, 82 рака печени, 74 рака почек, 70 рака кожи, 68 рака яичников, 64 рака костей, 37 рака желудка, 13 рака полости рта, и 12 видов рака желчных путей.Данные были получены из раздела Паноракового анализа целых геномов портала данных ICGC (PCAWG). Образцы были сопоставлены с hs37d5 (GRCh47), и вызовы вариантов зародышевой линии были сделаны с использованием конвейера вызова вариантов DKFZ / EMBL. «НОРМАЛЬНЫЕ» выборочные вызовы были извлечены и отфильтрованы аналогично когорте обнаружения: для последующего анализа использовались только варианты с флагом «PASS», охваченные как минимум 10 чтениями (DP / DPI ≥10). Вызовы вариантов были преобразованы в hg19 с помощью Picard LiftoverVcf (http: // broadinstitute.github.io/picard/).

    Чтобы сравнить бремя вариантов между случаями и контролями для вариантов уровня 1 в регуляторных элементах генов CMP, требовалось, чтобы вызовы вариантов имели частоту аллелей ≤0,01% в gnomAD. Варианты, наблюдаемые в ≥1% выборок в исследуемой когорте, были исключены из нагрузочного тестирования, чтобы уменьшить количество ложноположительных вариантов. Для каждого сравнения (ген, путь или весь регулом) OR были рассчитаны как частота случаев по сравнению с контролями, содержащими хотя бы один вариант.P-значения были рассчитаны с использованием двустороннего точного критерия Фишера. Пороговое значение коэффициента ложного обнаружения (FDR) 0,2 было применено после удаления тестов, в которых не наблюдались варианты в комбинированном случае и контрольной выборке. Чтобы уменьшить смещение в этих расчетах и ​​избежать «нулевых ячеек» в таблицах непредвиденных обстоятельств, к каждой наблюдаемой частоте было добавлено 0,5 (поправка Холдейна-Анскомба). Все статистические анализы были выполнены с использованием статистического программного обеспечения R версии 3.5.1.

    Когортный анализ репликации

    Анализ бремени нормативных вариантов был расширен до независимой когорты из 1266 случаев CMP с использованием образцов из проекта 100000 Genomes Project, доступных нам через Genomics England Clinical Interpretation Partnership из версии 8 основной программы 106 .Все пациенты должны были быть пробандами с доступными данными WGS и иметь хотя бы один нормализованный термин для конкретного заболевания, соответствующий термину «кардиомиопатия». Лица с дополнительными синдромными терминами онтологии фенотипа человека (HPO) были исключены. Когорта включала 745 подтипов HCM, 355 DCM, 43 LVNC и 119 подтипов AVC; 22% были моложе 21 года на момент постановки диагноза; 62% были мужчинами, 82% имели европейское происхождение. Где возможно, короткие вызовы вариантов (SNV и инделки) получали после выравнивания с эталонным геномом hg38, в противном случае использовали вызовы вариантов GRCh47.Варианты были отфильтрованы, чтобы требовать флаг «PASS» и иметь минимальную общую глубину чтения (DP / DPI), равную 10. Вызовы вариантов hg38 и GRCh47 были преобразованы в hg19 с помощью Picard LiftoverVcf (http://broadinstitute.github.io/picard /). Анализ вариативной нагрузки в случаях из проекта «100000 геномов» был выполнен, как описано ранее, путем сравнения с контрольной когортой ICGC.

    Анализ обогащения пути

    Анализ обогащения пути проводился с использованием g: Profiler с параметрами по умолчанию (https: // biit.cs.ut.ee/gprofiler) 107 . Набор генов, кодирующих белок, был ранжирован в соответствии с общим количеством патогенных SNV, инделей и CNV, наблюдаемых в нашей когорте. Набор регуляторных генов был ранжирован согласно общему количеству приоритетных регуляторных вариантов, наблюдаемых среди неуловимых генов. Скорректированные p-значения были рассчитаны с использованием поправки Бонферрони, и только пути с скорректированным p-значением <0,05 считались значимыми.

    Анализ подгрупп

    Для сравнения вариативной нагрузки в кодирующих белки генах или путях CMP между подтипами CMP была построена серия таблиц сопряженности 2 × 2, в которых каждый подтип был протестирован против всех других для каждого гена или пути.Случай считался положительным, если он содержал хотя бы один патогенный вариант (SNV, indel и / или CNV), в противном случае он считался отрицательным. Точно так же в тестах на ассоциации с клиническим исходом использовались таблицы сопряженности 2 × 2, и случай считался положительным, если он имел хотя бы один интересующий вариант. Эквивалентно отягощающие тесты для нескольких вариантов любого типа, помеченные как «положительные» случаи, как те, которые несут два или более любых вариантов для тестируемого гена или пути. P-значения были рассчитаны с использованием двустороннего точного критерия Фишера.Чтобы уменьшить систематическую ошибку в расчетах OR и избежать «нулевых ячеек» в таблицах непредвиденных обстоятельств, к каждой наблюдаемой частоте было добавлено 0,5 (поправка Холдейна-Анскомба). Коэффициент ложного обнаружения (FDR) применялся после удаления тестов, в которых не наблюдались варианты ни в каких образцах для каждого набора тестов (генов или путей). Для выявления обогащения саркомерными / цитоскелетными генами среди всех приоритетных регуляторных вариантов был использован двусторонний биномиальный тест. Каждый вариант считался «успешным», если вариант был связан с саркомерным геном, и считался «неудачным», если вариант был связан с другой категорией гена.Априорная вероятность «успеха» была установлена ​​на уровне 8/133, т.е. равна доле саркомерных генов среди общего набора известных генов CMP. Все статистические анализы были выполнены с использованием статистического программного обеспечения R версии 3.5.1.

    Экспрессия гена и белка миокарда

    Миокард LV был получен от пациентов с CMP, которые согласились на создание биобанков из оставшейся ткани во время кардиохирургии или трансплантации сердца, и был немедленно заморожен в операционной и хранился в жидком азоте.

    Секвенирование РНК (RNAseq)

    Для измерения экспрессии гена миокарда RNAseq выполняли с использованием платформы Illumina HiSeq 2500 в TCAG в 35 образцах LV. Тотальную РНК выделяли из образцов миокарда ЛЖ с помощью набора RNeasy Mini (QIAGEN, Канада). Сгенерированные необработанные данные последовательности были отфильтрованы согласно процедурам, описанным ранее 108 . Отфильтрованные считывания последовательностей были сопоставлены с браузером генома человека UCSC hg19 с использованием Tophat v.2.0.11 и обработаны для извлечения необработанных счетчиков считываний для генов с использованием htseq-count v.0.6.1p2. Данные секвенирования были сопоставлены с человеческим транскриптомом с использованием сплайсированного выравнивателя HISAT2 109 , и уровень экспрессии гена был количественно определен с использованием StringTie 110 . Чтения на килобазу транскриптов на миллион сгенерированных были нормализованы по размеру каждой библиотеки и нормализованы по длине транскриптов. Нормализованные данные RNAseq для генов, проанализированных в этом исследовании, доступны в Supplementary Table 10 . Анализ экспрессии был проведен для определения разницы в кратности экспрессии мРНК у пациента с положительным вариантом по сравнению со средними значениями в остальной когорте (т.е.е. пациенты без кандидата SNV или CNV на WGS) 111 .

    qRT-PCR

    Для дополнительного подтверждения разницы в уровне экспрессии мРНК гена, несущего вариант, по сравнению с последовательностями дикого типа, мы определили относительную экспрессию мРНК с помощью qRT-PCR 112 . Суммарную РНК экстрагировали из миокарда левого желудочка пациента с использованием РНК mirVana ™ PARIS ™ и набора для очистки нативного белка (Invitrogen, Carlsbad, California, USA) в соответствии с протоколом производителя.Концентрацию и чистоту РНК оценивали с помощью Nanodrop 2000c (Thermo Fisher, Waltham, Massachusetts, USA). РНК с соотношением A260 / 280 2,0 ± 0,05 дополнительно оценивали на ее целостность с использованием TapeStation 4200 (Agilent, Санта-Клара, Калифорния, США). Образцы РНК с числом целостности РНК выше 5 и соотношением рРНК 1,7–2,0 использовали для синтеза комплементарной ДНК (кДНК) с использованием обратной транскриптазы SuperScript IV (Invitrogen, Карлсбад, Калифорния, США). Специфические олигонуклеотидные праймеры для каждого варианта ( Дополнительная таблица 11 ) были созданы с помощью primer3-NCBI ( https: // www.ncbi.nlm.nih.gov/tools/primer-blast/ ) и синтезированы с помощью технологий Integrated DNA (Коралвилл, Айова, США). Глицеральдегид-3-фосфатдегидрогеназа (GAPDH, человек) использовали в качестве гена домашнего хозяйства для нормализации. QRT-PCR выполняли в системе qPCR ViiA7 (Applied Biosystems, Foster City, California, USA) с использованием PowerUp SYBR Green Master Mix (Applied Biosystems, Foster City, California, USA). Общий объем реакции ПЦР составлял 10 мкл, и условия ПЦР состояли из стадии выдержки при 50 ° C в течение 2 минут, затем при 95 ° C в течение 2 минут с последующими 40 циклами по 15 секунд при 95 ° C и 15 секунд при 55 ° C. 60 ° C (зависит от температуры праймера) и 72 ° C в течение 1 мин.Относительное количественное определение мРНК было выполнено с использованием метода 2 -ΔΔ C t 113 . Экспрессия мРНК генов-мишеней в миокарде ЛЖ пациента, несущего этот вариант, сравнивалась с тканями дикого типа, полученными от других людей, включая образец аутопсии от человека без сердечного заболевания, а также пациентов с CMP, которые не имели какого-либо известного патогенного кодирования. или регуляторные варианты. Эксперименты проводились три независимых раза, и каждый эксперимент включал 3 технических повтора.Различия между пациентами с вариантом и пациентами без варианта анализировали с использованием непарного t-критерия Стьюдента и считали значимыми при p <0,05.

    Вестерн-блот

    Чтобы определить, связано ли изменение экспрессии мРНК с изменением экспрессии белка, проводили вестерн-блоттинг для оценки экспрессии белка миокарда 114,115 . Замороженные ткани гомогенизировали в жидком азоте и лизировали в буфере для анализа радиоиммунопреципитации (RIPA) и коктейле ингибиторов протеаз (Sigma, St.Луис, Миссури, США). Образцы смешивали с загрузочным буфером, нагревали при 90 ° C в течение 5 мин, разделяли с помощью SDS-блоттинга 4-12% Bis-Tris plus (Invitrogen, Carlsbad, California, USA) и переносили на нитроцеллюлозную мембрану. После блокирования мембраны 5% обезжиренным сухим молоком в фосфатном буферном солевом растворе (PBS; pH: 7,4) мембрану инкубировали либо с кроличьими моноклональными антителами FKTN (ab131280; abcam, Кембридж, Великобритания), либо с кроличьими поликлональными TGF. β 3 антитело (ab15537, abcam, Кембридж, Великобритания), кроличье PRKAG2 Поликлональное антитело (MBS

    85, MyBiosource, Сан-Диего, Калифорния, США) или поликлональное антитело NRAP (PAS-88772; Invitrogen, Калифорния, Карлсбад, Калифорния , США) в блокирующем буфере в течение 2 часов при комнатной температуре ( Дополнительная таблица 12 ).Контрольный ген GAPDH (ab8245, abcam, Кембридж, Великобритания) использовали в качестве контроля загрузки. После обширной промывки мембраны PBS / Tween-20 в качестве вторичных антител использовали козий анти-кроличий IgG-HRP и козий антимышиный IgG-HRP (Invitrogen, Carlsbad, California) в качестве вторичных антител в разведении 1: 2000 для 1 ч при комнатной температуре. Реактивные полосы визуализировали с помощью системы визуализации ChemiDoc MP (Bio-Rad, Hercules, Калифорния, США). Экспрессию белка в миокарде ЛЖ пациента, несущего этот вариант, сравнивали с контрольными образцами других пациентов с ХМП, у которых этот вариант не был.Результаты были количественно оценены с использованием программного обеспечения ImageJ ( http://rsb.info.nih.gov/ij/ ), и относительное содержание белка в сигнале иммуноблоттинга от каждого целевого белка было нормализовано к среднему количеству сигнала иммуноблоттинга контрольных образцов. Статистический анализ проводился с использованием непарного критерия Стьюдента по данным 2 независимых экспериментов. Статистически значимыми считали различия при p <0,05.

    Иммуногистохимия (IHC)

    Фиксированная формалином парафиновая ткань (FFPE) LV Ткань пациента с CMP с вариантом промотора LARGE1 и контроля без LARGE1 вариантов были использованы для анализа IHC с использованием стандартных методов 116 .Блоки ткани FFPE были разрезаны на 4 мкм, депарафинированы в ксилоле, обезвожены с помощью серийных разведений раствора этанола и промыты PBS. Извлечение антигена выполняли в растворе для извлечения мишени (Dako, Burlington, ON, Canada) в течение 45 минут с последующим блокированием тканей 3% пероксидазой водорода (H 2 O 2 ) в течение 10 минут. После промывания PBS срезы тканей инкубировали в течение 30 мин при комнатной температуре с первичным антителом против LARGE1 (PA5-78393, Thermo Fisher, Waltham, Massachusetts, USA) с последующей инкубацией срезов с биотинилированным вторичным антителом в течение еще 30 мин ( Дополнительная таблица 12) .Иммуномечение выявляли с помощью наборов EnVision + System-HRP DAB (Dako, Burlington, ON, Canada). Срезы были исследованы и отображены с помощью светового микроскопа. Ядра клеток контрастировали с помощью гистологического окрашивающего реагента Myer’s Hematoxylin (Dako, Burlington, ON, Canada). Фотографии были проанализированы с помощью программного обеспечения для автоматического анализа изображений (Image J, Национальные институты здравоохранения, Бетесда, Мэриленд). Количество LARGE1-положительных клеток усредняли в 10 полях на срез и повторяли в 3-х повторах.Окрашивание сравнивали между индивидуумом, несущим вариант LARGE1 , и контролями. Непарный t-критерий Стьюдента использовался для определения различий между группами. Значение p <0,05 считалось значимым.

    Репортерные анализы кардиомиоцитов, полученных из ИПСК человека

    Генерация ИПСК-кардиомиоцитов человека

    Индуцированные плюрипотентные стволовые клетки (ИПСК), полученные из лимфоцитов периферической крови здорового взрослого донора (PGP17), были дифференцированы в кардиомиоциты (КМ) Набор для дифференциации кардиомиоцитов STEMdiff.Линия ИПСК PGP17_11 лишена каких-либо известных вариантов сердечных заболеваний, и протокол дифференцировки в кардиомиоциты был ранее описан 114 . Биение дифференцированных кардиомиоцитов, полученных из ИПСК, наблюдалось на 8-й день после дифференцировки. Клетки повторно высевали на 16 день в 12-луночные планшеты для временной трансфекции. Кардиомиоциты котрансфицировали люциферазными конструкциями на 21 день. Трансфицированные клетки собирали через 48 часов после трансфекции, и активность люциферазы светлячка и рениллы измеряли с использованием системы анализа Dual-Luciferase® Reporter.

    Анализ репортерной люциферазы

    Для функциональной проверки влияния вариантов на транскрипцию гена использовали систему репортерного анализа Dual-Luciferase® (Promega, Мэдисон, Висконсин, США) для тестирования и сравнения транскрипционной активности репортерного гена люциферазы под действием эффекта. варианта промотора или энхансера + промоторная последовательность от пациента, или эталонной последовательности генома каждой регуляторной области в качестве контроля дикого типа 67,68 . Для создания люциферазных плазмид, несущих последовательность регуляторного элемента предсказанных вариантов и дикого типа в качестве контроля, нуклеотидные последовательности 1.Были коммерчески синтезированы 5-килобайтные промоторные области BRAF, DSP, DTNA, FKRP, FKTN и LARGE1 , а также 2-килобайтные энхансерные / промоторные области TGFB3 , содержащие наиболее сильную область транскрипционной активации ( Дополнительная таблица 13 ) (Synbio Technologies, Monmouth Junction, NJ, USA). Коммерческие плазмиды, кодирующие соответствующие последовательности дикого типа, энхансера или варианта промотора, расщепляли соответствующими рестрикционными ферментами и клонировали отдельно во множественные сайты клонирования основных векторов люциферазы Firefly (pGL4.10-люк2; Промега, Мэдисон, Висконсин, США). Кардиомиоциты, полученные из ИПСК человека, высевали в 12-луночные планшеты и котрансфицировали 2 мкг векторов люциферазы светлячков (pGL4.10-luc2; Promega, Мэдисон, Висконсин, США), несущих регуляторные последовательности дикого типа, BRAF, DSP, Варианты DTNA, FKRP, FKTN и LARGE1 или TGFB3 и 40 нг контрольных репортерных векторов люциферазы Renilla (вектор pRL-TK; Promega, Мэдисон, Висконсин, США) для нормализации условий трансфекции.Через 48 ч после трансфекции люминесценцию детектировали с помощью системы анализа Dual-Luciferase® Reporter (DLR ™). Эксперимент проводили в трех независимых повторностях, и каждый образец также тестировали в трех повторностях в каждом эксперименте. В той же лунке измеряли люциферазу светлячка, а затем люциферазу Renilla. Нормализующую активность экспериментального репортера рассчитывали путем деления сигнала люциферазы светлячка на сигнал внутренней люциферазы рениллы. Управляемый промотором контрольный вектор люциферазы светлячка (pGL4.13-люк2 / SV40; Promega, Мэдисон, Висконсин, США). Непарный двусторонний t-критерий Стьюдента использовали для сравнения, есть ли разница между люциферазной активностью репортерного гена люциферазы под действием регуляторной вариантной последовательности и эталонной последовательностью каждой регуляторной области в качестве контроля дикого типа. Порог значимости был установлен на уровне p <0,05.

    Массивно-параллельный репортерный анализ (MPRA)

    Олигонуклеотиды длиной 135 п.н. со штрих-кодами длиной 11 п.н. были разработаны и синтезированы TwistBioscience (США).Варианты были сосредоточены в пределах олигонуклеотида 135 п.н. Полный список протестированных вариантов можно найти в дополнительной таблице . Для контроля технических вариаций и оценки биологической значимости каждый протестированный аллель был представлен как минимум 25 раз, каждый с уникальным штрих-кодом. Библиотека олигонуклеотидов содержала 2700 олигонуклеотидов для наших геномных вариантов, 100 олигонуклеотидов для положительных контролей и 1500 олигонуклеотидов для отрицательных контролей, то есть скремблированных последовательностей. Эти олигонуклеотиды были частью библиотеки олигонуклеотидов, которая включала дополнительные 234 500 последовательностей в рамках более крупного исследования.Стратегию клонирования библиотеки олигонуклеотидов и отбор положительных отрицательных контролей (300 случайных последовательностей, каждая с 5 штрих-кодами) выполняли согласно Mattioli et. al 23 . Библиотеку олигонуклеотидов трансфицировали в пять биологических повторений кардиомиоцитов, полученных из ИПСК PGP17, с эффективностью трансфекции более 80% во всех повторностях с использованием реагента для трансфекции ствола липофектамина (STEM00015 Thermo Fisher, Waltham, Massachusetts, USA) (, дополнительный рисунок 3b ).Через 48 часов после трансфекции собирали тотальную РНК и удаляли загрязнения ДНК с использованием ДНКазы I (18047019, Thermo Fisher, Waltham, Massachusetts, USA). Образцы РНК с числом целостности РНК> 7 использовали для синтеза кДНК с использованием обратной транскриптазы SuperScript IV (Invitrogen, Карлсбад, Калифорния, США). кДНК использовалась для синтеза библиотеки, если в ней отсутствовала контаминация плазмид, как определено с помощью qRT-PCR, выполненной в системе qPCR ViiA7 (Applied Biosystems, Foster City, California, USA) с использованием PowerUp SYBR Green Master Mix (Applied Biosystems, Foster City, Калифорния, США) ( Дополнительный рисунок 3c ).Библиотеки Tag-seq получали, как описано ранее 23 , и секвенировали с односторонним считыванием 50 пар оснований на платформе HiSeq2500 (TCAG, Hospital for Sick Children, Toronto). Данные анализировали с использованием программного обеспечения MPRAAnalyze 23,117 с использованием случайных олигонуклеотидных последовательностей в качестве нулевого распределения. Значения P были рассчитаны с использованием теста отношения правдоподобия с MPRAAnalyze, и значение FDR <0,05 считалось значимым.

    Редактирование CRISPR-Cas9 для оценки функции нового гена в эмбрионах рыбок данио

    Все исследования эмбрионов рыбок данио были выполнены в Центре генетики и моделей заболеваний SickKids (ядро рыбок данио), Торонто, и одобрены Комитетом по уходу за животными SickKids (Протокол № 401951) .

    Дизайн, синтез и микроинъекция направляющей РНК (пРНК)

    Все последовательности гРНК были адаптированы из 45 и описаны в дополнительной таблице 14 . Последовательности праймеров ( Дополнительная таблица 15 ) были синтезированы с помощью технологий Integrated DNA (IDT, Коралвилл, Айова, США) и использованы для синтеза sgRNA in vitro в соответствии с ранее описанным протоколом 45 . Микроинъекции выполняли, как описано ранее 45 с небольшими изменениями.Вкратце, для nrap гРНК1, 250 пг каждой гРНК с 800 пг белка Cas9 (Alt-R ® Sp Cas9 нуклеаза V3, номер по каталогу 1081058, IDT, Коралвилл, Айова, США) совместно вводили в клетки дикого типа. эмбрионы на одной клеточной стадии. Для совместной инъекции 8 гРНК fhod3a + b , gRNA1-gRNA4 вводили 125 пг каждой гРНК, при этом количество белка Cas9 оставалось неизменным. Введенные эмбрионы содержались в 0,003% растворе фенилтиомочевины (PTU) и инкубировались в темном инкубаторе при 28,5 ° C в течение 3 дней.Весь фенотипический анализ, визуализация, выделение ДНК и секвенирование были выполнены через 3 дня после оплодотворения (dpf).

    Экстракция ДНК, ПЦР и анализ последовательности

    Неочищенную ДНК экстрагировали из целых личинок рыбок данио с использованием буфера 1X-PCR (10 мМ KCl, 10 мМ Tris, PH 8,0; 1,5 мМ MgCl2), содержащего 1 мг / мл протеиназы K (Thermo Scientific , Уолтем, Массачусетс, США). Смесь инкубировали при 55 ° C в течение 50 минут и затем при 98 ° C в течение 10 минут для деактивации протеиназы K. Для секвенирования каждой области гРНК проводили ПЦР с использованием ДНК-полимеразы Taq (Bio basic, Markham, ON, Канада).25 мкл реакционной смеси содержали буфер для реакции 1X-PCR, 2 мМ MgCl2, 0,2 мМ dNTP, 0,2 мМ каждого прямого и обратного праймеров, 0,75 ед. Полимеразы Taq и 1,5 мкл неочищенной ДНК (~ 200 нг). Пары праймеров и соответствующие им температуры отжига приведены в дополнительной таблице . Реакции ПЦР были установлены следующим образом: 95 ° C в течение 5 минут, затем 35 циклов при 95 ° C в течение 20 секунд, температура отжига в течение 1 минуты, 72 ° C в течение 1 минуты и конечная элонгация 72 ° C в течение 5 минут. . Продукт ПЦР очищали с помощью ExoSAP-IT (Applied Biosystems, Фостер-Сити, Калифорния, США) в соответствии с инструкциями производителя, и 100 нг каждого продукта ПЦР отправляли для секвенирования в TCAG (Торонто, Онтарио, Канада) с праймерами для секвенирования, описанными в . Дополнительная таблица 15 .Результаты секвенирования анализировали с помощью ICE Analysis (https://ice.synthego.com/#/) или Geneious 9.1.4.

    qRT-PCR

    При 3 dpf объединенные образцы РНК собирали либо от личинок рыбок данио, которым инъецировали гРНК целевых генов, либо только Cas9 в качестве контроля с использованием реагента TRIzol ™ (Invitrogen, Карлсбад, Калифорния, США). КДНК первой цепи синтезировали с использованием набора для обратной транскрипции кДНК высокой емкости (Applied Biosystems, Foster City, California, USA) в соответствии с инструкциями производителя.Праймеры, перечисленные в дополнительной таблице 16 , использовали для амплификации двух эталонных генов β –актин и GAPDH для нормализации данных. Анализ qRT-PCR проводили в приборе Roche LightCycler 96 с использованием смеси PowerUp SYBR Green Master Mix (Applied Biosystems, Фостер-Сити, Калифорния, США). Относительный уровень экспрессии рассчитывали на основе двух технических повторов с использованием метода 2 -ΔΔCT 113 .

    Секвенирование

    образцов ДНК были выделены из целых личинок рыбок данио при 3 dpf и отправлены на секвенирование по Сэнгеру в TCAG (Торонто, Онтарио, Канада) для подтверждения эффективности разрезания экзонов, нацеленных на nrap, fhod3a и fhod3b gRNA. по сравнению с Cas9 только в качестве контроля.Инструмент анализа ICE CRISPR (Synthego, Menlo Park, CA) использовался для анализа изменений CRISPR в fhod3b .

    Сердечное фенотипирование рыбок данио

    Сердечное фенотипирование эмбрионов рыбок данио было выполнено при 3 dpf для оценки морфологии, размера и функции сердечной камеры. Для получения изображений с помощью микроскопа in vivo в естественных условиях, 3 личинки рыбок данио dpf анестезировали 0,02% трикаином и помещали в 3% метилцеллюлозу в чашки со стеклянным дном 50 мм. Видеоизображение было выполнено с помощью микроскопа Zeiss AXIO Zoom V16 с использованием PlanNeoFluar Z 1X / 0.Объектив 25 FWD 56 мм с увеличением 112x. Была использована функция Movie Recorder в программе Zen pro, и для каждого видео было снято примерно 100 кадров. Все видео были экспортированы со скоростью 17 кадров в секунду для дальнейшего анализа. Изображения были получены с помощью микроскопа Nikon Eclipse Ti в системе конфокальной визуализации Nikon A1 plus с использованием программы NIS-Elements. Площадь предсердий измерялась в конце систолы, а площадь желудочков измерялась в конце систолы и в конце диастолы с фракцией выброса желудочков, определяемой как (конечная диастолическая площадь - систолическая площадь желудочков) / конечная систолическая площадь желудочков x 100 с использованием ImageJ (). https: // imagej.nih.gov/ij/ ). Размеры предсердий и желудочков и фракция выброса желудочков сравнивали с использованием двустороннего непарного t-критерия Стьюдента для измерения значимых различий между мутантами ( nrap и fhod3 ) и контролями (Cas9 и дикого типа). Различия считались статистически значимыми при P <0,05.

    Доступность данных

    Данные секвенирования в настоящее время хранятся в Европейском архиве генома-фенома EGA и будут доступны для загрузки после утверждения Комитетом по доступу к данным.Дополнительные данные, полученные или проанализированные в ходе этого исследования, включены в файлы дополнительной информации, а дополнительные необработанные данные, используемые для рисунков и результатов, доступны у соответствующего автора по обоснованному запросу. Все вычислительные инструменты, использованные в этом исследовании, доступны как коммерческое программное обеспечение или программное обеспечение с открытым исходным кодом.

    Доступность данных

    Данные секвенирования в настоящее время хранятся в Европейском архиве генома-фенома EGA и будут доступны для загрузки после утверждения Комитетом по доступу к данным.Дополнительные данные, полученные или проанализированные в ходе этого исследования, включены в файлы дополнительной информации, а дополнительные необработанные данные, используемые для рисунков и результатов, доступны у соответствующего автора по обоснованному запросу. Все вычислительные инструменты, использованные в этом исследовании, доступны как коммерческое программное обеспечение или программное обеспечение с открытым исходным кодом.

    ФИНАНСИРОВАНИЕ

    Эта работа финансировалась Центром исследований сердца Теда Роджерса (SM и JE). SM владеет канадским фондом сердца и инсульта / кафедрой свободы Роберта М. в области сердечно-сосудистой науки.SWS является заведующим кафедрой геномных наук GlaxoSmithKline в Больнице для больных детей и Университете Торонто. PGM занимает должность канадского кафедры исследований 2 уровня по некодирующим механизмам заболеваний. PGM выражает признательность за поддержку Правительству Канадского фонда новых границ в исследованиях (NFRF), [NFRFE-2018-01305]. Е.О. является профессором семьи Битове по врожденным порокам сердца у взрослых. MM имеет грант Рамона-и-Кахала от Министерства науки и инноваций Испании (RYC-2017-22249). WO поддерживается фондом Fundació La Marató (321 / C / 2019).JB финансируется стипендией Франса Ван де Верфа для клинических исследований сердечно-сосудистой системы и стипендией старших клинических исследователей FWO Flanders. К.М. был научным сотрудником Национального научного фонда по гранту № DGE1144152 на протяжении большей части проекта. Проект «100 000 геномов» управляется Genomics England Limited (полностью принадлежащая Министерству здравоохранения и социальной защиты компания). Проект «100 000 геномов» финансируется Национальным институтом исследований в области здравоохранения и Национальной службой здравоохранения Англии.Wellcome Trust, Cancer Research UK и Совет медицинских исследований также финансировали исследовательскую инфраструктуру.

    CONSORTIA

    Исследовательский консорциум Genomics England

    Ambrose, J. C. 1 ; Arumugam, P. 1 ; Baple, E. L. 1 ; Бледа, М. 1 ; Boardman-Pretty, F. 1,2 ; Boissiere, J. M. 1 ; Boustred, C.R. 1 ; Brittain, H. 1 ; Caulfield, M. J. 1,2 ; Chan, G.C. 1 ; Крейг, К.E. H. 1 ; Daugherty, L.C. 1 ; de Burca, A. 1 ; Devereau, A. 1 ; Elgar, G. 1,2 ; Foulger, R.E. 1 ; Фаулер, Т 1 .; Furió-Tarí, P. 1 ; Giess A. 1 ; Hackett, J. M. 1 ; Halai, D. 1 ; Hamblin, A. 1 ; Henderson, S. 1,2 ; Holman, J. E. 1 ; Hubbard, T. J. P. 1 ; Ibáñez, K. 1,2 ; Jackson, R. 1 ; Джонс, Л.J. 1,2 ; Kasperaviciute, D. 1,2 ; Kayikci, M. 1 ; Kousathanas, A. 1 ; Lahnstein, L. 1 ; Lawson, K. 1 ; Leigh, S.E.A. 1 ; Leong, I.US. 1 ; Lopez, F. J. 1 ; Maleady-Crowe, F. 1 ; Mason, J. 1 ; McDonagh, E. M. 1,2 ; Moutsianas, L. 1,2 ; Mueller, M. 1,2 ; Murugaesu, N. 1 ; Need, A. C. 1,2 ; Odhams, C.A. 1 ; Ориоли А. 1 ; Патч, С. 1,2 ; Perez-Gil, D. 1 ; Pereira, M. B. 1 ; Polychronopoulos, D. 1 ; Pullinger, J. 1 ; Rahim, T. 1 ; Rendon, A. 1 ; Riesgo-Ferreiro, P. 1 ; Rogers, T. 1 ; Ryten, M. 1 ; Savage, K. 1 ; Sawant, K. 1 ; Scott, R.H. 1 ; Siddiq, A. 1 ; Sieghart, A. 1 ; Смедли, Д. 1,2 ; Smith, K. R. 1,2 ; Смит, С.С. 1 ; Сосинского, А. 1,2 ; Spooner, W. 1 ; Stevens, H.E. 1 ; Stuckey, A. 1 ; Sultana, R. 1 ; Tanguy M. 1 ; Thomas, E. R.A. 1,2 ; Thompson, S. R. 1 ; Tregidgo, C. 1 ; Tucci, A. 1,2 ; Walsh, E. 1 ; Watters, S.A. 1 ; Welland, M. J. 1 ; Williams, E. 1 ; Witkowska, K. 1,2 ; Вуд, С. М. 1,2 ; Заровецкий, М. 1

    1. Genomics England, Лондон, Великобритания

    2. Исследовательский институт Уильяма Харви, Лондонский университет Королевы Марии, Лондон, EC1M 6BQ, UK.

    ВКЛАД АВТОРА

    RL, AS, JE, SM разработали концепцию и разработали работу; Получены, проанализированы или интерпретированы RL, AS, OA, JB, TL, RY, FM, RRN, AM, QY, GM, MCSY, WWL, BT, GERC, JL, EO, LB, JS, TM, JE, SWS, SM данные; RL, OA, TL, RY, MCSY, WWL, BT выполнили биоинформатический анализ; KM, KD, WO, MM, PGM разработали, выполнили и проанализировали набор данных MPRA; RL, AS, SM составили оригинал рукописи; RL, AS, PGM, JE, SWS, SM существенно изменили его; и все авторы просмотрели и одобрили окончательную рукопись.

    КОНКУРЕНЦИЯ ИНТЕРЕСОВ

    SWS является научным консультантом Научно-консультативного совета по Deep Genomics Population Bio, и его исследовательские патенты, хранящиеся в Больнице для больных детей, лицензированы Lineagen и Athena Diagnostics. Другие авторы не сообщают о конфликте интересов.

    ДОПОЛНИТЕЛЬНЫЕ ОБОЗНАЧЕНИЯ ФИГУРЫ

    Дополнительная фигура 1: Результаты секвенирования редактирования генов у рыбок данио . Секвенирование по Сэнгеру отредактированных генами рыбок данио (n = 7) выявило высокое бремя мутаций в экзонах, нацеленных на 4 гРНК для (а) nrap и (б) fhod3ab по сравнению с контролем только Cas9.Панели показывают эталонную последовательность, расположение гРНК, целевой экзон, эффект только Cas9 по сравнению с гРНК CRISPR / Cas9 в эмбрионах рыбок данио. SNV, инделки и большие делеции показаны коричневым и синим цветом. nrap, fhod3a и fhod3b gRNAs вызвали редактирование CRISPR во всех инъецированных эмбрионах и были проанализированы с использованием программного обеспечения Synthego ICE по мере необходимости.

    Ref-seq, эталонная последовательность: гРНК, направляющая РНК; ICE, вывод CRISPR edits

    Дополнительный рисунок 2: Пути, обогащенные кодирующими белками и регуляторными вариантами в общей когорте (n = 228) .( a ) Онтология генов (категория молекулярных функций) и пути Reactome обогащены патогенными вариантами кодирования и сплайсинга белков. ( b ) Пути, обогащенные регуляторными вариантами уровня 1 высокого риска, включая категории, связанные с мышцами, связывание дистрогликана, рецепторы фактора роста фибробластов и пути Ras.

    Дополнительная фигура 3: Прогнозирующее влияние регуляторных вариантов на мотив связывания фактора транскрипции . SeqLogo использовался для прогнозирования нарушения мотива, вызванного вариантами в регуляторных элементах ( a, b ) BRAF , ( c ) DSP , ( d ) DTNA , ( e ) . FKRP , ( f, g ) FKTN , ( h, i ) LARGE1 , ( j ) PRKAG2 и ( k ) TGFB3 .Пара нуклеотидных оснований, обведенная красным прямоугольником, указывает положение варианта в мотиве. Анализ регуляторной последовательности вариантов показывает изменение одного нуклеотида в каждом варианте по сравнению с эталонной последовательностью, что приводит к нарушению мотивов факторов транскрипции, которое, как предполагается, связано с повышающей или понижающей регуляцией транскрипции целевого гена.

    Майор, контрольная последовательность; Риск, вариантная последовательность.

    Дополнительный рисунок 4: Люциферазные анализы в CMs, полученных из hiPSC .( и ) Использовали векторы репортерного гена люциферазы, несущие различные промоторные последовательности. Управляемый промотором контрольный вектор люциферазы Firefly (pGL4-13_luc2_SV40) и базовый вектор люциферазы Firefly без промотора (pGL4-10-luc2) использовали в качестве положительного и отрицательного контроля соответственно. Контрольные репортерные векторы Renilla Luciferase (вектор pRL_TK) использовали для нормализации условий трансфекции. Последовательности регуляторных элементов предсказанных вариантов и вариантов дикого типа были коммерчески синтезированы и клонированы отдельно во множественные сайты клонирования основных векторов люциферазы светлячка, pGL4.10_luc2. CMs, происходящие от hiPSC, котрансфицировали вектором люциферазы светлячка, несущим регуляторные последовательности отдельно, и контрольным репортерным вектором люциферазы Renilla. Люминесценцию детектировали с помощью системы анализа Dual-Luciferase® Reporter (DLR ™). (b ) Успешная дифференциация (окрашивание сердечного тропонина Т красным цветом) и трансфекция плазмиды pX601_GFP (зеленый) в кардиомиоциты, полученные из ИПСК PGP17 на 21 день, с использованием реагента для трансфекции ствола липофектамина. Увеличение: × 20. ( c ) qRT-PCR выполняли для обнаружения загрязнения ДНК в результате трансфекции пула плазмид 5 биологических реплик кардиомиоцитов PGP17.( d ) Унимодальное распределение штрих-кодов, которые представляют олигонуклеотиды, используемые в этом проекте. Ввод ДНК представляет собой пул плазмид олигонуклеотидов, в то время как реплики 1-5 (каждая репликация разделена на две дорожки HiSeq2500) проточных клеток представляют собой библиотеки tag-seq, полученные в результате трансфекций кардиомиоцитов. ( e ) Корреляция Пирсона для 5 повторов MPRA. hiPSC, индуцированная человеком плюрипотентная стволовая клетка; CM, кардиомиоциты; GFP, зеленый флуоресцентный белок; Р, плазмида; Пр, промоутер; En, Enhancer; Люк, Люцифераза; RES, последовательность регуляторного элемента, WT, дикий тип; V - вариант; rep, replicate

    ДОПОЛНИТЕЛЬНЫЕ ТАБЛИЦЫ

    Дополнительная таблица 1: Клинические характеристики пробандов детской кардиомиопатии в когорте обнаружения (n = 228).

    Дополнительная таблица 2: Список генов кардиомиопатии.

    Дополнительная таблица 3: Гены кардиомиопатии, несущие патогенные или вероятные патогенные кодирующие SNV и инделы (n = 228 несвязанных случаев).

    Дополнительная таблица 4: вариантов числа копий, влияющих на гены кардиомиопатии (n = 228 несвязанных случаев).

    Дополнительная таблица 5: Варианты потери функции в новых генах кардиомиопатии (n = 228 несвязанных случаев).

    Дополнительная таблица 6 : Варианты потери функции в NRAP и FHOD3 в когортах обнаружения кардиомиопатии (n = 228) и репликации (n = 1266).

    Дополнительная таблица 7: SNV уровня 1 высокого риска (и кандидат) в регуляторных элементах генов кардиомиопатии (n = 228 случаев)

    Дополнительная таблица 8 : SNV уровня 1 в регуляторных элементах генов кардиомиопатии, оцененные MPRA (n = 228 случаев)

    Дополнительная таблица 9: Регуляторные области генов кардиомиопатии для картирования некодирующих вариантов.

    Дополнительная таблица 10: нормализованные данные RNAseq для генов с CNV высокого риска, LoF и регуляторные варианты

    Дополнительная таблица 11: пар праймеров для qRT-PCR в миокарде LV генов-кандидатов, несущих регуляторные варианты.

    Дополнительная таблица 12: Антитела, используемые для вестерн-блоттинга и иммуногистохимии

    Дополнительная таблица 13: Синтез промоторных и энхансерных последовательностей гена для анализов люциферазы.

    Дополнительная таблица 14: Дизайн одиночных направляющих РНК для нацеливания новых генов в эмбрионах рыбок данио.

    Дополнительная таблица 15: пар праймеров для редактирования CRISPR-Cas9 новых генов в эмбрионах рыбок данио.

    Дополнительная таблица 16: пар праймеров для qRT-PCR для новых генов, на которые нацелено редактирование гена CRISPR-Cas9 в эмбрионах рыбок данио.

    БЛАГОДАРНОСТИ

    Мы благодарим семейный кардиологический центр Лабатт Биобанк при больнице для больных детей за доступ к образцам ДНК для полногеномного секвенирования и Центр прикладной геномики при больнице для больных детей за выполнение секвенирования. Мы благодарим Xiucheng Cui и Emanuela Pannia за выполнение экспериментов с рыбками данио в SickKids Zebrafish Genetics and Disease Models Core (синтез CRISPR-Cas9 и gRNA, микроинъекции эмбрионов рыбок данио, валидация gRNA PCR, qRT-PCR, визуализация сердца).

    Добавить комментарий

    Ваш адрес email не будет опубликован. Обязательные поля помечены *