Новая разработка Центра алгоритмической биотехнологии СПбГУ, получившая название СoronaSPAdes, позволяет изучать геномы РНК-вирусов, в первую очередь коронавирусов. Применение нового модуля уже позволило изучить последовательности геномов ранее неизвестных коронавирусов.
СoronaSPAdes — модификация флагманского продукта лаборатории «Центр алгоритмической биотехнологии» СПбГУ, сборщика геномов SPAdes (Saint Petersburg Assembler). SPAdes известен во всем мире и неоднократно признавался лучшим инструментом для изучения генома бактерий. С помощью SPAdes ученые из разных стран анализируют патогены, вызвавшие в свое время такие эпидемии как вспышка Ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, менингита в Гане, и десятки других.
«На создание модуля СoronaSPAdes нас подвигли запросы научного сообщества. Из разных лабораторий к нам поступали многочисленные вопросы о том, как лучше с помощью утилит семейства SPAdes собирать РНК-вирусы» - рассказывает сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников.
Перед учеными была поставлена задача создать новый модуль, который учитывает уникальные особенности строения генома коронавирусов и данных секвенирования. Первая версия СoronaSPAdes была разработана всего за пару недель. Сегодня создатели сборщика заняты его дальнейшим совершенствованием.
Задача чтения генома состоит из двух частей: секвенирование — извлечение кусочков ДНК и затем сборка в единую конструкцию. ДНК человека состоит из 3 млрд элементов, называемых "буквами". Павел Певзнер, ученый с мировым именем и руководитель Центра алгоритмической биотехнологии, созданного в рамках конкурса Мегагрантов, так объясняет вставшую перед ним научную задачу: "Проблема в том, что современные машины не могут прочесть всю строку целиком. Они "режут" ДНК на кусочки по 200-300 "букв" и читают их. Затем нужно собрать эти сотни миллионов кусочков в единую строку — по фрагментам восстановить геном. Часть данных при этом оказывается поврежденной, часть дублируется, а часть отсутствует вовсе. Представьте, что вы взяли пачку газет, разрезали на миллион кусков длиной в несколько слов, часть сожгли, часть испортили, перемешали. А затем из всего этого вам нужно сложить газету обратно. Но еще одной проблемой является то, что в отличие от газет в рассматриваемых "строчках" отсутствует контекст. И они состоят из четырех букв, что делает их до невозможности однообразными». Эта задача относится к одной из самых сложных алгоритмических проблем в биоинформатике, и, чтобы ее решить, необходимо использовать специальные инструменты — геномные сборщики. Сборщик SPAdes и различные режимы его работы позволяют производить расшифровку геномов живых организмов, в том числе вирусов.
Первым делом новую разработку опробовали на открытых хранилищах данных – репозиториях, куда ученые со всего мира отправляют свои результаты расшифровки геномов различных существ. Результаты оказались обескураживающими: Изучив информацию из репозитория при Национальном институте здоровья в США, ученые выяснили, что помимо 43 известных коронавирусов на свете существует еще как минимум несколько десятков неизученных.
- Насколько они опасны – сказать пока сложно, - констатирует заместительь директора Центра алгоритмической биотехнологии СПбГУ Алла Лапидус. – Для этого нужно в первую очередь нужно больше данных для изучения и понять как давно они циркулируют в природе. Если вирус достаточно «свежий», то да, его, возможно, стоит опасаться и обратить на него особое внимание с точки зрения его переселения в человека. Если же он живет среди нас уже достаточно давно, то, скорее всего, и опасности никакой не представляет. В 2020 году эпидемиологическая обстановка в мире не позволяет ученым и медикам расслабиться — не успели еще справиться с коронавирусом, как появились сообщения о, возможно, новом штамме свиного гриппа, получившем название G4 EA H1N1. Выяснить, действительно ли этот штамм новый или ранее известный сезонный штамм, в первую очередь поможет анализ его генома. А на днях появились сообщения о случаях бубонной чумы в Китае, вызываемой бактерией Yersinia pestis. В такой непростой обстановке возрастает не только потребность в аналитических методах, но и в грамотных специалистах. В этом году прошел первый в истории СПбГУ выпуск магистерской программы "Биоинформатика", и я желаю нашим выпускникам больших научных достижений и открытий».
Читать подробнее: Пресс-служба СПбГУ