Лаборатория Алгоритмической Биологии Академического Университета Российской академии наук (РАН) и Центр исследований и разработок EMC по облачным вычислениям и большим данным (НИЦ EMC) поделились первыми результатами совместного проекта, который направлен на упрощение диагностики онкологических заболеваний при помощи РНК-секвенирования.

В рамках проекта в лаборатории был разработан сборщик данных секвенирования РНК rnaSPAdes, который при объединении с программой ENOSI должен облегчить поиск мутаций и гибридных генов. Специалисты ожидают, что технология позволит увеличить точность результатов, получаемых в ходе эксперимента, а значит быстрее находить гибридный ген или мутацию, которая является причиной развития онкологических заболеваний. Так как при таком подходе необходимо обрабатывать большие объемы данных секвенирования РНК и масс-спектрометрии белков, в НИЦ ЕМС было решено создать облачную платформу, которая позволила бы эффективно хранить данные и производить их анализ.

«Генетические данные требуют огромных емкостей для хранения — один только референсный геном одного человека занимает 3Гб. Данные секвенирования, полученные в результате эксперимента, могут занимать от 10 до сотни гигабайт в зависимости от его сложности. Облачная инфраструктура для хранения генетических данных и выполнения биоинформатических вычислений, созданная экспертами НИЦ ЕМС, позволит нам обрабатывать, анализировать и структурированно хранить полученные данные от сотен экспериментов одновременно, что значительно облегчит работу ученых по выявлению гибридных генов», — отметил Андрей Пржибельский, научный сотрудник Лаборатории Алгоритмической Биологии Академического Университета РАН.

Технологии, разрабатываемые в Научно-исследовательском центре ЕМС, предназначены для использования в узкоспециализированных отраслях, таких как медицина. Недавно эксперты ЕМС представили новое решение — платформу Cranberry, которая обеспечивает безопасное структурированное хранение данных секвенирования вместе с их описаниями, что значительно облегчает поиск нужной информации по сложным запросам и упрощает работу ученых.