Группа ученых из Германии, Америки и России, при участии заведующего кафедрой Московского физико-технического института (МФТИ) Марка Бородовского, предложили алгоритм, который автоматизирует и делает более эффективным поиск генов. Разработка соединяет в себе преимущества наиболее продвинутых инструментов для работы с геномными данными. Новый метод позволит точнее и быстрее анализировать новые последовательности ДНК и находить полный набор генов в геноме.

Хотя статья описывающая алгоритм была только недавно опубликована на страницах журнала Bioinformatics издаваемого Oxford Journals, предложенный метод успел показать и доказать свою актуальность- компьютерную программу уже скачали более 1500 различных центров и лабораторий по всему миру. Тестирование алгоритма показывает его существенно более высокую точность по сравнению с другими алгоритмами. Представленная разработка относится к области биоинформатики — дисциплины «на стыке наук».

Биоинформатика- это набор методов математики. статистики и информатики, применяемых для исследования биологических молекул, таких как ДНК, РНК, белки. ДНК, фундаментально информационная молекула, иногда даже изображается в компьютеризованном виде (см. рисунок 1), чтобы подчеркнуть ее роль, как молекулы биологической памяти. Популярность биоинформатики велика, ведь каждый новый просеквенированный геном порождает столько новых вопросов, что ученые просто не успевают на них отвечать. Время специалистов, как и сами специалисты, ценится на вес золота. Именно поэтому автоматизация процессов — залог успеха любого биоинформатика, и подобные алгоритмы очень нужны для решения различных задач.

Рис. 1 Стилизованное изображение ДНК

Рис. 1 Стилизованное изображение ДНК

Одной из важных задач биоинформатики является аннотация генома — определение того, с каких именно участков молекулы ДНК синтезируются РНК и белки (см. рисунок 2). Такие области — гены — представляют особый научный интерес. Дело в том, что для многих исследований нужна информация не обо всей ДНК (длина которой составляет 2 метра только для одной человеческой клетки), а о ее наиболее информативной части — генах. Выявление генных участков происходит на основе поиска сходства фрагментов последовательности с уже известными генами или путем обнаружения характерных для генов закономерностей чередования нуклеотидов. Этот процесс осуществляется с помощью предсказательных алгоритмов.

Найти генныe участки — нетривиальная задача, особенно в эукариотических организмах, к которым относятся практически все широко известные виды, кроме бактерий. Это происходит из-за того, что у таких клеток передача наследственной информация усложнена наличием «разрывов» в кодирующих областях (интронов) и отсутствием однозначных признаков для определения того, является ли область кодирующей или нет.

Рис. 2 Схема передачи наследственной инфор...

Рис. 2 Схема передачи наследственной информации в клетке

Алгоритм, предложенный учеными, определяет, какие области в ДНК являются генами, а какие-нет. Для этого можно использовать марковскую цепь (последовательность случайных событий, будущее которых зависимо от прошлого), обучаемую на уже известных генах. Состояниями цепи в данном случае являются либо нуклеотиды, либо нуклеотидные слова. Алгоритм определяет наиболее вероятное разбиение генома на кодирующие и некодирующие области, наилучшим образом классифицирующую геномные фрагменты по их способности кодировать белки или РНК. Экспериментальные данные, полученные из РНК, дают дополнительную полезную информацию, на которой можно обучить модель используемую в алгоритме. Некоторые программы-предсказатели генов могут использовать эти данные для улучшения точности нахождения генов. Однако такие алгоритмы требуют обучающую выборку, на которой будет происходить видо-специфичная тренировка модели. Например, для программы AUGUSTUS, показывающей высокую точность, необходима тренировочная выборка из генов. Такое множество можно получить с помощью другой программы- GeneMark-ET — которая относится к категории само-тренирующихся алгоритмов. Эти два алгоритма и объединил алгоритм BRAKER1 предложенный совместно авторами AUGUSTUS и GeneMark-ET.

BRAKER1 показал высокую эффективность. Разработанную программу скачало уже более 1500 различных центров и лабораторий. Тестирование алгоритма показывает его существенно более высокую точность по сравнению с другими алгоритмами. Примерный хронометраж BRAKER1 на одном процессоре составляет ∼17.5 часов для обучения и предсказания генов на геноме длиной 120 миллионов пар оснований. Это хороший результат, учитывая, что время может быть значительно уменьшено за счет использования параллельных процессоров, а значит в перспективе алгоритм может работать еще быстрее и, в целом, эффективнее.

Подобные инструменты помогают решать множество различных задач. Точная аннотация генов в геноме черезвычайно важна. Например, уже опубликованы первые результаты глобального проекта «1000 человеческих геномов», запущенного в 2008 году при содействии 75 лабораторий и компаний. В результате было обнаружено последовательностей редких генных вариантов — замен в генах, некоторые из которых приводят к болезням. При диагностике генетических заболеваний очень важно понимать, какие замены в участках генов приводят возникновению болезней. В процессе проекта расшифровываются геномы различных людей, особенно кодирующие их части и выявляются редкие замены нуклеотидов. В будущем это поможет медикам диагностировать такие сложные заболевания, как болезни сердца, диабет и рак. BRAKER1 позволяет эффективно работать с геномами новых организмов ускоряя аннотацию геномов и получение критически важных знаний в науке о живой природе.