Открытая биоинформатическая платформа для анализа и интерпретации геномных данных
Цели проекта
- Разработать открытую модульную расширяемую биоинформатическую платформу для анализа и интерпретации геномных данных.
- Создать открытое хранилище сценариев анализа геномных данных.
- Разработать сценарии для анализа и интерпретации различных типов геномных данных.
- Формализация международных и отечественных рекомендаций по интерпретации SNV в виде расширяемого набора эксплицитных правил.
- Протестировать предложенные подходы на большом объеме различных геномных данных.
Актуальность проекта
- Отсутствие биоинформатической платформы, которая бы широко использовалось различными группами врачей, исследователей, лаборантов и т.п. и выступала в роли некоторого стандарта.
- Для решения одинаковых задач анализа геномных данных (например, метагеномный анализ, сборка геномов, rna-seq анализ) разработано множество сценариев, разного уровня качества, на разных языках программирования (bash, python) или языках написания сценариев (Nextflow, WDL, CWL, Snakemake и т.п.).
- Интерпретация геномных данных является сложной наукоемкой задачей. Существует ряд международных и отечественных рекомендаций по интерпретации SNV, CNV и геномных перестроек (SV). Однако нет открытой биоинформатической платформы, которая бы позволяла формализовать эти рекомендации в виде расширяемого набора эксплицитных правил.
- Многие биотехнологические компании и группы исследователей изобретают свой “велосипед” для анализа и интерпретации геномных данных. С одной стороны это приводит к неэффективному использованию человеческих и финансовых ресурсов - многократное решение одной и той же задачи, с другой стороны, в силу ограниченности ресурсов таких коллективов, разрабатываемые решения имеют множество ограничений и сложности с качеством, документацией и поддержкой.