Новый программный инструмент позволяет исследователям быстро запрашивать наборы данных, полученные в результате секвенирования одной клетки. Пользователи могут определить, в каких типах клеток активна любая комбинация генов. Опубликованное в журнале Nature Methods 1 марта программное обеспечение открытого доступа scfind позволяет быстро анализировать множество наборов данных, содержащих миллионы ячеек, широким кругом пользователей на стандартном компьютере.
Время обработки таких наборов данных составляет всего несколько секунд, что экономит время и вычислительные затраты. Инструмент, разработанный исследователями из Института Wellcome Sanger Institute, может использоваться во многом как поисковая система, поскольку пользователи могут вводить свободный текст, а также имена генов.
Методы секвенирования генетического материала из отдельной клетки быстро развивались в течение последних 10 лет. Одноклеточное секвенирование РНК (scRNAseq), используемое для оценки того, какие гены активны в отдельных клетках, может быть использовано на миллионах клеток одновременно и генерирует огромные объемы данных (2,2 ГБ для Атласа почек человека). Проекты, включающие Атлас клеток человека и Атлас клеток малярии, используют такие методы для выявления и характеристики всех типов клеток, присутствующих в организме или популяции. Данные должны быть легко доступны и запрашиваться широким кругом исследователей, чтобы получить от них максимальную ценность.
Чтобы обеспечить быстрый и эффективный доступ, новый программный инструмент под названием scfind использует двухэтапную стратегию сжатия данных ~в 100 раз. Эффективная декомпрессия позволяет быстро запрашивать данные. Разработанный исследователями из Института Wellcome Sanger, scfind может выполнять крупномасштабный анализ наборов данных, включающих миллионы ячеек, на стандартном компьютере без специального оборудования. Запросы, которые раньше требовали дней, чтобы вернуть результат, теперь занимают секунды.
Новый инструмент также может быть использован для анализа мульти-омических данных, например, путем объединения одноклеточных данных ATAC-seq, измеряющих эпигенетическую активность, с данными scRNAseq.
Доктор Джимми Ли, аспирант Института Уэллкома Сэнгера и ведущий автор исследования, сказал: "Достижения методов мультиомики открыли беспрецедентную возможность оценить ландшафт и динамику регуляторных сетей генов. Scfind поможет нам идентифицировать геномные области, которые регулируют активность генов, даже если эти области находятся далеко от их целей."
Scfind также может быть использован для идентификации новых генетических маркеров, которые связаны с типом клетки или определяют его. Исследователи показывают, что scfind является более точным и точным методом для этого, по сравнению с ручными базами данных или другими доступными вычислительными методами.
Чтобы сделать scfind более удобным для пользователя, он включает в себя методы обработки естественного языка, позволяющие выполнять произвольные запросы.
Доктор Мартин Хемберг, бывший руководитель группы в Институте Уэллкома Сэнгера, а ныне в Гарвардской медицинской школе и женской больнице Бригама, сказал: "Анализ наборов данных одноклеточных обычно требует базовых навыков программирования и знаний в области генетики и геномики. Чтобы обеспечить доступ к большим наборам данных с одной ячейкой для широкого круга пользователей, мы разработали инструмент, который может функционировать как поисковая система-позволяя пользователям вводить любой запрос и находить соответствующие типы ячеек."
Доктор Джона Кул, руководитель научной программы Инициативы Чана Цукерберга, сказал: "Новые, более быстрые методы анализа имеют решающее значение для поиска многообещающих идей в одноклеточных данных, в том числе в Атласе клеток человека. Удобные инструменты, такие как scfind, ускоряют темпы развития науки и способность исследователей строить свою работу на основе работы друг друга, и Инициатива Чана Цукерберга с гордостью поддерживает команду, разработавшую эту технологию." | |
Просмотров: 316 | |