Масштабируемая структура разреженной нейронной сети для аннотации одиночных типов редких клеток.

Новости

ДомДом / Новости / Масштабируемая структура разреженной нейронной сети для аннотации одиночных типов редких клеток.

Mar 14, 2023

Масштабируемая структура разреженной нейронной сети для аннотации одиночных типов редких клеток.

Том коммуникативной биологии

Биология связи, том 6, Номер статьи: 545 (2023) Цитировать эту статью

1312 Доступов

15 Альтметрика

Подробности о метриках

Методы автоматической аннотации типов клеток все чаще используются при анализе секвенирования одноклеточной РНК (scRNA-seq) из-за их быстрых и точных преимуществ. Однако современные методы часто не учитывают дисбаланс наборов данных scRNA-seq и игнорируют информацию от меньших популяций, что приводит к значительным ошибкам биологического анализа. Здесь мы представляем scBalance, интегрированную структуру разреженной нейронной сети, которая включает в себя методы адаптивной выборки веса и исключения для задач автоматического аннотирования. Используя 20 наборов данных scRNA-seq с различными масштабами и степенью дисбаланса, мы демонстрируем, что scBalance превосходит текущие методы как в задачах аннотации внутри, так и между наборами данных. Кроме того, scBalance демонстрирует впечатляющую масштабируемость при идентификации редких типов клеток в наборах данных миллиона уровней, как показано на ландшафте бронхоальвеолярных клеток. scBalance также работает значительно быстрее, чем обычно используемые инструменты, и имеет удобный для пользователя формат, что делает его превосходным инструментом для анализа scRNA-seq на платформе Python.

С момента первого создания секвенирования одноклеточной РНК (scRNA-seq) Tang et al. В 20091 году эта технология быстро стала популярной среди ученых в различных областях биологических исследований. По сравнению с традиционным объемным секвенированием РНК, которое измеряет только средний уровень экспрессии генов в образцах, scRNA-seq обеспечивает мощный метод профилирования транскриптомов на клеточно-специфическом уровне. Таким образом, это может позволить анализировать отдельные клетки и дать более информативное представление о клеточной гетерогенности. Разработка технологии scRNA-seq широко используется в нескольких областях биологических исследований, таких как исследования рака2,3, анализ COVID4,5, исследования в области биологии развития6 и т. д. В этих исследованиях обнаружение и идентификация клеточных популяций является одной из наиболее важных задач. задания.

Обычно аннотация типа клеток включает в себя два этапа: (1) кластеризацию клеток в разные подгруппы и (2) маркировку каждой группы определенным типом вручную на основе ранее известных маркерных генов. Был разработан ряд алгоритмов машинного обучения без учителя, в том числе классические методы машинного обучения, такие как Seurat7 и Scanpy8, а также недавно опубликованные методы глубокого обучения, такие как scDHA9 и CLEAR10. Однако эти методы могут быть трудоемкими и обременительными. Для тех, кто не слишком хорошо знаком с маркерными генами, этот подход может потребовать гораздо больше времени, чем ожидалось. Автоматические методы аннотирования типов ячеек, напротив, не страдают от процесса маркировки вручную. В отличие от неконтролируемых методов, инструменты автоматической идентификации типов клеток в основном разработаны на основе контролируемых структур обучения. Благодаря своим быстрым и точным характеристикам они становятся доминирующими инструментами для идентификации типов клеток в экспериментах с отдельными клетками. Благодаря беспрецедентному буму хорошо аннотированного атласа scRNA-seq и быстрому продвижению проекта «Атлас клеток человека»11,12 перед инструментами автоматического аннотирования открываются более широкие перспективы, чем когда-либо прежде. На сегодняшний день разработано и опубликовано 32 инструмента автоматического аннотирования13. Например, SingleCellNet14 использует классификатор случайного леса для решения задач межплатформенной и межвидовой аннотации. ACTINN15 реализует простую искусственную нейронную сеть для преодоления пакетного эффекта.

Хотя в последние годы было создано множество инструментов, большинство из них часто не могут идентифицировать всю популяцию из-за существования редких типов клеток. С точки зрения клеточного состава наборы данных scRNA-seq всегда несбалансированы и имеют общие типы клеток и редкие типы клеток. Редкая популяция представляет собой небольшую часть клеток в наборе одноклеточных данных. Например, дендритные клетки обычно занимают 1–5% мононуклеарных клеток периферической крови (РВМС), особенно в больших наборах данных16,17. Когда мы обучаем инструмент автоматического аннотирования, классификатор постоянно не может изучить свою информацию, поэтому трудно идентифицировать эти типы ячеек в наборе данных запроса. Однако эти редкие популяции могут иметь решающее значение, особенно в исследованиях болезней18. Недавно некоторые методы обнаружения кластеров заметили этот момент19,20, но лишь немногие методы классификации фокусировались на дисбалансе клеточной популяции. Между тем, мы также обнаруживаем, что существующие методы имеют два других основных недостатка. (1) Отсутствие масштабируемости. Современные экспериментальные платформы scRNA-seq позволяют исследовать клетки миллиона уровней21,22. Примечательно, что один из последних атласов PBMC COVID достиг 1,5 миллиона клеток17. Таким образом, ограничение скорости вычислений сделает пакеты автоматических аннотаций плохо масштабируемыми для набора данных миллионного уровня. Более того, крупномасштабные справочные наборы данных усложняют изучение редких типов клеток при обучении классификаторов, из-за чего в современном программном обеспечении становится сложнее идентифицировать минорные группы. В последней опубликованной статье масштаб обучения увеличен до 600 тыс. ячеек23, однако ни один из опубликованных инструментов не сообщает о масштабируемости атласа клеток на миллионном уровне. (2) Совместимость существующих инструментов не так хороша, как ожидалось. Среди существующих инструментов на основе Python большинство инструментов, таких как ACTINN15, scPretrain24, scCapNet25 и MarkerCount26, основаны на сценариях. Учитывая, что Seurat и Scanpy являются пакетами, которые можно загрузить из стандартного репозитория программного обеспечения (например, PyPI), запуск внешнего сценария Python на сервере добавит дополнительную нагрузку на пользователя. Кроме того, некоторые инструменты больше не обслуживаются или ими невозможно пользоваться. Все эти проблемы вместе делают необходимым новый инструмент аннотирования, обладающий сбалансированной способностью масштабируемо маркировать основные и второстепенные типы ячеек.