Jan 28, 2024
Использование машинного обучения для улучшения оценки токсичности химических веществ
Исследователи Амстердамского университета совместно с коллегами из
Исследователи Амстердамского университета совместно с коллегами из Университета Квинсленда и Норвежского института водных исследований разработали стратегию оценки токсичности химических веществ с помощью машинного обучения.Они представляют свой подход в статье в области наук об окружающей среде и технологиях для специального выпуска «Наука о данных для развития науки об окружающей среде, техники и технологий». Модели, разработанные в этом исследовании, могут привести к существенным улучшениям по сравнению с традиционными оценками in silico, основанными на моделировании количественной зависимости структура-активность (QSAR).
По мнению исследователей, использование машинного обучения может значительно улучшить оценку опасности молекул как при разработке безопасных по дизайну новых химических веществ, так и при оценке существующих химических веществ. Важность последнего иллюстрируется тем фактом, что химические агентства Европы и США перечислили около 800 000 химических веществ, которые были разработаны за прошедшие годы, но о воздействии на окружающую среду или токсичности которых практически ничего не известно.
Поскольку экспериментальная оценка судьбы и токсичности химических веществ требует много времени, усилий и ресурсов, подходы к моделированию уже используются для прогнозирования показателей опасности. В частности, часто применяется моделирование количественной зависимости структура-активность (QSAR), связывающее молекулярные особенности, такие как расположение атомов и трехмерная структура, с физико-химическими свойствами и биологической активностью. На основе результатов моделирования (или данных измерений, если таковые имеются) эксперты классифицируют молекулу по категориям, как это определено, например, в Согласованной на глобальном уровне системе классификации и маркировки химических веществ (СГС). Молекулы конкретных категорий затем подвергаются дополнительным исследованиям, более активному мониторингу и, в конечном итоге, законодательству.
Однако этому процессу присущи недостатки, большая часть которых связана с ограничениями моделей QSAR. Они часто основаны на очень однородных обучающих наборах и предполагают линейную связь структура-деятельность для экстраполяции. В результате многие химические вещества недостаточно хорошо представлены в существующих моделях QSAR, и их использование потенциально может привести к существенным ошибкам прогнозирования и неправильной классификации химических веществ.
В статье, опубликованной в журнале Environmental Science & Technology, доктор Саер Саманипур и соавторы предлагают альтернативную стратегию оценки, которая вообще пропускает этап прогнозирования QSAR. Саманипур, ученый-эколог-аналитик из Института молекулярных наук Ван 'т Хоффа Амстердамского университета, объединился с доктором Антонией Преториус, химиком-экологом из Института биоразнообразия и динамики экосистем того же университета. Вместе с коллегами из Университета Квинсленда и Норвежского института водных исследований они разработали стратегию машинного обучения для прямой классификации острой водной токсичности химических веществ на основе молекулярных дескрипторов.
Модель была разработана и протестирована на основе 907 экспериментально полученных данных об острой токсичности для рыб (значения LC50 за 96 часов). Новая модель пропускает явный прогноз значения токсичности (96 часов LC50) для каждого химического вещества, но напрямую классифицирует каждое химическое вещество по ряду заранее определенных категорий токсичности. Эти категории могут, например, определяться специальными правилами или системами стандартизации, как показано в статье с категориями СГС для острых водных опасностей. Модель объяснила около 90 процентов дисперсии данных, используемых в обучающем наборе, и около 80 процентов для данных тестового набора.
Эта стратегия прямой классификации привела к пятикратному уменьшению количества неправильных категорий по сравнению со стратегией, основанной на регрессионной модели QSAR. Впоследствии исследователи расширили свою стратегию, чтобы предсказать категории токсичности большого набора из 32 000 химических веществ.
Они демонстрируют, что их подход прямой классификации приводит к более точным прогнозам, поскольку экспериментальные наборы данных из разных источников и для разных химических семейств могут быть сгруппированы для создания более крупных обучающих наборов. Его можно адаптировать к различным заранее определенным категориям, как это предписано различными международными правилами и системами классификации или маркировки. В будущем подход прямой классификации также может быть расширен на другие категории опасностей (например, хроническая токсичность), а также на судьбу окружающей среды (например, мобильность или стойкость) и демонстрирует большой потенциал для улучшения инструментов in silico для определения химической опасности и риска. оценка.