Исследователи Амстердамского университета совместно с коллегами из Университета Квинсленда и Норвежского института водных исследований разработали стратегию с использованием машинного обучения для оценки токсичности химических веществ. Они представляют свой подход в статье в журнале Environmental Science & Technology для специального выпуска "Наука о данных для развития науки об окружающей среде, инженерии и технологии". Модели, разработанные в этом исследовании, могут привести к существенным улучшениям по сравнению с традиционными оценками "in silico", основанными на количественном моделировании взаимосвязи структуры и активности (QSAR).
По мнению исследователей, использование машинного обучения может значительно улучшить оценку опасности молекул, как при разработке новых химических веществ, так и при оценке существующих химических веществ. Важность последнего иллюстрируется тем фактом, что европейские и американские химические агентства перечислили примерно 800 000 химических веществ, которые были разработаны за эти годы, но о судьбе или токсичности которых практически ничего не известно. Поскольку экспериментальная оценка химического состава и токсичности требует много времени, усилий и ресурсов, для прогнозирования показателей опасности уже используются подходы моделирования. В частности, часто применяется моделирование количественной взаимосвязи структура-активность (QSAR), связывающее молекулярные особенности, такие как расположение атомов и трехмерная структура, с физико-химическими свойствами и биологической активностью. Основываясь на результатах моделирования (или измеренных данных, если таковые имеются), эксперты классифицируют молекулу по категориям, определенным, например, в Согласованной на глобальном уровне системе классификации и маркировки химических веществ (СГС). Для определенных категорий молекулы затем подвергаются дополнительным исследованиям, более активному мониторингу и, в конечном счете, законодательству. Однако этому процессу присущи недостатки, многие из которых можно отнести к ограничениям моделей QSAR. Они часто основаны на очень однородных тренировочных наборах и предполагают линейную взаимосвязь структура-активность для проведения экстраполяций. В результате многие химические вещества недостаточно хорошо представлены в существующих моделях QSAR, и их использование потенциально может привести к существенным ошибкам в прогнозировании и неправильной классификации химических веществ. В своей статье, опубликованной в журнале Environmental Science & Technology, доктор Саер Саманипур и соавторы предлагают альтернативную стратегию оценки, которая полностью пропускает этап прогнозирования QSAR. Саманипур, специалист по анализу окружающей среды из Института молекулярных наук Ван т Хоффа Амстердамского университета, объединился с доктором Антонией Преториус, химиком-экологом из Института биоразнообразия и динамики экосистем того же университета. Вместе с коллегами из Университета Квинсленда и Норвежского института водных исследований они разработали стратегию, основанную на машинном обучении, для прямой классификации острой токсичности химических веществ в водной среде на основе молекулярных дескрипторов. Модель была разработана и протестирована с использованием 907 экспериментально полученных данных об острой токсичности рыбы (значения 96h LC50). Новая модель пропускает явное предсказание значения токсичности (96h LC50) для каждого химического вещества, но непосредственно классифицирует каждое химическое вещество по ряду заранее определенных категорий токсичности. Эти категории могут, например, быть определены конкретными правилами или системами стандартизации, как показано в статье с категориями СГС для острой водной опасности. Модель объясняла около 90% различий в данных, используемых в обучающем наборе, и около 80% для данных тестового набора. Прогнозы с более высокой точностью Эта стратегия прямой классификации привела к пятикратному уменьшению неправильной категоризации по сравнению со стратегией, основанной на регрессионной модели QSAR. Впоследствии исследователи расширили свою стратегию, чтобы предсказать категории токсичности большого набора из 32 000 химических веществ. Они демонстрируют, что их подход к прямой классификации приводит к более точным прогнозам, поскольку экспериментальные наборы данных из разных источников и для разных химических семейств могут быть сгруппированы для создания больших обучающих наборов. Он может быть адаптирован к различным предопределенным категориям в соответствии с различными международными правилами и системами классификации или маркировки. В будущем прямой классификационный подход может быть также распространен на другие категории опасности (например, хроническая токсичность), а также на судьбу окружающей среды (например, мобильность или стойкость) и демонстрирует большой потенциал для улучшения инструментов in-silico для оценки химической опасности и риска. | |
Просмотров: 158 | |