Компьютерные инженеры в крупнейших мировых компаниях и университетах используют машины для сканирования томов письменных материалов. Цель? Научить эти машины дару речи. Сделав это, некоторые даже утверждают, и компьютеры смогут имитировать человеческий мозг.
Но эта впечатляющая вычислительная способность сопряжена с реальными издержками, включая увековечение расизма и нанесение значительного ущерба окружающей среде, согласно новой статье "Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими?" Этот документ будет представлен в среду, 10 марта, на конференции ACM по вопросам справедливости, подотчетности и прозрачности (ACM FAccT).
Это первый исчерпывающий обзор литературы, посвященной рискам, связанным с быстрым ростом технологий изучения языка, сказала Эмили М. Бендер, профессор лингвистики Вашингтонского университета и ведущий автор статьи вместе с Тимнитом Гебру, известным исследователем искусственного интеллекта.
"Вопрос, который мы задаем, заключается в том, каковы возможные опасности такого подхода, и ответы, которые мы даем, включают в себя изучение литературы по широкому спектру областей и объединение их вместе", - сказал Бендер, который является профессором UW Howard and Frances Nostrand.
Исследователи обнаружили, что у постоянно растущей вычислительной мощности, заложенной в модели естественного языка, есть свои недостатки. Они обсуждают, как постоянно увеличивающийся объем обучающих данных для языкового моделирования усугубляет социальные и экологические проблемы. Тревожно, что такие языковые модели увековечивают господствующий язык и могут обмануть людей, заставляя их думать, что они ведут "реальный" разговор с человеком, а не с машиной. Возросшие вычислительные потребности этих моделей еще больше способствуют ухудшению состояния окружающей среды.
Авторы были мотивированы написать эту статью из-за тенденции в этой области к все более крупным языковым моделям и их растущим сферам влияния.
Статья уже вызвала широкое внимание, отчасти из-за того, что два соавтора статьи говорят, что их недавно уволили из Google по причинам, которые остаются нерешенными. Маргарет Митчелл и Гебру, два теперь уже бывших исследователя Google, заявили, что они поддерживают стипендию статьи и указывают на ее выводы как на громкий призыв к промышленности прислушаться.
"Совершенно ясно, что решение проблем должно произойти прямо сейчас, потому что уже становится слишком поздно", - сказал Митчелл, исследователь ИИ.
Бендер сказал, что для подпитки программ на языке моделей требуется огромное количество вычислительной мощности. Это поглощает энергию в огромных масштабах, и это, как утверждают авторы, приводит к деградации окружающей среды. И эти расходы несут не инженеры-компьютерщики, а маргиналы, которые не могут позволить себе расходы на окружающую среду.
"Дело не только в том, что здесь есть большие энергетические последствия, но и в том, что углеродные последствия этого принесут затраты в первую очередь людям, которые не получают выгоды от этой технологии", - сказал Бендер. "Когда мы проводим анализ затрат и выгод, важно думать о том, кто получает выгоду и кто оплачивает расходы, потому что это не одни и те же люди."
Большой масштаб этой вычислительной мощности также может ограничить доступ только к наиболее обеспеченным ресурсами компаниям и исследовательским группам, оставляя в стороне более мелких разработчиков за пределами США, Канады, Европы и Китая. Это потому, что требуются огромные машины для запуска программного обеспечения, необходимого для того, чтобы компьютеры имитировали человеческую мысль и речь.
Еще один риск исходит от самих обучающих данных, говорят авторы. Поскольку компьютеры читают язык из Интернета и других источников, они могут подхватить и увековечить расистские, сексистские, аблейские, экстремистские и другие вредные идеологии.
"Одно из заблуждений, в которое впадают люди, - это то, что Интернет велик, интернет-это все. Если я просто соскребу весь Интернет, то ясно, что я включил различные точки зрения", - сказал Бендер. "Но когда мы сделали пошаговый обзор литературы, он говорит, что это не так прямо сейчас, потому что не все находятся в Интернете, и из людей, которые находятся в Интернете, не все социально комфортно участвуют таким же образом."
И люди могут путать языковые модели с реальным человеческим взаимодействием, полагая, что они на самом деле разговаривают с человеком или читают что-то, что человек сказал или написал, когда на самом деле язык исходит от машины. Итак, стохастические попугаи.
"Он производит этот, казалось бы, связный текст, но у него нет коммуникативного намерения. Он понятия не имеет, что говорит. Там нет никакого" там", - сказал Бендер. | |
Просмотров: 687 | |