Что чище для экологии: обучение модели ИИ или пять автомобилей?

Область искусственного интеллекта часто сравнивают с нефтедобывающей промышленностью: после добычи и переработки данные, как и нефть, могут стать очень прибыльным товаром. Однако теперь становится очевидно, что эта метафора расширяется. Как и ископаемое топливо, процесс глубокого обучения оказывает огромное воздействие на окружающую среду. В новой работе ученые из Массачусетского университета в Амхерсте провели оценку жизненного цикла обучения нескольких распространенных крупных моделей искусственного интеллекта.

Выяснилось, что в результате этого процесса может выделяться более 626 000 фунтов (около 300 000 кг) в эквиваленте углекислого газа, что почти в пять раз превышает выбросы типичного автомобиля за пять лет (включая производство самого автомобиля).

Содержание:

Как обучаются модели ИИ

Это изумительное количественное определение того, что исследователи искусственного интеллекта давно уже заподозрили.

«Хотя многие из нас думают об этом на абстрактном, размытом уровне, цифры демонстрируют масштаб проблемы», говорит Карлос Гомес-Родригес, специалист по информатике в Университете Ла-Корунья в Испании, который не принимал участия в исследовании. «Ни я, ни другие исследователи, с которыми я их обсуждал, не думали, что воздействие на окружающую среду будет настолько значительным».

Угольный след обработки естественного языка

В работе особенно рассматривается процесс обучения модели для обработки естественного языка (NLP), подполя ИИ, которое занимается обучением машин для работы с человеческим языком. За последние два года сообщество NLP достигло нескольких важных этапов в области машинного перевода, завершения предложений и других стандартных оценивающих задач. Печально известная модель OpenAI GPT-2, как пример, преуспела в написании убедительных поддельных новостных заметок.

Но такие достижения требовали обучения все более крупных моделей на растянутых наборах данных из предложений, вытащенных из Интернета. Этот подход в вычислительном отношении является дорогостоящим и очень энергоемким.

Исследователи рассмотрели четыре модели в области, ответственные за самые большие скачки в производительности: Transformer, ELMo, BERT и GPT-2. Они обучали каждую из них на одном графическом процессоре в течение дня, чтобы измерить потребляемую мощность.

Читайте также: Кредитная карта Apple Card выйдет в августе

Затем они взяли количество часов обучения, указанное в исходных документах модели, для расчета общей энергии, потребленной за весь процесс обучения. Это количество перевели в эквивалент фунтов двуокиси углерода, который соответствовал структуре энергопотребления AWS от Amazon, крупнейшего поставщика облачных услуг.

Выяснилось, что вычислительные и экологические затраты на обучение росли пропорционально размеру модели, а затем увеличивались многократно, когда настраивалась конечная точность модели. Поиск нейронной архитектуры, который пытается оптимизировать модель путем постепенного изменения структуры нейронной сети за счет проб и ошибок, несет чрезвычайно высокие затраты при небольшом выигрыше в производительности. Без него самая дорогая модель BERT оставила углеродный след в 1400 фунтов (635 кг), что близко к трансамериканскому перелету в оба конца.

Более того, эти цифры следует рассматривать лишь как базовые линии.

«Обучение одной модели — это минимальный объем работы, который вы можете проделать», говорит Эмма Струбелл, ведущий автор статьи. На практике же гораздо более вероятно, что исследователи ИИ разработают новую модель с нуля или адаптируют существующую, что потребует еще много циклов обучения и настройки.

В целом, по подсчетам ученых, процесс создания и тестирования окончательной модели, достойной публикации, потребовал обучения 4789 моделей за шесть месяцев. В пересчете на эквивалент CO2 это порядка 35 000 кг.

Значимость этих чисел колоссальна, особенно если учитывать текущие тенденции в исследованиях ИИ. В целом, исследования в области ИИ пренебрегают эффективностью, поскольку большие нейронные сети признаны полезными для различных задач, и компании, имеющие неограниченные вычислительные ресурсы, будут использовать их для получения конкурентного преимущества.

Но для климата это будет не очень хорошо. Следите за нейросетями в нашем канале в Телеграме.

Источник