Sep 07, 2023
Сдерживание растущих потребностей машинного обучения в мощности
В свете растущей озабоченности по поводу энергетических потребностей больших машин
К
В свете растущей обеспокоенности по поводу энергетических требований больших моделей машинного обучения, недавнее исследование Лаборатории Линкольна Массачусетского технологического института и Северо-Восточного университета изучило экономию, которую можно получить за счет ограничения энергопотребления графических процессоров, используемых при обучении моделей и выводе, а также некоторых других методы и методы сокращения потребления энергии ИИ.
Новая работа также требует, чтобы новые статьи по искусственному интеллекту завершались «энергетическим заявлением» (аналогично недавней тенденции к заявлениям об «этическом подтексте» в статьях из сектора исследований машинного обучения).
Главное предположение в работе заключается в том, что ограничение энергопотребления (ограничение доступной мощности графического процессора, который обучает модель) дает существенные преимущества в энергосбережении, особенно для моделирования языка в масках (MLM) и таких инфраструктур, как BERT и его производные.
Сети моделирования на трех языках работают с процентом энергопотребления от настроек по умолчанию 250 Вт (черная линия). Ограничение энергопотребления не снижает эффективность или точность обучения в соотношении 1:1 и обеспечивает значительную экономию энергии в масштабе. Источник: https://arxiv.org/pdf/2205.09646.pdf.
Для более крупномасштабных моделей, которые привлекли внимание в последние годы благодаря гипермасштабным наборам данных и новым моделям с миллиардами или триллионами параметров, аналогичная экономия может быть получена за счет компромисса между временем обучения и потреблением энергии.
Обучение более мощным моделям НЛП в масштабе при ограниченных возможностях. Среднее относительное время работы при мощности 150 Вт показано синим цветом, а среднее относительное энергопотребление при мощности 150 Вт — оранжевым.
Для этих крупномасштабных развертываний исследователи обнаружили, что ограничение энергопотребления в 150 Вт привело к снижению энергопотребления в среднем на 13,7% по сравнению с максимальным значением по умолчанию в 250 Вт, а также к относительно небольшому увеличению времени обучения на 6,8%.
Кроме того, исследователи отмечают, что, несмотря на заголовки о стоимости обучения моделей, появившиеся за последние несколько лет, затраты энергии на фактическое использование обученных моделей намного выше*.
«Для языкового моделирования с помощью BERT выигрыш в энергии за счет ограничения мощности заметно больше при выполнении вывода, чем при обучении. Если это справедливо для других приложений искусственного интеллекта, это может иметь серьезные последствия с точки зрения энергопотребления для крупномасштабных или облачных вычислительных платформ, обслуживающих приложения вывода для исследований и промышленности».
Кроме того, и, возможно, это наиболее противоречиво, в документе предлагается перенести основное обучение моделей машинного обучения на более холодные месяцы года и на ночное время, чтобы сэкономить на расходах на охлаждение.
Выше представлена статистика PUE за каждый день 2020 года в дата-центре авторов с заметным и устойчивым всплеском/плато в летние месяцы. Ниже показано среднечасовое изменение PUE для одного и того же места в течение недели, при этом потребление энергии растет к середине дня, поскольку как внутреннее оборудование охлаждения графического процессора, так и окружающее охлаждение центра обработки данных с трудом поддерживают работоспособную температуру.
Авторы заявляют:
«Очевидно, что тяжелые нагрузки НЛП летом обычно гораздо менее эффективны, чем те, которые выполняются зимой. Учитывая большие сезонные колебания, если таковые имеются, проводятся дорогостоящие эксперименты, которые можно приурочить к более холодным месяцам, это время может значительно сократить выбросы углекислого газа».
В документе также признаются новые возможности энергосбережения, которые возможны за счет сокращения и оптимизации архитектуры модели и рабочих процессов, хотя авторы оставляют дальнейшее развитие этого направления другим инициативам.
Наконец, авторы предлагают поощрять или, возможно, ограничивать новые научные статьи из сектора машинного обучения, заканчивая заявлением, в котором объявляется об использовании энергии в работе, проводимой в рамках исследования, и о потенциальных энергетических последствиях принятия инициатив, предложенных в работе. .
В статье, приводя примеры, объясняются энергетические последствия собственных исследований.