Почему данные остаются самой большой проблемой для проектов машинного обучения

Новости

ДомДом / Новости / Почему данные остаются самой большой проблемой для проектов машинного обучения

Nov 04, 2023

Почему данные остаются самой большой проблемой для проектов машинного обучения

Присоединяйтесь к топ-менеджерам в Сан-Франциско 11–12 июля и узнайте, как ведут себя лидеры.

Присоединяйтесь к топ-менеджерам в Сан-Франциско 11–12 июля и узнайте, как лидеры интегрируют и оптимизируют инвестиции в искусственный интеллект для достижения успеха. Узнать больше

Качественные данные лежат в основе успеха корпоративного искусственного интеллекта (ИИ). И, соответственно, оно остается основным источником проблем для компаний, которые хотят применять машинное обучение (МО) в своих приложениях и операциях.

Согласно последнему отчету Appen State of AI Report, отрасль добилась впечатляющих успехов в оказании помощи предприятиям в преодолении барьеров при поиске и подготовке данных. Однако предстоит еще многое сделать на различных уровнях, включая организационную структуру и политику компании.

Жизненный цикл корпоративного ИИ можно разделить на четыре этапа: поиск данных, подготовка данных, тестирование и развертывание модели, а также оценка модели.

Достижения в области вычислений и инструментов машинного обучения помогли автоматизировать и ускорить такие задачи, как обучение и тестирование различных моделей машинного обучения. Платформы облачных вычислений позволяют одновременно обучать и тестировать десятки различных моделей разного размера и структуры. Но по мере роста количества и размера моделей машинного обучения им потребуется больше обучающих данных.

Трансформация 2023

Присоединяйтесь к нам в Сан-Франциско 11–12 июля, где топ-менеджеры расскажут, как они интегрировали и оптимизировали инвестиции в искусственный интеллект для достижения успеха и избежания распространенных ошибок.

К сожалению, получение обучающих данных и аннотирование по-прежнему требует значительных ручных усилий и во многом зависит от приложения. Согласно отчету Аппена, «отсутствие достаточных данных для конкретного варианта использования, новые методы машинного обучения, требующие больших объемов данных, или команды не имеют правильных процессов для простого и эффективного получения необходимых им данных».

«Для точной работы модели необходимы высококачественные обучающие данные, а большие инклюзивные наборы данных стоят дорого», — рассказал VentureBeat главный директор по продуктам Appen Суджата Сагираджу. «Однако важно отметить, что ценные данные ИИ могут увеличить шансы вашего проекта перейти от пилотного проекта к производству, поэтому необходимы затраты».

Команды ML могут начать с заранее размеченных наборов данных, но в конечном итоге им придется собирать и маркировать свои собственные данные для масштабирования своих усилий. В зависимости от применения маркировка может стать чрезвычайно дорогой и трудоемкой.

Во многих случаях у компаний достаточно данных, но они не могут решить вопросы качества. Предвзятые, неправильно маркированные, противоречивые или неполные данные снижают качество моделей МО, что, в свою очередь, снижает рентабельность инвестиций в инициативы в области ИИ.

«Если вы обучаете модели машинного обучения на неверных данных, прогнозы модели будут неточными», — сказал Сагираджу. «Чтобы гарантировать, что их ИИ хорошо работает в реальных сценариях, команды должны иметь в своем наборе для обучения сочетание высококачественных наборов данных, синтетических данных и оперативной оценки».

По словам Аппена, бизнес-лидеры гораздо реже, чем технический персонал, рассматривают поиск и подготовку данных как основные задачи своих инициатив в области искусственного интеллекта. «Между технологами и бизнес-лидерами до сих пор существуют разногласия в понимании самых узких мест в реализации данных для жизненного цикла ИИ. Это приводит к несогласованности приоритетов и бюджета внутри организации», — говорится в отчете Appen.

«Что мы знаем, так это то, что некоторые из самых больших препятствий для инициатив в области искусственного интеллекта заключаются в нехватке технических ресурсов и поддержки руководства», — сказал Сагираджу. «Если вы посмотрите на эти категории, вы увидите, что специалисты по данным, инженеры по машинному обучению, разработчики программного обеспечения и руководители разбросаны по разным областям, поэтому нетрудно представить отсутствие согласованной стратегии из-за противоречивых приоритетов между различными командами. внутри организации».

Разнообразие людей и ролей, участвующих в инициативах в области ИИ, затрудняет достижение такого согласования. От разработчиков, управляющих данными, до ученых, занимающихся данными на местах, и руководителей, принимающих стратегические бизнес-решения, — все имеют разные цели и, следовательно, разные приоритеты и бюджеты.