Почему данные остаются самой большой проблемой для проектов машинного обучения

СВЕЖИЕ НОВОСТИ

Jun 12, 2023

Обзор рынка машин для розлива эпоксидной смолы, 2023 г.

Jun 08, 2023

Поставщики упаковки стремятся удовлетворить потребности переработчиков молочной продукции

Jun 10, 2023

Живая совместная работа над PDF-файлами в iPad OS 17 может бросить вызов Google Docs

Jun 06, 2023

Рынок машин для наполнения гранул

Jun 04, 2023

Обновленный прогноз рынка машин для фасовки сухого молока: последние тенденции, движущие силы и возможности роста

ОТПРАВИТЬ ЗАПРОС

ПРЕДСТАВЛЯТЬ НА РАССМОТРЕНИЕ

Nov 04, 2023

Почему данные остаются самой большой проблемой для проектов машинного обучения

Присоединяйтесь к топ-менеджерам в Сан-Франциско 11–12 июля и узнайте, как ведут себя лидеры.

Присоединяйтесь к топ-менеджерам в Сан-Франциско 11–12 июля и узнайте, как лидеры интегрируют и оптимизируют инвестиции в искусственный интеллект для достижения успеха. Узнать больше

Качественные данные лежат в основе успеха корпоративного искусственного интеллекта (ИИ). И, соответственно, оно остается основным источником проблем для компаний, которые хотят применять машинное обучение (МО) в своих приложениях и операциях.

Согласно последнему отчету Appen State of AI Report, отрасль добилась впечатляющих успехов в оказании помощи предприятиям в преодолении барьеров при поиске и подготовке данных. Однако предстоит еще многое сделать на различных уровнях, включая организационную структуру и политику компании.

Жизненный цикл корпоративного ИИ можно разделить на четыре этапа: поиск данных, подготовка данных, тестирование и развертывание модели, а также оценка модели.

Достижения в области вычислений и инструментов машинного обучения помогли автоматизировать и ускорить такие задачи, как обучение и тестирование различных моделей машинного обучения. Платформы облачных вычислений позволяют одновременно обучать и тестировать десятки различных моделей разного размера и структуры. Но по мере роста количества и размера моделей машинного обучения им потребуется больше обучающих данных.

Трансформация 2023

Присоединяйтесь к нам в Сан-Франциско 11–12 июля, где топ-менеджеры расскажут, как они интегрировали и оптимизировали инвестиции в искусственный интеллект для достижения успеха и избежания распространенных ошибок.

К сожалению, получение обучающих данных и аннотирование по-прежнему требует значительных ручных усилий и во многом зависит от приложения. Согласно отчету Аппена, «отсутствие достаточных данных для конкретного варианта использования, новые методы машинного обучения, требующие больших объемов данных, или команды не имеют правильных процессов для простого и эффективного получения необходимых им данных».

«Для точной работы модели необходимы высококачественные обучающие данные, а большие инклюзивные наборы данных стоят дорого», — рассказал VentureBeat главный директор по продуктам Appen Суджата Сагираджу. «Однако важно отметить, что ценные данные ИИ могут увеличить шансы вашего проекта перейти от пилотного проекта к производству, поэтому необходимы затраты».

Команды ML могут начать с заранее размеченных наборов данных, но в конечном итоге им придется собирать и маркировать свои собственные данные для масштабирования своих усилий. В зависимости от применения маркировка может стать чрезвычайно дорогой и трудоемкой.

Во многих случаях у компаний достаточно данных, но они не могут решить вопросы качества. Предвзятые, неправильно маркированные, противоречивые или неполные данные снижают качество моделей МО, что, в свою очередь, снижает рентабельность инвестиций в инициативы в области ИИ.

«Если вы обучаете модели машинного обучения на неверных данных, прогнозы модели будут неточными», — сказал Сагираджу. «Чтобы гарантировать, что их ИИ хорошо работает в реальных сценариях, команды должны иметь в своем наборе для обучения сочетание высококачественных наборов данных, синтетических данных и оперативной оценки».

По словам Аппена, бизнес-лидеры гораздо реже, чем технический персонал, рассматривают поиск и подготовку данных как основные задачи своих инициатив в области искусственного интеллекта. «Между технологами и бизнес-лидерами до сих пор существуют разногласия в понимании самых узких мест в реализации данных для жизненного цикла ИИ. Это приводит к несогласованности приоритетов и бюджета внутри организации», — говорится в отчете Appen.

«Что мы знаем, так это то, что некоторые из самых больших препятствий для инициатив в области искусственного интеллекта заключаются в нехватке технических ресурсов и поддержки руководства», — сказал Сагираджу. «Если вы посмотрите на эти категории, вы увидите, что специалисты по данным, инженеры по машинному обучению, разработчики программного обеспечения и руководители разбросаны по разным областям, поэтому нетрудно представить отсутствие согласованной стратегии из-за противоречивых приоритетов между различными командами. внутри организации».

Разнообразие людей и ролей, участвующих в инициативах в области ИИ, затрудняет достижение такого согласования. От разработчиков, управляющих данными, до ученых, занимающихся данными на местах, и руководителей, принимающих стратегические бизнес-решения, — все имеют разные цели и, следовательно, разные приоритеты и бюджеты.

Как OpenAI, ChatGPT работает маркировка топливных данных и экономический эффект

AstroNova приобретает Astro Machine, лидера в области технологий печати для этикетирования и почтовых отправлений

Новости

Почему данные остаются самой большой проблемой для проектов машинного обучения