Насколько открыт

Новости

ДомДом / Новости / Насколько открыт

Nov 01, 2023

Насколько открыт

Присоединяйтесь к топ-менеджерам в Сан-Франциско 11–12 июля и узнайте, как ведут себя лидеры.

Присоединяйтесь к топ-менеджерам в Сан-Франциско 11–12 июля и узнайте, как лидеры интегрируют и оптимизируют инвестиции в искусственный интеллект для достижения успеха. Узнать больше

Маркировка данных — один из наиболее фундаментальных аспектов машинного обучения. Это также часто область, в которой организации испытывают трудности – как с точной категоризацией данных, так и с уменьшением потенциальной предвзятости.

С помощью технологии маркировки данных набор данных, используемый для обучения модели машинного обучения, сначала анализируется и получает метку, которая обеспечивает категорию и определение того, о чем на самом деле данные. Хотя маркировка данных является важнейшим компонентом процесса машинного обучения, согласно многочисленным исследованиям, в последнее время она также оказалась крайне противоречивой. Потребность в точной маркировке данных привела к появлению оживленного рынка поставщиков маркировки данных.

Среди наиболее популярных технологий маркировки данных — Label Studio с открытым исходным кодом, которую поддерживает стартап Heartex из Сан-Франциско. Новое обновление Label Studio 1.6, выпущенное сегодня, предоставит пользователям новые функции, которые помогут лучше анализировать и маркировать данные внутри видео.

По словам Майкла Малюка, соучредителя и генерального директора Heartex, проблемой для большинства компаний, использующих искусственный интеллект (ИИ), является наличие качественных данных для работы.

Трансформация 2023

Присоединяйтесь к нам в Сан-Франциско 11–12 июля, где топ-менеджеры расскажут, как они интегрировали и оптимизировали инвестиции в искусственный интеллект для достижения успеха и избежания распространенных ошибок.

«Мы рассматриваем маркировку как более широкую категорию разработки наборов данных, а Label Studio — это решение, которое в конечном итоге позволяет вам заниматься любой разработкой наборов данных», — сказал Малюк.

Хотя в версии 1.6 Label Studio в качестве основной новой функции предусмотрен видеоплеер, Малюк подчеркнул, что эта технология полезна для любого типа данных, включая текст, аудио, временные ряды и видео.

Одной из самых больших проблем, связанных с любым подходом к маркировке всех типов данных, является определение категорий, используемых для маркировки данных.

«Кто-то может называть вещи по-другому, кто-то по-другому, но по сути они означают одно и то же», — сказал Малюк.

Он объяснил, что Label Studio предоставляет таксономии для меток, которые пользователи могут выбирать для описания фрагмента данных, будь то текстовый, аудиофайл или файл изображения. Если два или более человека в одной организации помечают одни и те же данные по-разному, система Label Studio выявит конфликт, чтобы его можно было проанализировать и устранить. Label Studio предоставляет как систему ручного разрешения конфликтов, так и автоматизированный подход.

Процесс маркировки данных часто может включать ручную работу, когда люди присваивают метку или проверяют ее точность.

Существует несколько подходов к автоматизации этого процесса. Стартап Lightly AI использует модель машинного обучения с самоконтролем, которую можно интегрировать с Label Studio. Кроме того, есть поставщики, которые будут использовать векторную базу данных для преобразования данных в математические вычисления, а не использовать маркировку данных для идентификации данных и их взаимосвязей.

Малюк сказал, что векторные базы данных действительно имеют свое применение и могут быть эффективны для решения таких задач, как поиск по сходству. Проблема, по его мнению, заключается в том, что векторный подход не так эффективен с неструктурированными типами данных, такими как аудио и видео. Он отметил, что векторная база данных может использовать типы идентификации для обычных объектов.

«Как только вы начнете отклоняться от этого общеизвестного знания к чему-то немного отличающемуся, без ручной маркировки все станет очень сложно», — сказал Малюк.

Предвзятость в сфере ИИ — это постоянная проблема, с которой многие в отрасли пытаются бороться. В основе машинного обучения лежат фактические данные, и способ маркировки данных также потенциально может привести к предвзятости. Предвзятость может быть преднамеренной, а может быть и косвенной.

«Если вы маркируете очень субъективный набор данных утром перед кофе, а затем снова после кофе, вы можете получить очень разные ответы», — сказал Малюк.