Что такое маркировка данных?  (Определение, Примеры)

Новости

ДомДом / Новости / Что такое маркировка данных? (Определение, Примеры)

Oct 26, 2023

Что такое маркировка данных? (Определение, Примеры)

Маркировка данных относится к практике идентификации элементов необработанных данных для предоставления

Маркировка данных относится к практике идентификации элементов необработанных данных, чтобы придать им значение, чтобы модель машинного обучения могла использовать эти данные. Предположим, что наши необработанные данные — это изображения животных. В этом случае вам нужно будет пометить всех животных модели, включая птиц, лошадей и кроликов. Без правильных меток модель машинного обучения не будет знать, какие типы данных изображены на рисунке.

Маркировка данных — важный шаг перед обучением или использованием любой модели машинного обучения. Он используется во многих приложениях, таких как компьютерное зрение, обработка естественного языка (НЛП) и распознавание изображений и речи.

Еще от Сары А. МетваллиЧто такое проверка данных?

Существует две основные категории алгоритмов машинного обучения: контролируемые и неконтролируемые.

В алгоритмах контролируемого машинного обучения нам необходимо предоставить алгоритму помеченные данные для его обучения, а затем применить полученные знания к новым данным. Чем точнее размеченные данные, тем лучше результаты алгоритма. В большинстве случаев маркировка данных начинается с того, что человек (часто называемый «маркировщиком») принимает некоторые решения относительно немаркированных данных для обучения алгоритма.

Допустим, мы хотим, чтобы наш алгоритм идентифицировал деревья. Для обучения модели разработчику этикеток сначала могут быть представлены изображения, и он должен ответить «правда» или «ложь», указывая, содержит ли изображение дерево. Затем алгоритм использует эти решения, чтобы идентифицировать шаблон изображения, узнать, что такое дерево, а затем использовать это для прогнозирования, будут ли в будущих изображениях деревья.

Поскольку маркировка данных необходима для разработки хорошей модели машинного обучения, компании и разработчики относятся к ней очень серьезно. Однако маркировка данных может занять много времени, поэтому некоторые компании могут передать этот процесс на аутсорсинг или автоматизировать его с помощью инструмента или услуги.

Мы можем использовать различные подходы к маркировке данных; Выбор между этими подходами зависит от размера ваших данных, масштаба проекта и времени, необходимого для его завершения. Один из способов классифицировать различные методы маркировки заключается в том, кто маркирует: человек или компьютер. Если люди навешивают ярлыки, это может принимать одну из трех форм.

Этот подход используется в крупных компаниях со многими экспертами по данным, которые могут работать над маркировкой данных. Внутренняя маркировка более безопасна и точна, чем аутсорсинг, поскольку она выполняется собственными силами без отправки данных внешнему подрядчику или поставщику. Такой подход защитит ваши данные от утечки или неправомерного использования, если аутсорсинговый агент ненадежен.

Этот вариант может подойти для крупных проектов высокого уровня, требующих больше ресурсов, чем компания может выделить. Тем не менее, это требует управления рабочим процессом фрилансеров, что может быть дорогостоящим и отнимать много времени, поскольку в таких случаях компании нанимают разные команды для работы параллельно, чтобы выполнить работу вовремя. Чтобы поддерживать поток и качество работы, все команды должны использовать одинаковый подход при достижении результатов. В противном случае потребуется больше усилий, чтобы привести результаты в тот же формат.

При таком подходе компания или разработчик использует сервис для быстрой и недорогой маркировки данных. Одной из самых известных краудсорсинговых платформ является reCAPTCHA, которая по сути генерирует CAPTCHA и просит пользователей маркировать данные. Затем программа сравнивает результаты разных пользователей и генерирует размеченные данные.

Однако если мы хотим автоматизировать маркировку и использовать для этого компьютер, мы можем использовать один из двух методов.

При таком подходе мы генерируем синтетические данные, используя исходные данные, чтобы повысить качество процесса маркировки. Хотя этот подход приводит к лучшим результатам, чем программная маркировка, он требует больших вычислительных мощностей, поскольку вам нужно больше мощности для генерации большего количества данных. Этот подход является хорошим выбором, если у компании есть доступ к суперкомпьютеру или компьютеру, способному обрабатывать и генерировать огромные объемы данных за разумное время.

Чтобы сэкономить вычислительную мощность, этот подход использует сценарий для выполнения процесса маркировки вместо генерации дополнительных данных. Однако программная маркировка часто требует некоторых человеческих аннотаций, чтобы гарантировать качество маркировки.