Маркировка данных и революция искусственного интеллекта (2023 г.)

Блог

ДомДом / Блог / Маркировка данных и революция искусственного интеллекта (2023 г.)

Oct 30, 2023

Маркировка данных и революция искусственного интеллекта (2023 г.)

Что такое маркировка данных? Маркировка данных используется для алгоритмов машинного обучения.

Что такое маркировка данных?

Маркировка данных используется в алгоритмах машинного обучения для правильной идентификации и понимания объектов. Распознавание лиц, автономное вождение, воздушные дроны, робототехника и т. д. — все это области, в которых машинное обучение доказало свою важность. Визуальные (фотографические и кинематографические), звуковые и текстовые данные в настоящее время являются основными категориями, используемыми при сборе и маркировке данных. Два основных фактора определяют эффективность системы ИИ:

Маркировка данных в своей простейшей форме учит систему распознавать транспортные средства, предоставляя примеры различных автомобилей, чтобы она могла изучить общие характеристики каждого из них и правильно идентифицировать автомобили на фотографиях без маркировки.

Как работает маркировка данных?

Машинное обучение (МО) и глубокое обучение обычно требуют огромных объемов данных, чтобы обеспечить основу для надежных моделей обучения. Данные, которые они собирают для своих систем обучения, должны быть помечены, чтобы получить желаемый результат.

Метки, используемые для распознавания признаков, должны быть описательными, различающими и уникальными, чтобы полученный алгоритм был надежным. Хорошо размеченный набор данных обеспечивает возможность проверки, которую модель ML может использовать для проверки точности своих прогнозов и уточнения своего метода.

Точность и точность являются отличительными чертами первоклассного алгоритма. Точный набор данных – это набор, в котором определенные метки можно получить непосредственно из исходных данных. В науке о данных качество определяется как степень достоверности набора данных в целом.

Ключ к победе

Системы или механизмы, способные распознавать закономерности или функционировать автономно, требуют обширного обучения в виде высококачественных и обильных данных. CDAO, где работает Мартелл, была основана в декабре 2021 года с целью ускорить и расширить использование Министерством обороны искусственного интеллекта и анализа данных. После нескольких месяцев консолидации Объединенного центра искусственного интеллекта, Цифровой службы обороны, Адваны и должности директора по данным, в июне офис наконец начал работать на полную мощность.

В течение долгого времени военные были заинтересованы в искусственном интеллекте, который позволит быстрее принимать более точные решения и открывать ранее недоступные области для расследования, которые ни один солдат, моряк или человек не осмелится исследовать.

По данным исследования Счетной палаты правительства, по состоянию на начало 2021 года министерство обороны работало над более чем 685 проектами искусственного интеллекта. Некоторые из этих программ задействовали важные военные системы. В прошлом месяце ВВС выбрали Университет Говарда для проведения исследований в области тактической автономии, включая пилотируемое и беспилотное взаимодействие, в рамках пятилетнего контракта на сумму 90 миллионов долларов.

Метод, ориентированный на данные, имеет свои недостатки. В частности, стратегия, ориентированная на модели, является единственным выбором, если команда ограничена в деньгах и пытается полностью избежать маркировки, выполняемой человеком, с использованием уже существующего набора данных. Между тем, есть два варианта маркировки: сделать это собственными силами, что может оказаться очень дорогим и трудоемким, или передать это на аутсорсинг, что иногда может быть рискованным и обычно стоит дорого. Синтетическая маркировка — это еще один подход, который предполагает создание фальшивых данных для МО, но он ресурсоемок и, следовательно, недоступен для многих малых предприятий. Таким образом, многие группы приходят к выводу, что стратегия, ориентированная на данные, не стоит затраченных усилий, тогда как на самом деле им нужно быть более информированными.

Стратегия, ориентированная на данные, эффективна, но только в том случае, если человек прилагает усилия для работы с данными. Хорошей новостью является то, что маркировка данных не должна быть дорогостоящей или занимать месяцы благодаря методам краудсорсинга. Проблема, однако, в том, что о таких процедурах необходимо знакомить больше людей, не говоря уже о том, что они эволюционировали и стали успешными. Несмотря на недостатки, согласно исследованию, более 80% специалистов по ОД выбирают внутренний путь. И недавний опрос показывает, что эти врачи используют эту технику не потому, что предпочитают ее другим; они используют его, потому что не знают ничего лучшего.