Чистаялаборатория Открытая

Новости

ДомДом / Новости / Чистаялаборатория Открытая

Oct 27, 2023

Чистаялаборатория Открытая

Размеченные данные необходимы для обучения моделей машинного обучения с учителем, но

Размеченные данные необходимы для обучения моделей машинного обучения с учителем, но ошибки, допущенные аннотаторами данных, могут повлиять на точность модели. Обычно для каждой точки данных собираются несколько аннотаций, чтобы уменьшить количество ошибок в аннотациях и создать более надежную согласованную метку, но этот подход может быть дорогостоящим. Чтобы оптимизировать модель машинного обучения с минимальной маркировкой данных, важно определить, какие новые данные требуют маркировки или какие текущие метки необходимо проверить еще раз.

ActiveLab, недавно опубликованный метод активного обучения, стал доступен в качестве инструмента с открытым исходным кодом, помогающего в этом процессе принятия решений. ActiveLab помогает идентифицировать данные, которые требуют маркировки или повторной маркировки для достижения максимального улучшения модели ML при соблюдении ограниченного бюджета на аннотации. Наборы обучающих данных, созданные с помощью ActiveLab, позволяют создавать превосходные модели машинного обучения по сравнению с другими методами активного обучения при работе с фиксированным количеством аннотаций.

ActiveLab решает важнейший вопрос: является ли более выгодным получение дополнительной аннотации для ранее помеченной точки данных или пометка совершенно нового экземпляра из немаркированного пула. Ответ на этот вопрос зависит от степени доверия к текущим аннотациям. В случаях, когда имеется только одна аннотация от ненадежного аннотатора или две аннотации с противоречивыми результатами, получение другого мнения путем смены маркировки имеет решающее значение. Этот процесс становится особенно важным, когда негативные последствия обучения модели с неправильно размеченными данными не могут быть устранены простой маркировкой новых точек данных из неразмеченного пула.

Исследователи начали с первоначального обучающего набора из 500 помеченных примеров и обучили модель классификатора в течение нескольких раундов, строя график точности ее теста после каждой итерации. В каждом раунде собирались дополнительные аннотации для 100 примеров, выбранных либо из этого набора из 500, либо из отдельного пула из 1500 изначально немаркированных примеров. Чтобы решить, какие данные маркировать/перемаркировать в следующий раз, использовались различные методы активного обучения. Случайный выбор сравнивали с Good Random, который в первую очередь отдает приоритет немаркированным данным, а также с энтропией и неопределенностью, популярными методами активного обучения на основе моделей. Также использовался ActiveLab, который опирается на прогнозы модели для оценки того, насколько информативной будет другая метка для каждого примера, при этом учитывается, сколько аннотаций пример получил на данный момент и их согласие, а также насколько в целом заслуживает доверия каждый аннотатор по сравнению с обученным модель. Аналогичные результаты были получены для других моделей и наборов данных классификации изображений, как подробно описано в статье исследователей о разработке этого метода.

ПроверьтеБумагаиГитхаб. Вся заслуга в этом исследовании принадлежит исследователям этого проекта. Также не забудьте присоединитьсянаш субреддит из 15 тысяч+ ML,Дискорд-канал, иИнформационный бюллетень по электронной почте, где мы делимся последними новостями исследований в области искусственного интеллекта, интересными проектами в области искусственного интеллекта и многим другим.

Нихарика — стажер технического консалтинга в Marktechpost. Она учится на третьем курсе бакалавриата и в настоящее время получает степень бакалавра технических наук в Индийском технологическом институте (ИИТ) в Харагпуре. Она человек с большим энтузиазмом, проявляющий большой интерес к машинному обучению, науке о данных и искусственному интеллекту, а также заядлый читатель последних разработок в этих областях.

Бумага на Гитхабе. наша рассылка по электронной почте на канале Discord Discord, насчитывающая более 15 тысяч ML