ВинДр

Блог

ДомДом / Блог / ВинДр

Nov 18, 2023

ВинДр

Научные данные, том 9,

Научные данные, том 9, Номер статьи: 429 (2022) Цитировать эту статью

8653 Доступа

23 цитаты

2 Альтметрика

Подробности о метриках

Большинство существующих наборов данных рентгенографии органов грудной клетки включают метки из списка находок без указания их местоположения на рентгенограммах. Это ограничивает разработку алгоритмов машинного обучения для обнаружения и локализации нарушений грудной клетки. В этой работе мы описываем набор данных из более чем 100 000 рентгеновских снимков грудной клетки, которые были ретроспективно собраны в двух крупных больницах Вьетнама. На основе этих необработанных данных мы публикуем 18 000 изображений, которые были вручную аннотированы в общей сложности 17 опытными рентгенологами с 22 локальными метками прямоугольников, окружающих аномалии, и 6 глобальными метками предполагаемых заболеваний. Выпущенный набор данных разделен на обучающий набор из 15 000 и тестовый набор из 3000. Каждый скан в обучающем наборе был независимо помечен тремя рентгенологами, тогда как каждый скан в тестовом наборе был помечен по согласованию с 5 рентгенологами. Мы спроектировали и создали платформу маркировки изображений DICOM, чтобы облегчить эти процедуры аннотирования. Все изображения публикуются в формате DICOM вместе с метками как обучающего, так и тестового набора.

Измерение(я)

заболевания и отклонения от нормы при рентгенографии грудной клетки

Тип(ы) технологии

ИИ используется для выявления заболеваний и отклонений от нормы

Пример характеристики – Местоположение

Вьетнам

Системы компьютерной диагностики (CAD) для рентгенограмм грудной клетки (также называемые рентгенографией грудной клетки или CXR) в последнее время достигли большого успеха благодаря наличию больших размеченных наборов данных и недавним достижениям в области высокопроизводительных алгоритмов контролируемого обучения1,2, 3,4,5. Используя глубокие сверточные нейронные сети (CNN)6, эти системы могут достичь экспертного уровня в классификации распространенных заболеваний легких и связанных с ними выводов. Обучение CNN в значительной степени зависит от высококачественных наборов данных аннотированных изображений. Однако создание таких наборов данных обходится дорого и требует много времени из-за ряда ограничений: (1) медицинские данные трудно получить из больниц или медицинских центров; (2) ручное аннотирование врачами обходится дорого; (3) аннотирование медицинских изображений требует согласия нескольких читателей-экспертов, чтобы преодолеть человеческую предвзятость7; и (4) ему не хватает эффективной системы маркировки для управления и аннотирования крупномасштабных наборов медицинских данных.

Известные общедоступные наборы данных CXR включают ChestX-ray8, ChestX-ray148, Padchest9, CheXpert2 и MIMIC-CXR10. ChestX-ray14, расширенная версия ChestX-ray8, была выпущена Национальными институтами здравоохранения США (NIH) и содержит более 112 000 рентгеновских снимков более чем 30 000 пациентов. Без аннотаций вручную этот набор данных создает серьезные проблемы, связанные с качеством его меток11. Padchest состоит из более чем 160 000 рентгеновских изображений, 27% из которых были вручную помечены рентгенологами и содержат 174 различных результата и 19 диагнозов. Остальная часть набора данных была помечена с использованием инструмента обработки естественного языка (NLP). Недавно выпущенный CheXpert предоставляет более 200 000 рентгенограмм 65 240 пациентов, которые были помечены на наличие 14 наблюдений с помощью автоматизированного средства разметки на основе правил, которое извлекает ключевые слова из медицинских отчетов. Используя тот же механизм маркировки, MIMIC-CXR содержит 377 110 изображений в формате DICOM, а также отчеты о радиологических исследованиях в виде произвольного текста. В таблице 1 представлена ​​сводка вышеупомянутых наборов данных вместе с другими наборами данных среднего размера, включая JSRT12, Indiana13, MC14 и SH14.

Большинство существующих наборов данных CXR зависят от автоматизированных средств маркировки на основе правил, которые либо используют сопоставление ключевых слов (например, устройства маркировки CheXpert2 и NIH8), либо модель НЛП для извлечения меток заболеваний из отчетов о радиологических исследованиях в виде свободного текста. Эти инструменты могут создавать этикетки в больших масштабах, но в то же время создают высокий уровень несогласованности, неопределенности и ошибок11,15. Эти шумные ярлыки могут привести к отклонению алгоритмов, основанных на глубоком обучении, от заявленных показателей при оценке в реальных условиях16. Более того, подходы, основанные на отчетах, связывают рентгеновское изображение только с одной или несколькими метками в заранее определенном списке результатов и диагнозов без определения их местоположения. Существует несколько наборов данных CXR, которые включают аннотированные местоположения аномалий, но они либо слишком малы для обучения моделей глубокого обучения (JSRT), либо недостаточно подробны (PadChest). Интерпретация CXR – это не только классификация на уровне изображения; с точки зрения рентгенолога еще более важно локализовать аномалии на изображении. Это отчасти объясняет, почему применение CAD-систем для CXR в клинической практике все еще очень ограничено.