Новое исследование предлагает автоматическую таксономическую идентификацию на основе набора данных ископаемых изображений (> 415 000 изображений) и глубоких сверточных нейронных сетей

Новости

ДомДом / Новости / Новое исследование предлагает автоматическую таксономическую идентификацию на основе набора данных ископаемых изображений (> 415 000 изображений) и глубоких сверточных нейронных сетей

Nov 21, 2023

Новое исследование предлагает автоматическую таксономическую идентификацию на основе набора данных ископаемых изображений (> 415 000 изображений) и глубоких сверточных нейронных сетей

Палеонтология — увлекательная область, которая помогает нам понять историю жизни.

Палеонтология — увлекательная область, которая помогает нам понять историю жизни на Земле, изучая древние формы жизни и их эволюцию. Однако одной из основных проблем палеонтологических исследований является трудоемкий и длительный процесс таксономической идентификации, требующий обширных знаний и опыта работы с конкретной таксономической группой. Более того, результаты идентификации часто должны быть более согласованными между исследователями и сообществами.

Методы глубокого обучения стали многообещающим решением для поддержки таксономической идентификации окаменелостей. В этом контексте китайская исследовательская группа недавно опубликовала статью, в которой изучается потенциал глубокого обучения для повышения точности таксономической идентификации.

Основным вкладом этой статьи является создание и проверка большого и всеобъемлющего набора данных изображений ископаемых (FID) с использованием веб-сканеров и ручного управления. Набор данных включает 415 339 изображений из 50 различных клад окаменелостей, включая беспозвоночных, позвоночных, растения, микроокаменелости и следы окаменелостей. Сверточная нейронная сеть (CNN) использовалась для классификации изображений окаменелостей и достигла высокой точности классификации, демонстрируя потенциал FID для автоматической идентификации и классификации окаменелостей. Авторы также сделали FID общедоступным для будущего использования и развития.

В этом исследовании экспериментально исследуется использование трансферного обучения с моделями, обученными в ImageNet, для идентификации и классификации окаменелостей в базе данных ископаемых изображений (FID). Авторы обнаружили, что заморозка половины сетевых слоев в качестве экстракторов признаков и обучение остальных слоев дали наилучшую производительность. Увеличение и исключение данных были эффективными методами предотвращения переобучения, в то время как частое снижение скорости обучения и большие размеры обучающих пакетов способствовали более быстрой сходимости и высокой точности. В исследовании также изучалось влияние несбалансированных данных на алгоритм и использовались методы выборки для несбалансированного обучения. Качество набора данных было важно для точной идентификации: микроокаменелости работали хорошо благодаря наличию высококачественных изображений, в то время как некоторые окаменелости с плохой сохранностью и небольшим количеством образцов работали плохо. Авторы также обнаружили, что большое внутриклассовое морфологическое разнообразие некоторых клад затрудняет точность идентификации из-за сложности архитектуры DCNN при извлечении дискриминационных характеристик.

Архитектура Inception-ResNet-v2 достигла средней точности 0,90 в тестовом наборе данных при использовании трансферного обучения. Микрофоссилии и окаменелости позвоночных имели самую высокую точность идентификации - 0,95 и 0,90 соответственно. Однако такие клады, как губки, мшанки и следы окаменелостей, которые имели различную морфологию или небольшое количество образцов в наборе данных, имели точность идентификации ниже 0,80.

В заключение, методы глубокого обучения, в частности трансферное обучение, показали многообещающие результаты в повышении точности и эффективности таксономической идентификации окаменелостей. Создание и проверка большого и всеобъемлющего набора данных изображений ископаемых, таких как База данных изображений ископаемых (FID), имеет решающее значение для достижения высокой точности идентификации. Его доступность для общественного использования и развития полезна для развития области палеонтологии. Однако точность моделей глубокого обучения зависит от качества и разнообразия набора данных, при этом некоторые клады создают проблемы из-за внутриклассового морфологического разнообразия или плохой сохранности. Для преодоления этих проблем и повышения точности и эффективности палеонтологических исследований необходимы дальнейшие исследования и разработки в области методов глубокого обучения и крупномасштабных наборов данных изображений ископаемых.

Более того, методы глубокого обучения в палеонтологии потенциально могут трансформировать эту область за рамки таксономической идентификации. Эти методы могут извлечь больше информации из данных об окаменелостях, например, сегментацию и реконструкцию окаменелостей, интеграцию данных об окаменелостях с другими типами данных, а также обнаружение закономерностей и аномалий в крупномасштабных наборах данных об ископаемых. Это расширяет наше понимание истории жизни на Земле, открывая путь к захватывающим открытиям и достижениям.