Извлечение информации о материалах с помощью автоматически генерируемого корпуса

Новости

ДомДом / Новости / Извлечение информации о материалах с помощью автоматически генерируемого корпуса

Nov 19, 2023

Извлечение информации о материалах с помощью автоматически генерируемого корпуса

Научные данные, том 9,

Научные данные, том 9, Номер статьи: 401 (2022) Цитировать эту статью

2608 Доступов

1 Цитаты

1 Альтметрика

Подробности о метриках

Извлечение информации (IE) в обработке естественного языка (NLP) направлено на извлечение структурированной информации из неструктурированного текста, чтобы помочь компьютеру понять естественный язык. Методы IE на основе машинного обучения приносят больше интеллекта и возможностей, но требуют обширного и точно размеченного корпуса. В области материаловедения нанесение надежной маркировки — трудоемкая задача, требующая усилий многих специалистов. Чтобы уменьшить ручное вмешательство и автоматически генерировать корпус материалов во время IE, в этой работе мы предлагаем полуконтролируемую структуру IE для материалов через автоматически создаваемый корпус. Если взять в качестве примера извлечение данных о суперсплавах в нашей предыдущей работе, предлагаемая структура с использованием Snorkel автоматически помечает корпус, содержащий значения свойств. Затем используется сеть упорядоченных нейронов и долгосрочной краткосрочной памяти (ON-LSTM) для обучения модели извлечения информации на сгенерированном корпусе. Результаты экспериментов показывают, что показатель F1 температуры сольвуса γ', плотности и температуры солидуса суперсплавов составляет 83,90%, 94,02%, 89,27% соответственно. Кроме того, мы проводим аналогичные эксперименты и на других материалах, результаты экспериментов показывают, что предложенная основа универсальна в области материалов.

Обработка естественного языка (НЛП) фокусируется на понимании текста компьютером, чтобы компьютер мог анализировать и обрабатывать естественный язык1. Извлечение информации (IE) в НЛП является одной из наиболее известных технологий интеллектуального анализа текста и направлено на извлечение структурированной информации из неструктурированного текста2. Научная литература в области материалов содержит большое количество надежных данных, что способствует исследованиям и разработкам материалов, основанных на данных3,4,5. Полагаться исключительно на ручное извлечение человеком6 занимает много времени. Итак, автоматическое извлечение данных об органических и неорганических химических веществах из статей в области химии и материаловедения приобрело смысл с использованием методов НЛП7,8,9,10,11.

С развитием машинного обучения и НЛП технология IE быстро развивалась6, особенно в биологии и медицине. Сунил и др. предположил, что IE — это процесс обнаружения и классификации семантических отношений, и использовал сверточную нейронную сеть (CNN) для получения семантических характеристик для извлечения информации в биомедицинской области12. Во многих статьях модели глубокого обучения применялись для оптимизации функций; например, Xinbo et al. использовал условные случайные поля (CRF) для классификации особенностей контекста, а также использовал автокодировщики и ограничения разреженности для решения проблемы разреженности слов13. Недавно другие системы IE также были исследованы в поисках возможной информации с помощью долгосрочной краткосрочной памяти (LSTM). Рагхавендра и др. встроенные слова в двунаправленные LSTM и CRF. Они использовали рекуррентную нейронную сеть для получения характеристик и завершили извлечение клинической концепции14. Аршад и др. представил метод LSTM для понимания языковой грамматики и определения взаимосвязей между словами15. Однако все вышеперечисленные нейронные сети требуют обширного и точного размеченного корпуса для обучения сети.

К сожалению, статей по многим материальным темам, например суперсплавам, относительно мало, поэтому извлечение необходимой информации из статьи становится сложной задачей. В нашей предыдущей работе11 мы разработали конвейер NLP для сбора данных о химическом составе и свойствах из научной литературы по суперсплавам. Метод распознавания именованных объектов (NER) на основе правил и эвристический алгоритм извлечения множественных отношений на основе расстояния для конвейера были предложены для преодоления недостатка ограниченных меток обучающего корпуса и одновременного достижения высокой точности и полноты. Предложенный алгоритм IE представляет собой метод, основанный на правилах, тогда как от метода машинного обучения отказались после сравнения, поскольку размеченного корпуса было недостаточно для обучения. Это трудоемкая задача, требующая усилий многих специалистов, если ее выполняют только люди. Стратегия, основанная на правилах, эффективна в таких условиях, но без возможности самостоятельного обучения и обновления. Таким образом, автоматическое создание корпуса в материальной области, позволяющее сократить ручное вмешательство, необходимо для IE на основе машинного обучения, что позволит компьютерам самостоятельно читать документы и извлекать наборы данных.