Нано- и микроматериалы различной морфологии и состава находят широкое применение во многих различных областях. Тем не менее, поиск процедур, дающих пользовательские наноматериалы с требуемой структурой, формой и размером, остается сложной задачей и часто реализуется путем ручного скрининга изделий. Здесь мы впервые разрабатываем сканирующую и просвечивающую электронную микроскопию (SEM/TEM) для обратного поиска изображений и поиска на основе ручного рисования с помощью обучения передаче (TL), а именно нейронной сети свертки VGG16 (CNN), предназначенной для извлечения признаков изображения (FE) и определения сходства изображений (IS). Кроме того, мы демонстрируем пример использования этой платформы в системе карбоната кальция, где данные были получены методом случайного высокопроизводительного экспериментального синтеза, и на данных о наночастицах Au (NPS), извлеченных из статей. Этот подход может быть использован для расширенного поиска наноматериалов, проверки процедуры синтеза и в дальнейшем сочетаться с решениями машинного обучения (ML) для обеспечения обнаружения наноматериалов на основе данных.
Рандомизация этих переменных позволяет исключить предвзятость человека, а также включить "негативные" результаты, которые очень важны для любого последующего ML в смысле проблемы дисбаланса данных. Соответственно, была собрана база данных из >200 отдельных наноматериалов, состоящая из >20 уникальных форм, и в результате каждой отдельной синтетической процедуре в базе данных было присвоено изображение SEM.
Для обеспечения обратного поиска изображений на изображениях SEM и последующего извлечения процедуры синтеза на основе меток изображений из базы данных необходимо реализовать FE изображения. Обычно это достигается за счет использования кодировщика-декодера CNNs, постепенно сжимающего размеры изображения и пытающегося восстановить его с помощью уникальных функций, извлеченных из изображений. В этой работе был реализован подход TL, а именно переосмысление широко используемой модели CNN VGG16, предварительно обученной на более чем 14 000 000 изображениях макроскопических объектов из 20 000 категорий для SEM-изображений FE.
VGG16 CNN состоит из свертки, а также объединения и полностью соединенных плотных слоев. Свертка в основном представляет собой применение фильтров к группам пикселей, тем самым учитывая взаимосвязи между соседними пикселями. Объединение в пул сжимает изображение, что приводит к более компактному представлению изображения. Плотные слои часто используются для дальнейших задач классификации для получения одного или нескольких отдельных выходных данных в виде вектора. Последний полностью связанный слой формы содержит 4096 объектов, сгенерированных для каждого отдельного изображения, которые затем сжимаются до 200 с помощью анализа главных компонент (PCA), который представляет собой метод уменьшения размеров, при котором основные компоненты или собственные векторы матрицы ковариации данных получают, максимизируя дисперсию проецируемых данных, и используются для косинусного расстояния определение между изображениями, представленными в виде векторов в 200-мерном пространстве признаков. Чтобы продемонстрировать, что эта модель отражает сложную морфологию кристаллов на изображениях SEM, было сделано несколько запросов, в результате которых были получены 3 наиболее похожих изображения по косинусному сходству.