Российские учёные представили датасет для обучения ИИ классификации минералов
2026-02-21 03:27 Diff

Онлайн-журнал для тех, кто влюблён в код и информационные технологии. Пишем для айтишников и об айтишниках.

Российский институт искусственного интеллекта AIRI совместно с разработчиками из Sber AI, а также с исследователями МГУ и Минералогического музея имени А. Е. Ферсмана представил датасет для обучения нейросетей определению минералов по фото. Это поможет разрабатывать модели машинного обучения для быстрой классификации горных пород.

Исследователи рассказали, что всего известно около 6 тысяч разновидностей минералов. Из них только несколько сотен хорошо изучены и представляют ценность для промышленности. Такие породы активно добывают и перерабатывают. Остальные минералы настолько редкие, что не каждый геолог видел их вживую. Из-за этого процесс их классификации может затягиваться на несколько дней. За это время геологи успевают просмотреть фотографии наиболее похожих образцов и найти закономерности.

С помощью представленного датасета можно разработать модель машинного обучения, которая сможет определять вид минерала по его фотографии. Система призвана освободить геологов от рутинных задач и минимизировать ошибки визуального анализа, при котором их количество может достигать 20%.

Также с помощью датасета можно автоматически определять приблизительный размер образца. Система может предположить длину и ширину объекта по фотографии, и это позволяет быстро подобрать коробку для хранения минерала.

Для составления набора данных исследователи использовали коллекцию Минералогического музея имени А. Е. Ферсмана, в которой хранится более 170 тысяч образцов. За всё время существования музея удалось описать около 5 тысяч видов полезных ископаемых.

Пример таблицы данных из датасета
Скриншот: Сергей Нестерук / «Яндекс Диск»

Датасет опубликован на GitHub и «Яндекс Диске». В каждой таблице содержатся изображения минералов, описание и название на русском и английском языках, размеры и данные для составления классификации. Архив весит около 6 Гб и доступен бесплатно.


Бесплатный курс по Python ➞
Мини-курс для новичков и для опытных кодеров. 4 крутых проекта в портфолио, живое общение со спикером. Кликните и узнайте, чему можно научиться на курсе. Смотреть программу