Rivalry2

HTML Diff

0 added 0 removed

Original 2026-01-01

Modified 2026-03-10

1 <p>Для машинного обучения надо очень много данных. Их можно собирать самому (что крайне утомительно) или использовать уже готовые (что гораздо быстрее). В этой статье вы найдёте уже готовые датасеты по самым разным категориям.</p>

2 <h2>Датасеты по финансам и экономике:</h2>

3 <p>•<a>Quandl</a>. Прекрасный источник финансово-экономических данных. Пригодится для построения моделей прогнозирования экономических показателей; •<a>World Bank Open Data</a>. Эти наборы данных охватывают демографическую ситуацию и включают в себя большое число индикаторов развития и экономических показателей со всего мира; •<a>IMF Data</a>. МВФ публикует данные о международных финансах, валютных резервах, инвестициях, показателях долга, ценах на сырьё; •<a>Financial Times Market Data</a>. Здесь вы найдёте актуальную информацию о мировых финансовых рынках, включая индексы цен на акции, валюту и товары; •<a>American Economic Association (AEA)</a>. Неплохой источник данных об американской макроэкономике.</p>

4 <h2>Датасеты по компьютерному зрению:</h2>

5 <p>•<a>xView</a>. Самый большой общедоступный набор воздушных снимков земли. Включает в себя изображения сцен со всего мира, аннотированные с помощью ограничительных рамок; •<a>Labelme</a>. Тоже большой датасет аннотированных изображений; •<a>ImageNet</a>. Датасет изображений, организованный в соответствии с иерархией WordNet; •<a>LSUN</a>. Здесь изображения разбиты по сценам и категориям с частичной разметкой данных; •<a>MS COCO</a>. Крупномасштабный датасет, который пригодится для обнаружения и сегментации объектов; •<a>COIL100</a>. Сто различных объектов, которые изображены под каждым углом и в круговом обороте; •<a>Visual Genome</a>. Здесь вы найдёте около 100 тыс. подробно аннотированных изображений; •<a>Google’s Open Images</a>. Коллекция из 9 млн URL-адресов к изображениям, помеченных метками и охватывающих более 6000 категорий; •<a>Labelled Faces in the Wild</a>. Набор из 13 тысяч размеченных изображений лиц людей. Пригодится для технологии распознавания лиц; •<a>Stanford Dogs Dataset</a>. Включено 20 580 изображений из 120 пород собак; •<a>Indoor Scene Recognition</a>. Датасет по распознаванию интерьера зданий. Включает 15 620 изображений и 67 категорий.</p>

6 <h2>Датасеты для анализа тональности текста:</h2>

7 <p>•<a>Multidomain sentiment analysis dataset</a>. Чуть устаревший датасет, включающий отзывы на товары с Amazon; •<a>IMDB reviews</a>. Тоже не новый и относительно небольшой датасет для бинарного анализа тональности. Содержит 25 000 отзывов к фильмам; •<a>Stanford Sentiment Treebank</a>. Стэнфордский датасет; •<a>Sentiment140</a>. Популярный датасет, который содержит 160 000 твитов; •<a>Twitter US Airline Sentiment</a>. Набор данных из Twitter, включающий в себя негативные, положительные и нейтральные твиты об авиакомпаниях США.</p>

8 <h2>Датасеты для обработки естественного языка:</h2>

9 <p>•<a>HotspotQA Dataset</a>. В этом датасете вы найдёте вопросы-ответы, позволяющие создавать системы для ответов на вопросы; •<a>Amazon Reviews</a>. Более 35 миллионов отзывов с Amazon за 18 лет. Включают информацию о продукте и пользователе, а также оценки и непосредственно текст отзыва; •<a>Google Books Ngrams</a>. Коллекция слов из Google Books; •<a>Blogger Corpus</a>. Коллекция постов с Blogger. Каждый блог включает не менее 200 вхождений наиболее часто применяемых английских слов. Всего - более 600 тысяч постов; •<a>Wikipedia Links data</a>. Этот датасет состоит из веб-страниц. Каждая из них включает хотя бы одну ссылку на Википедию, а текст её якоря совпадает либо похож на заголовок целевой страницы; •<a>Hansards text chunks of Canadian Parliament</a>. Содержатся более миллиона пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента; •<a>Gutenberg eBooks List</a>. Аннотированный список электронных книг проекта "Гутенберг"; •<a>Jeopardy</a>. Архив включает больше 200 тыс. вопросов с телевикторины Jeopardy; •<a>Rotten Tomatoes Reviews</a>. Больше 480 тыс. рецензий с Rotten Tomatoes; •<a>SMS Spam Collection in English</a>. Датасет из 5574 спам-смс на английском; •<a>UCI’s Spambase</a>. Тоже большой датасет спам-писем; •<a>Yelp Reviews</a>. Датасет от Yelp, включающий более 5 млн отзывов.</p>

10 <h2>Датасет для автопилотов:</h2>

11 <p>•<a>Berkeley DeepDrive BDD100k</a>. Один из наибольших датасетов для автопилотов. Включает более 100 тыс. видео с более чем тысячью часами записей вождения в различное время суток и в разных погодных условиях; •<a>Baidu Apolloscapes</a>. Датасет для распознавания 26 семантически разных объектов типа машин, зданий, пешеходов, велосипедов уличных фонарей и т. п.; •<a>Comma.ai</a>. Больше 7 часов езды по шоссе. В датасете содержится информация о скорости машины, GPS-координатах, ускорении, угле поворота руля; •<a>Oxford’s Robotic Car</a>. Больше ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасете есть разные комбинации трафика, пешеходов, погодных условий, а также дорожные работы; •<a>Cityscape Dataset</a>. Записи ста уличных сцен в пятидесяти городах; •<a>KUL Belgium Traffic Sign Dataset</a>. Больше 10 тыс. аннотаций различных светофоров в Бельгии; •<a>LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets</a>. Датасет со светофорами, дорожными знаками, распознанными средствами передвижения, а также траекториями движения; •<a>WPI datasets</a>. Датасет для распознавания светофоров, дорожной разметки, пешеходов.</p>

12 <h2>Датасет с медицинскими данными:</h2>

13 <p>•<a>MIMIC-III</a>. В этом датасете хранятся обезличенные данные о состоянии здоровья более 40 тыс. пациентов, находящихся на интенсивной терапии. Вы найдёте демографические данные, лабораторные анализы, показатели жизнедеятельности, лекарства и многое другое.</p>

14 <h2>Где ещё искать датасеты?</h2>

15 <p>Поискать датасеты можно и самостоятельно, но нужно знать, где это делать. Вот несколько сервисов: •<a>Google Dataset Search</a>. Вы можете искать датасеты по всему интернету, используя ключевое слово; •<a>Kaggle</a>. Площадка, предназначенная для соревнований по ML, где вы найдёте множество интересных датасетов; •<a>UCI Machine Learning Repository</a>. Сюда нужно заглянуть в первую очередь, т. к. это старейший источник датасетов в Сети; •<a>VisualData</a>. Это датасеты для компьютерного зрения, которые разбиты по категориям. Есть возможность поиска; •<a>Find Datasets | CMU Libraries</a>. Эта коллекция датасетов представлена университетом Карнеги Меллон.</p>

16 <p><em>По материалам статьи "<a>The Best Public Datasets for Machine Learning and Data Science</a>".</em></p>