Мы используем cookie файлы.
Пользуясь сайтом, вы соглашаетесь с нашей Политикой конфиденциальности.

Лаборатория технологий больших данных для проектов в области мегасайенс

Номер договора
14.Z50.31.0024
Период реализации проекта
2014-2018
Заведующий лабораторией

По данным на 15.02.2021

12
Количество специалистов
310
научных публикаций
34
Объектов интеллектуальной собственности
Общая информация

Мегаустановки в современном научном ландшафте - свидетельство научного потенциала, конкурентоспособности страны и элемент национальной безопасности. Но беспрецедентные объемы данных масштаба петабайтов, сгенерированные в проектах класса мегасайнс, предъявляют новые требования к компьютерным наукам и информатике. Сотрудники лаборатории работают над новыми решениями для управления, анализа и обработки данных. Таким образом, создание лаборатории позволит разрабатывать и использовать технологии, алгоритмы и программное обеспечение для широкого класса мегапроектов, как в России, так и в международном сотрудничестве.

Название проекта: Технологии больших данных для проектов в области мегасайенс


Цели и задачи

Направления исследований: большие данные, мегасайенс

Цель проекта: создание лаборатории BigData технологий в НИЦ «Курчатовский институт» (НИЦ КИ) для исследований и разработок в области обработки и анализа сверхбольших объемов данных

Практическое значение исследования
Научные результаты:

  • Создана и введена в эксплуатацию система управления загрузкой в распределенной компьютерной среде для экспериментов класса мегасайенс. Система уникальна по своим параметрам: в эксперименте «ATLAS» система управляет более чем 2 млн вычислительных задач в день (в среднем более 30М задач в месяц) в гетерогенной компьютерной среде, состоящей из более чем 150 ВЦ на более чем 300 тысяч узлов одновременно, включая системы грид, облачных вычислений и суперкомпьютеры.
  • Создана и работает платформа сервисов для запусков заданий в гетерогенной компьютерной среде. Введен в эксплуатацию единый портал для запуска научных приложений в гетерогенной компьютерной среде, в том числе для приложений биоинформатики: информационные технологии, изначально разработанные для приложений физики высоких энергий (ФВЭ), были использованы в биоинформатике. Подобная работа проводилась впервые в мире. Выполнены расчеты ДНК «древнего мамонта» на суперкомпьютере НИЦ КИ. Скорость выполнения расчетов увеличена в 4 раза за счет использования разработанных алгоритмов и созданной программной среды.
  • Создан прототип федеративной инфраструктуры хранения данных (ПИЯФ / НИЦ КИ / СПбГУ / ЦЕРН / ОИЯИ) и проведены исследования эффективности восстановления траков детектора переходного излучения эксперимента «АТЛАС» в условиях высокой загрузки БАК и программы отбора событий для тяжелоионного эксперимента «АЛИСА». Данные были распределены между географически удаленными центрами, но для пользователя инфраструктура выглядит как единое дисковое пространство. Работа не имеет аналогов в России и мире.
  • Предложена идея и архитектура «базы научных знаний» для экспериментов класса мегасайенс, которая позволит хранить метаинфорамцию на всех «этапах жизни» научного эксперимента: от выдвижения гипотез, создания модели и прототипа элементов детектора, выбора инженерного решения, моделирования физических процессов, до выполнения задач обработки и анализа данных, получения результатов, их обсуждения и публикации. Для «базы знаний» разработан прототип системы интеграции и индексирования метаинформации из различных внешних источников данных эксперимента «АТЛАС» на базе технологии ElasticSearch.
  • Предсказаны аномалии в работе и поведение распределенной системы обработки данных с использованием алгоритмов «машинного обучения». Руководство консорциума WLCG создало исследовательский проект для использования данной технологии тремя экспериментами на БАК (ATLAS, CMS, LHCb). Руководители проекта: А. Климентов (НИЦ КИ) и S. Roiser (CERN). Компания «Яндекс» предложила вести совместные работы по этой тематике, используя данные, имеющиеся у лаборатории.
  • Создан первый прототип географически распределенного хранилища данных, состоящего из центров ЦЕРН и RDIG: «академическое облако» в составе интегрированной связки гетерогенных компьютерных мощностей, таких как суперкомпьютер, университетский кластер, грид с организацией общего дискового пространства внутри «облака». Было продемонстрировано, что такая система хранения может быть эффективно использована для обработки и анализа данных научными приложениями LHC. Моделирование работы федерации было проведено для реальных ВЦ, входящих в RDIG, и реальных научных приложений экспериментов «АТЛАС» и «АЛИСА», для различных сценариев распределения наборов данных.
  • Предложена концепция и архитектура Российского озера научных данных для экспериментов на Большом адронном коллайдере и на нуклотроне NICA.
  • Разработана методика применения алгоритмов «машинного обучения» для аналитической системы контроля, которая нацелена на выявление возможного отказа или сбоя системы распределенной обработки и анализа данных. Определены критические параметры и процессы, контролирование и анализ которых позволит оценить и спрогнозировать состояние системы. Разработан пакет программ для предсказания времени выполнения вычислительных заданий.
  • Реализован новый модуль программной инфраструктуры системы управления загрузкой и данными в гетерогенной компьютерной среде – Harvester, который предоставляет унифицированный доступ к различным вычислительным ресурсам, независимо от их типа, архитектуры и внутренних политик. Сервис оптимизирует работу системы и процесс запуска заданий в гетерогенной вычислительной среде.
  • Разработка и поддержка системы управления нагрузкой PanDa для анализа данных эксперимента ATLAS на Большом адронном коллайдере (LHC). Программное обеспечение PanDa использовалось для обеспечения успешного и эффективного анализа данных, собранных в первых двух сеансах работы LHC. Разработано программное обеспечение для анализа метаданных научных публикаций и их автоматического учета.

  • Разработана платформа автоматизированной конвейерной обработки данных в экспериментах по визуализации одиночных частиц на лазерах на свободных электронах. Платформа позволяет автоматически восстанавливать структуру исследуемого объекта на основе сырых экспериментальных данных. Структура бактериофага pr772 была восстановлена с разрешением 7 нм, что является улучшением по сравнению с ранее достигнутыми результатами в экспериментах по визуализации отдельных частиц.

Внедрение результатов исследования:

Система megaPanDA рассматривается как основной вариант программного обеспечения для управления и обработки данных на коллайдере NICA (ОИЯИ, Дубна) и в эксперименте COMPASS на ускорителе SPS (Super Proton Synchrоtron, ЦЕРН), IceCube, DESC.

ПО PanDa используется для управления вычислительными заданиями по анализу данных экспериментов БАК.

Образование и переподготовка кадров:

  • Подготовлена двухлетняя магистерская программа (Аналитика и управление большими данными) по большим данным на основе результатов работ лаборатории (совместно с Государственным университетом «Дубна» и Томским политехническим университетом).

  • Разрабатывается курс по большим данным совместно с факультетом НБИКС МФТИ, курс читается с 2015 года. В НИЯУ МИФИ читается курс по большим данным и методам обработки данных в ФВЭ.

  • Защиты: 6 докторских диссертаций, 10 кандидатских диссертаций.

  • Проведена Международная молодежная научная школа-конференция по распределенным гетерогенным вычислительным инфраструктурам (The International School on Heterogeneous Computing Infrastructure) для студентов и аспирантов российских университетов (2017 г.).

  • Проведена Международная школа по использованию больших данных в подготовке и проведении работ в рамках проектов мегамасштабов – «Грид и административно управленческие системы ЦЕРН» (2015 г.).

  • Проведена Первая международная конференция-школа «Проблемы обработки, анализа и управления большими данными в распределенной гетерогенной компьютерной среде для высокоинтенсивных областей науки и бизнес-приложений». Школа была призвана познакомить студентов и аспирантов с последними разработками в области IT: с созданием гетерогенного вычислительного пространства, применением методов «машинного» и «глубинного» обучения для поиска аномалий в работе сложных систем, проблемами презервации научной информации (2016 г.).

Организационные и инфраструктурные преобразования:

На базе Центра обработки данных НИЦ «Курчатовский институт» создан объединенный вычислительный кластер, на котором производится реализация и отладка разрабатываемых программных систем, в том числе для приложений биоинформатики.

Сотрудничество:

ЦЕРН (Швейцария), Университет Техаса в Арлингтоне (США), Университет Ратгерс (США), Университет Осло (Норвегия), Брукхейвенская национальная лаборатория (США), DESY (Германия), Университет Любляны (Словения), Университет Франкфурта (Германия), Томский политехнический университет (Россия), НИЯУ МИФИ (Россия), Объединенный институт ядерных исследований в Дубне (Россия), компания Google: совместные исследования.

Немецкий электронный синхротрон, Германия - Cовместные исследования. В результате сотрудничества были проведены два совместных эксперимента по визуализации одиночных биомолекул на Европейском лазере на свободных электронах (p2145 и p2146). Вместе с экспериментом amox34117 на LCLS (Стэнфорд, США, сентябрь 2018) они были обработаны и восстановлена структура бактериофага pr772. По результатами опубликована статья в журнале IUCrJ. Совместно была разработана платформа для автоматизированной конвейерной обработки данных экспериментов по визуализации одиночных биомолекул на лазерах на свободных электронах.

Скрыть Показать полностью
Aad G. et al
Combined Measurement of the Higgs Boson Mass in p p Collisions at s= 7 and 8 TeV with the ATLAS and CMS Experiments //Physical review letters. – 2015. – Т. 114. – №. 19. – С. 191803.
Aad G. et al
Muon reconstruction performance of the ATLAS detector in proton-proton collision data at root s=13 TeV //The European Physical Journal C. – 2016. – Т. 76. – №. 5. – С. 292.
Golosova M. et al.
PanDA Workload Management System meta-data segmentation //Procedia Computer Science. – 2015. – Т. 66. – С. 448-457.
Borodin M. et al.
Scaling up ATLAS production system for the LHC Run 2 and beyond: project ProdSys2 //Journal of Physics: Conference Series. – IOP Publishing, 2015. – Т. 664. – №. 6. – С. 062005.
Klimentov A. et al.
BigData and computing challenges in high energy and nuclear physics //Journal of Instrumentation. – 2017. – Т. 12. – №. 06. – С. C06044.
Barreiro F. H. et al.
The ATLAS production system evolution: new data processing and analysis paradigm for the LHC Run2 and high-luminosity //Journal of Physics: Conference Series. – IOP Publishing, 2017. – Т. 898. – №. 5. – С. 052016.
Assalauova D. et al.
An advanced workflow for single-particle imaging with the limited data at an X-ray free-electron laser //IUCrJ. – 2020. – Т. 7. – №. 6.
Teslyuk A. et al.
Development of Experimental Data Processing Workflows Based on Kubernetes Infrastructure and REANA Workflow Management System //Russian Supercomputing Days. – Springer, Cham, 2020. – С. 563-573.
Медиа
Вторник , 03.12.2019
Другие лаборатории и ученые
Лаборатория, принимающая организация
Область наук
Город
Приглашенный ученый
Период реализации проекта
Лаборатория «Гибридные методы моделирования и оптимизации в сложных системах»

Сибирский федеральный университет - (СФУ)

Компьютерные и информационные науки

Красноярск

Станимирович Предраг Стеван

Сербия

2022-2024

Лаборатория «Исследование сетевых технологий с ультра малой задержкой и сверхвысокой плотностью на основе широкого применения искусственного интеллекта для сетей 6G»

Санкт-Петербургский государственный университет телекоммуникаций им. проф. М. А. Бонч-Бруевича

Компьютерные и информационные науки

Санкт-Петербург

Абд Эль-Латиф Ахмед Абдельрахим

Египет

2022-2024

Лаборатория нелинейной и микроволновой фотоники

Ульяновский государственный университет - (УлГУ)

Компьютерные и информационные науки

Ульяновск

Тейлор Джеймс Рой

Великобритания, Ирландия

2021-2023