Большим данным - большие проекты

В ходе XVII Всероссийской конференции «Распределенные информационно-вычислительные ресурсы: цифровые двойники и большие данные» (DICR'2019) на площадке Института вычислительных технологий СО РАН прошел круглый стол «Перспективные совместные (междисциплинарные) проекты в области цифровых двойников, анализа и организации больших данных».

О чем речь?

Как принято в академической среде, участники обсуждения сначала взялись сформулировать его предмет. Первый заместитель директора ИВТ кандидат физико-математических наук Андрей Васильевич Юрченко констатировал, что оба термина — цифровые двойники и большие данные — уже хорошо прижились как в научном, так и более широком обиходе. «С другой стороны, они очень расплывчаты. При этом я не считаю, что научные определения нужно унифицировать ГОСТами, — сказал А. Юрченко. — Мы, ученые, вправе находить взаимоприемлемые трактовки в рамках профессионального общения».

«С понятием больших данных я столкнулся впервые в 2012 году на крупной корпоративной конференции, — вспоминал доктор технических наук Владимир Борисович Барахнин из ИВТ СО РАН. — Представитель одного из операторов сотовой связи рассказывал, как они анализируют логи пользователей для выбора оптимальной маркетинговой политики. Речь шла о десятках миллионов записей и вывод был такой: решение по выбору сети принимают отцы семейств, на них нужно ориентироваться. Затем дама из медицинской компании продемонстрировала результаты работы с более сложными данными о ста тысячах пациентов. Это делалось для решения той же задачи, но дало противоположный результат: вышло, что ориентироваться при продвижении медицинских услуг нужно в первую очередь на женщин. Тогда нам казалось, что с позиций науки о вычислениях и первое, и второе ничего принципиально нового не представляют — не те величины. Но когда летом уже следующего года во время истории с Эдвардом Сноуденом выяснилось, что спецслужбы США способны сканировать и анализировать едва ли не всю электронную переписку — а это миллиарды очень плохо структурированных записей, — стало ясно, что термин “большие данные” имеет полное право на существование. И они требуют принципиально других, новых методов работы по сравнению с теми, к которым мы привыкли». Владимир Барахнин обозначил одно из таких отличий: работа с big data невозможна прямыми методами обращения к ним и требует многоуровневого машинного обучения.

Заместитель главного ученого секретаря Сибирского отделения РАН кандидат технических наук Юрий Александрович Аникин также апеллировал к опыту американских спецслужб, цитируя максималистское определение одного из директоров ЦРУ: «Большие данные — это все данные мира, причем доступные для анализа в пределах одного акта». Говоря о цифровых двойниках, доцент факультета информационных технологий Новосибирского государственного университета Виталий Геннадьевич Казаков назвал их «не научным термином, но научной метафорой». «Такие иносказания используются не для того, чтобы раздвинуть горизонты внутринаучного и межнаучного общения, — считает он, — а для вступления в контакт с людьми, которые распределяют деньги. Имитационное моделирование на компьютерах проводилось еще с 1950-х годов, и в течение нескольких десятилетий у нас не было никакой необходимости в термине “цифровые двойники”. Он появляется в тот момент, когда такие модели начали массово применяться в промышленности, а ей руководят не научные работники — с ними потребовалось находить общий язык и подбирать приемлемые понятия. Но прежде чем использовать такие термины в науке, я бы предложил предварительно определяться в их необходимости».

Кандидат технических наук Роман Константинович Федоров из иркутского Института динамики систем и теории управления им. В.М. Матросова СО РАН считает, что понятие “цифровые двойники” всё же приемлемо и в науке, поскольку выделяет класс имитационных моделей многоразового непрерывного использования и поэтому самообновляющихся, «живых», реагирующих на поступление новых данных в режиме реального времени. Прозвучала и гуманитарная трактовка: «Цифровые двойники — очередная опасная игрушка человечества, порожденная его неистребимой ленью и любознательностью». Опасность видится в превращении пользователя из профессионала в так называемого квалифицированного потребителя, который в большей степени наблюдает виртуального субъекта, нежели управляет им. В качестве примера приводились летные происшествия и даже катастрофы последних лет, вызванные зависимостью экипажей от интеллектуальной авионики.

Цифровые урожаи

Сельское хозяйство перестает быть консервативной сферой, в том числе и в России. Производительность растениеводства, например, за последние десятилетия возросла в разы. Если в СССР ежегодные «битвы за урожай» с привлечением почти всего городского населения давали (по состоянию на 1978 г.) средние 17 центнеров зерновых с гектара на площади 74 миллиона гектаров, то урожайность 2017 года составила 29 центнеров с гектара при сокращении посевов до 48 миллионов гектаров. Эти данные приводились в презентации академика Виктора Валентиновича Альта (Сибирский федеральный научный центр агробиотехнологий РАН), представленной участникам круглого стола.

Как выяснилось, рост производительности достигнут за счет комплекса изменений — прежде всего, увеличения количества и точности операций, производимых на полях, а также замены машинного парка на более современный (в том числе с автоматизированным и роботизированным управлением). Примером служит хозяйство «Майское» (Новосибирская область), где в 1988 году 9 тысяч гектар обрабатывали 67 комбайнов, а сегодня с 20 тысячами управляется 15 машин, при этом урожайность выросла ровно вдвое. Но высокий урожай — не всегда благо, в некоторые годы это вызывает пресыщение рынков, падение цен, накопление нереализуемых товарных излишков, как это произошло с сахарной свеклой и сахаром в текущем году.

Поэтому цифровизация аграрного сектора — не «цифровые двойники коров» (упоминавшиеся в качестве курьёза), а интеллектуальные системы комплексного прогнозирования, планирования и ведения хозяйства, основанные на работе с big data самого различного происхождения: от данных дистанционного мониторинга земной поверхности до экономических показателей и информации с сенсоров сельхозмашин. «Специалисты СФНЦА РАН и ИВТ СО РАН ведут совместный проект, к развитию которого намерены подключить индустриальных партнеров, — сообщил А.В. Юрченко. — Речь идет о разработке цифровых технологий для снижения потерь от заболеваний культур, а в перспективе — поэтапном создании системы планирования и управления урожайностью». Ученый не отрицает, что это окажет воздействие на автономию принятия решений отдельными холдингами и хозяйствами: «Мы все встали на путь создания новой плановой экономики, и не только аграрной».

Правда, не все согласны с возможностью стопроцентно эффективного планирования урожайности. «До сих пор важнейшим воздействующим фактором здесь является климат, — отметил В. Б. Барахнин. — Возможности его прогнозирования на сезоны вперед сегодня весьма невелики. Четкое предсказание семи тощих и семи тучных лет пока описано только в Книге Бытия».

Потоки и преграды

Другой комплексный проект, обсуждавшийся на круглом столе — создание цифровой модели Обь-Иртышского речного бассейна. Со стороны науки его инициаторами выступили барнаульский Институт водных и экологических проблем СО РАН и Кемеровский филиал ИВТ СО РАН, к которым позднее присоединился и центр «Новые производственные технологии» Санкт-Петербургского политехнического университета Петра Великого. Проект уже включен в программу развития создаваемого научно-образовательного центра (НОЦ) «Кузбасс» и концептуально задуман прежде всего как межрегиональный. Соглашение об участии в нем подписали Кемеровская область (координационный совет проекта возглавил вице-губернатор региона Константин Геннадьевич Венгер) и еще восемь субъектов Сибирского и Уральского федеральных округов.

По словам Андрея Юрченко, цель этой научно-территориальной коллаборации — сохранение и экологическая реабилитация водных объектов, входящих в Обь-Иртышский бассейн (включая Телецкое озеро), точная оценка влияния на них располагающихся на берегах рек и озер этого бассейна городов и агломераций за счет построения основанной на больших данных (data-driven) системы комплексного управления водными ресурсами (КУВР) речного бассейна в соответствии с действующим международным стандартом на такие системы. «Это очень больший проект, — подчеркнул заместитель директора ИВТ, — в котором мы хотели бы, с одной стороны, использовать по максимуму те заделы, которые уже есть у нас и наших коллег — как в области моделирования, так и в работе с большими данными. — С другой стороны, мы надеемся, что межрегиональная и междисциплинарная инициатива будет поддержана государством как соответствующая целям национальных стратегий и проектов».

Обь-Иртышский проект А. Юрченко назвал своеобразным спин-оффом (ответвлением — Прим. ред.) более широкого научного начинания по моделированию сложных экосистем, сопряженного с Планом комплексного развития СО РАН. «Мы видим возможность не только масштабирования и переноса создаваемых моделей на экосистемы других частей России и заинтересованных стран, но и построение, по аналогии, систем мониторинга и управления другими природными ресурсами», — подчеркнул ученый.

Затраты на создание цифровой модели Обь-Иртышского бассейна оценены весьма приблизительно — «порядка миллиарда рублей». «Потребуется создание десятков, если не сотен, новых экологических полигонов и контрольных станций, оснащенных самым современным оборудованием, — заметил Андрей Юрченко. — Это далеко не чисто научный проект, и мы рассчитываем на участие в нем десятков предприятий и компаний, региональных властей и управляемых ими ресурсов». Неизбежен, но не решен вопрос об интернационализации проекта: верховья и истоки Иртыша находятся на территориях Казахстана и Китая, без поступления данных откуда полнота модели ставится под сомнение. Как отметил заведующий лабораторией ИВТ СО РАН доктор технических наук Евгений Леонидович Счастливцев, сопредельные страны могут быть вовлечены через структуры Шанхайской организации сотрудничества, тем более что академии наук государств-участников ШОС создали специальный совет по взаимодействию.

Участники обсуждения не скрывали того, что в академических институтах и университетах есть факторы, препятствующие их активности в комплексных проектах. В частности, был назван разрыв (ментальный, мотивационный, инструментальный) с высокотехнологическими компаниями, включая сектор IT. «Даже в Академгородке не все субъекты готовы к кооперации», — высказался Виталий Геннадьевич Казаков из Новосибирского госуниверситета. «Мы относимся со скепсисом друг к другу и все вместе — к новым амбициозным проектам, — заметил Андрей Юрченко. — Возможно, этот скепсис и мешает нам больше всего».

Андрей Соболевский


Первый заместитель директора ИВТ СО РАН к.ф.-м.н. Андрей Васильевич Юрченко.


Ведущий научный сотрудник ИВТ СО РАН д.т.н. Владимир Борисович Барахнин.


Заместитель главного ученого секретаря Сибирского отделения РАН к.т.н. Юрий Александрович Аникин.


Доцент ФИТ НГУ к.ф.-м.н. Виталий Геннадьевич Казаков.