- Регистрация
- 23.09.18
- Сообщения
- 12.347
- Реакции
- 176
- Репутация
- 0
[SUP]Статистика для Москвы в сценарии «люди стараются сидеть по домам, нет авиасообщения» — к ноябрю модель показывает 5 миллионов переболевших. Это ограниченный прогноз на основе неполных данных, ниже будут детали. За ноль принято 22 марта. [/SUP]
В мире было создано несколько моделей распространения инфекции, но ни одна не подходила нормально для России, либо опиралась на плотность населения без правильного графа перемещений людей. Почему? Потому что либо он получается так сложно, что вы окосеете его согласовывать, либо его ни у кого в одном месте этого датасета просто нет.
Кроме нас.
Туту.ру с радостью делится данными с журналистами уже 16 лет (огромная часть новостей в духе «Заметен аномальный спрос на Анталию» — это нарезка наших информационных витрин). Но мы исторически никогда не раскрывали сами данные по перемещениям людей целыми блоками.
Мы собрали датасет передвижений людей по России за апрель 2019 и передали его в сообщество Open Data Science. Если вы их не знаете — это объединение преимущественно русских дата-сайнтистов (но со всего мира), которое перерабатывает открытые данные на полезные модели. Некоммерчески.
Ниже выводы, таблица с прогнозом по каждому крупному городу, сам датасет (если вы хотите попробовать с ним что-то сделать). Про то, как работает модель и какая математика и ограничения лежат внутри, расскажет ODS через пару часов. И выложит исходники.
Датасет
Это то, как люди путешествовали по стране за прошлый апрель-2019 (с некоторыми погрешностями). Датасет представляет собой набор векторов от города к городу (первый указанный город — откуда, второй — куда), вид транспорта и число пассажиров, восстановленное до 100%. Датасет представляет собой статистические обезличенные данные, касающиеся групп людей.
Вот
You must be registered for see links
. За неё ещё раз спасибо
You must be registered for see links
.Ограничения данных: автобусы — самая неточная часть датасета. Мы не можем точно знать, сколько людей проехало на автобусах из-за так называемых «серых» перевозчиков, которых мы не поддерживаем на платформе. Но мы постарались восстановить эти данные по известным маршрутам. В авиа и железной дороге данные куда более точные, но не на 100%. Мы не видим перемещения военных, персонала железной дороги, детские вагоны и прочие необычные билеты. Есть ряд перевозок вроде вертолётных маршрутов между городами Дальнего Востока и винтомоторной авиация Якутии. В авиации наше покрытие рынка очень хорошо по всей европейской части России и падает к востоку (во Владивостоке, Новосибирске и Хабаровске данные наиболее точны в восточной части страны). На железнодорожных билетах погрешность довольно мала.
Если человек ехал в поезде Москва – Петербург и вышел в Твери, то он считается за пассажира Москва – Тверь.
Можно получить более точные данные через разных перевозчиков, ведомства и официальную статистику, но это почти невозможно на практике в короткие сроки. Наши данные достаточны для оценки, но просто помните, что они также собраны и восстановлены с некоторой погрешностью.
Забрать его можно
You must be registered for see links
. Через пару часов будет публикация о том, как работает модель и что у неё под капотом, и ODS раскроет исходники. Там будет репозиторий с уже уложенной этим датасетом и другими (вроде поставленной в соответствие карты городов по названиям с координатами и количеством заболевших).Если что-то сделаете с ним — покажите, пожалуйста, в личку или в мою почту [email protected].
Сценарии
Есть три базовых сценария: «мы ничего не трогаем, всё идёт как обычно» — дальше всё предсказуемо плохо по уровню заражения. Второй сценарий — «мы перекрываем всё авиасообщение и люди стараются сидеть дома, но машины и поезда продолжают ездить». Третий сценарий — закрытие основных транспортных хабов. С учётом свежих изменений, мы посчитали их (в CSV есть выводы), но взяли также выводы четвёртого, где смоделировали сокращение трафика по стране до 10% от обычного.
По
You must be registered for see links
CSV сценариев.Мировое сообщество не первый раз встречается с эпидемиями и не первый раз прогнозирует их развитие с помощью матмоделей. Математика местами сложная, но нейросети нужны. Но моделирование потоков между вершинами графа математически
You must be registered for see links
к самым современным архитектурам нейросетей. Алгоритмы распространения эпидемии давно известны, нужно только задать параметры вроде контагиозности. Которые за нас подсчитали китайцы, итальянцы и остальные, кто столкнулся с проблемой ранее.
You must be registered for see links
с кучей ссылок на исследования, верифицированный врачами, во многом был сбором начальных данных для модели. Тем не менее ещё раз предупреждаю: в модели используются не совсем точные исходные данные, среди разработчиков нет профессиональных эпидемиологов (но мы пользуемся их алгоритмами), модель имеет свои ограничения. Детали по SIR будут в посте ODS. Оценочная точность — до порядка. Работа модели выглядит так:
- Считаем распространение болезни за день.
- Считаем, сколько людей переехало в другой город на основе взвешенных векторов перевозок.
- Пересчитываем количество инфицированных в городах.
- Запускаем следующий такт.
Шум в начале модели вызван тем, что отправная точка — 22 марта 2020, и она не учитывает тех, кто заразился где-то за рубежом до этого и никак себя не проявил до теста в последующие дни. Важно и то, что опорные данные модели — это не фактическое количество больных, а количество протестированных с положительным тестом на COVID-19. То есть переносчиков по факту может быть больше, и цикл заражения сократится. Заражения внутри транспорта пока не учитываются в модели.
Результаты
Показываю два расчётных экстремума — что будет, если ничего не делать (вариант 1) и принять максимум мер, но не включать режим тотального карантина с границами по кварталам (вариант 2).
Всё по той же
You must be registered for see links
CSV выгрузки, в формате таблицы ниже. Сценарий 1: самый быстрый
Сценарий 1 — самый плохой с точки зрения распространения инфекции, когда сохраняется 100% трафика между городами (сейчас он уже ниже), а люди не стараются самоизолироваться, например, ездят на автобусах и в метро на
You must be registered for see links
, но при этом соблюдают рекомендации по мытью рук и стараются соблюдать дистанцию (с переменным успехом). Моделируется полгода, поэтому, например, Москва не будет излечена до состояния «менее тысячи инфицированных одновременно» в рамках периода отработки модели. Параметры колонок — количество одновременно инфицированных пациентов (выздоровевшие туда не входят). Первый порог начинается с «больше тысячи» (это день, когда в городе число одновременно инфицированных превышает тысячу), дальше 10 и 100 тысяч. Четвёртая колонка — момент, когда субъективно можно переставать прятаться, меньше 1000 одновременно инфицированных.
Город >1000 >10.000 >100.000 code>
В модели также есть Алдан, Аргун, Арск, Артышта, Артём, Артёмовск, Аян, Бабушкин, Багдарин, Байкальск, Байкит, Батагай, Белая Гора, Белый, Берёзовый, Богородское, Болотное, Буинск, Ванавара, Ванино, Великий Устюг, Верхневилюйск, Верхотурье, Вилюйск, Вяземский, Гремячинск, Гусиноозёрск, Давлеканово, Депутатский, Диксон, Долинск, Ербогачён, Жиганск, Жуковка, Забайкальск, Завитинск, Заинск, Залахтовье, Заринск, Злынка, Зуевка, Зырянка, Игарка, Игрим, Избербаш, Изборск, Известковый, Казачинское, Калачинск, Калевала, Карагайский, Карасук, Карачев, Каргасок, Каргат, Кепервеем, Кинель, Киренск, Кола, Кослан, Красный Чикой, Купино, Курильск, Ленинск, Лобня, Луза, Любань, Макаров, Макушино, Малоархангельск, Мама, Манжерок, Мещовск, Миньяр, Могоча, Мураши, Мыски, Мытищи, Называевск, Нарткала, Нижнеангарск, Новоабзаково, Новоржев, Новосиль, Нюрба, Облучье, Обь, Озеро-Карачинское, Озёрск, Оленёк, Олёкминск, Омолон, Омсукчан, Охотск, Павелец, Певек, Пено, Петухово, Плёс, Поронайск, Пржевальское, Пряжа, Саккырыр, Салми, Саскылах, Светлогорск (Красноярск.), Северо-Енисейский, Сеймчан, Симеиз, Синяя Осока, Слюдянка, Соль-Илецк, Сонково, Сорск, Сосновка, Спас-Деменск, Среднеколымск, Сретенск, Сунтар, Сусуман, Таксимо, Талакан, Терек, Тикси, Тогучин, Толька, Томмот, Топки, Тура, Туран, Туруханск, Усть-Качка, Усть-Кокса, Усть-Куйга, Усть-Нера, Усть-Цильма, Хандыга, Хатанга, Хилок, Холм, Хонуу, Хотынец, Чара, Чемал, Черемхово, Черепаново, Чернолучье, Черский, Чокурдах, Чулым, Чумикан, Чёрмоз, Шилка, Эвенск, Южно-Курильск — эти города либо заражаются позднее моделируемого периода, либо не набирают 1000 инфицированных.
Сценарий 2
Самый «изолированный» сценарий. В нём остаются только 10% от трафика перевозок, то есть попадать из одной точки в другую становится куда тяжелее, но возможно. Это не полный карантин, а существенное снижение связности. Люди внутри городов не ходят на ярмарки и стараются самоизолироваться, но делают это не идеально, а в меру своего понимания. Моделируется период в 180 дней (соответственно, Барнаул, набравший тысячу больных на 174-й день модели не успеет набрать меньше тысячи больных в процессе «придавливания» эпидемии). Города, которых нет в таблице, не набирают больше 1000 больных или не заражаются.
Город >1000 >10.000 >100.000 code>
Я ещё раз напомню, что это моделирование распространения инфекции между городами, а не учёт смертности и остального. Вы можете помочь ODS, написав в личку
You must be registered for see links
.Ещё важное: центр в Сколтехе решил выделить вычислительное время на суперкомпьютере Zhores для моделирования задач, так или иначе связанных со сдерживанием эпидемии. У них есть CPU-ноды (небольшая часть, но есть) и GPU-ноды (в нодах стоят по 4 Tesla P100). Если у вас есть распараллеленный под MPI CPU код или необходимость посчитать модели в параллельном режиме на GPU — подходит. Можно приносить любые задачи, которые как-нибудь связаны с борьбой с эпидемией, например по молекулярному моделированию, моделированию транспортных потоков и т.п. Контакты: [email protected] или можно подать заявку
You must be registered for see links
. Что это значит?
Российская логистика — одна из самых сложных в мире. У нас очень много изолированных городов, население значительно раскидано по планете, огромные пустые территории. Из плотносвязанного на западе граф превращается в слабосвязанный на востоке.
Это может означать, что можно отрезать существенные части графа от основных очагов (но, похоже, уже поздно из-за возвращавшихся в разные крупные города из-за границы).
Модели без учёта такого распространения очень сильно ограничены отсутствием нужных данных.
Сейчас фактор неравномерности населения означает, что можно резко переменить ход развития эпидемии, перекрывая транспортное сообщение.
Главный коммерческий вывод — возможно, локдаун сейчас дешевле, чем последствия дальше.
Я приглашаю вас не верить мне на слово, а расколупать модель, поковыряться в CSV и коде, докрутить и улучшить результат, который предоставило ODS. Собственно, сейчас сообщество работает над уточнениями модели.
И особо отмечу, что тот факт, что сообщество взялось за проект, сделало его и открывает результат — это огромный прецедент в пользу того, что сами данные нужно открывать. Потому что иногда они крайне полезны, даже если у вас нет времени или возможности с ними что-то сделать.
You must be registered for see links
, большой
You must be registered for see links
на разные исследования,
You must be registered for see links
— ваш вход в ODS, если вы хотите помочь.