- Регистрация
- 14.05.16
- Сообщения
- 11.398
- Реакции
- 501
- Репутация
- 0
Несколько лет назад компания Veeam открыла R&D центр в Праге. Изначально у нас был небольшой офис примерно на 40 человек, но компания активно растет, и сейчас, в новом просторном офисе Rustonka нас уже больше двухсот. Veeam нанимает сотрудников не только из Чехии и Евросоюза, но и активно релоцирует успешных кандидатов из России. Многие переезжают вместе с женой и детьми, и вот тут у них возникает вопрос, с которым я и моя семья столкнулись четыре года назад, когда мы впервые оказались в Праге: нам надо было решить, где выбрать жилье, в какой садик будет ходить дочка, и решить множество других проблем, которые возникали по причине полного незнания города. Конечно, можно проверить всё это своими ногами, но мне захотелось подойти к вопросу с инженерной точки зрения и решить эту задачу с помощью дата-сайнс подхода — с помощью анализа данных в открытом доступе определить наиболее благоприятные для проживания районы Праги.
Определение степени благоприятности района — довольно обширная задача, и оценка может быть весьма субъективна, поэтому для начала, я немного конкретизирую и опишу проблему следующим образом:
Какой район Праги наиболее привлекателен с точки зрения пешеходной доступности инфраструктуры для детей в возрасте от 10 до 16 лет?
Под пешеходной доступностью в своей работе я беру расстояние в 1300 метров. Именно такой порог, согласно различным исследованиям, считается оптимальным для этой возрастной группы.
В качестве объектов инфраструктуры я выбрал такие, которые, по моему мнению, посещает большинство детей. Это школы, библиотеки, образовательные центры, спортивные центры и игровые площадки.
Город и данные
Прага — столица Чешской республики, её культурный и экономический центр. По совместительству это 14й по величине город в Европейском союзе. На площади в 298 кв. км. официально проживает 1,3 миллиона человек.
История Праги насчитывает уже 14 веков. И, как практически любой европейский город, заложенный в раннем средневековье, Прага имеет классическую для этого типа городов топологию. Исторический центр — сравнительно небольшой по площади, с плотной застройкой и узкими улицами. Непосредственно к нему примыкают районы с уже более поздней застройкой, причем, в отличие от самого центра, эти районы неоднократно перестраивались, модернизировались и теперь уже более приспособлены для жизни современного человека. Периферия — спальные районы, плавно переходящие в малоэтажную застройку, и частные дома.
В целом Прага очень комфортна для жизни. Она компактна, в ней нет многоэтажной застройки, нет пробок, удобная сеть общественного транспорта. Но это мое личное мнение, и я не могу утверждать, что оно верно на все 100 процентов, поэтому было интересно посмотреть на город с точки зрения цифр. К слову сказать, Прага занимает лидирующие позиции по доступности городских данных. На портале
You must be registered for see links
собрано огромное количество различных наборов данных: демография, экономика, транспорт, медицина, экология и т.п. Данные доступны абсолютно свободно, постоянно обновляются и дополняются.География и демография
Данные о количественном и качественном составе населения Праги я буду брать из набора данных
You must be registered for see links
. Они были собраны в период последней национальной переписи населения и содержат информация о поле, возрасте и количестве жителей по каждому населенному пункту Чешской Республики. Для крупных населенных пунктов — таких, как Прага и Брно — данные также приведены по каждому отдельно взятому административному району города. Для моего исследования как раз интересны именно эти данные, по каждому из 22 отдельно взятому району Праги.url_population = '
You must be registered for see links
'df_population = pd.read_csv(url_population,encoding = "ISO 8859-2")
df_population = df_population[(df_population.uzcis == 44)& (df_population.nazev.str.find('Praha') != -1)][['nazev','u01','u04', 'u05', 'u06']]
df_population.rename(columns={'nazev':'Name','u01':'Total', 'u04':'Kids', 'u05':'Middle', 'u06':'Senior'}, inplace = True)
df_population['Name'] = df_population['Name'].map(lambda x: x.lower())
typuz_naz | nazev | uzcis | uzkod | u01 |
---|---|---|---|---|
kraj | Hlavní město Praha | 100 | 3018 | 1268796 |
Для визуализации данных я взял географические границы административных районов. Они доступны на портале IPR Praha.
Для удобства дальнейшего анализа я убрал лишние столбцы и свел данные с этих двух источников в единую таблицу, которую можно посмотреть на моем
You must be registered for see links
Name | Geometry | Area | Total | Kids |
---|