Мэрия Нью-Йорка регулярно отслеживает состояние зданий, в том числе через службу 311 (горячую линию, принимающую все городские жалобы на 80 языках). Однако Агентство жилищного строительства (HPD) решило пойти дальше: найти такие аварийные дома, на которые пока никто не обращает внимания. Инициативу назвали «Проактивной программой сохранения».
Агентство обратилось к сотрудникам Городского отдела аналитики (MODA), чтобы те собрали нужные данные и построили модель, выявляющую аварийные здания.
Сбор данных
Сотрудники MODA выбрали 27 факторов опасного состояния дома, вот некоторые из них:
- Размер и возраст зданий (данные предоставил Департамент финансов)
- Случаи с невыплатой ипотеки (данные от портала PropertyShark.com)
- Случаи с неуплатой налогов на недвижимость (данные от Департамента финансов)
- Судебные дела, инициированные Агентством жилищного строительства
- Нарушения, выявленные Советом по охране окружающей среды
- Случаи привлечения программы аварийного ремонта
- Отказы от заданий, выданных Департаментом зданий Нью-Йорка
- Жалобы на качество жилья, поступившие через службу 311
- Пожары
Модель
Для построения модели была использована в основном линейная регрессия (один из самых простых методов машинного обучения).
Образцы зданий были случайным образом разбиты на два набора:
- набор учебных образцов (75%) – около 500 тысяч зданий
- набор для тестирования вне модели (25%) – около 170 тысяч
Затем аналитики исключали по очереди каждый фактор и смотрели, как ведет себя модель. Если фактор оставался значимым во всех итерациях обучения, то он шел в окончательную выборку.
Итоговая модель вывела список самых «опасных» зданий. Из них были выбраны те, с которыми еще не работала HPD. Эти здания передали для дальнейшей работы организаторам «Проактивной программы сохранения».
Срок работы аналитиков: 2 месяца
Использованные программы: DataBridge, SAS