Реновация по-умному. Как найти аварийные дома

Мэрия Нью-Йорка регулярно отслеживает состояние зданий, в том числе через службу 311 (горячую линию, принимающую все городские жалобы на 80 языках). Однако Агентство жилищного строительства (HPD) решило пойти дальше: найти такие аварийные дома, на которые пока никто не обращает внимания. Инициативу назвали «Проактивной программой сохранения».

Агентство обратилось к сотрудникам Городского отдела аналитики (MODA), чтобы те собрали нужные данные и построили модель, выявляющую аварийные здания.

Сбор данных

Сотрудники MODA выбрали 27 факторов опасного состояния дома, вот некоторые из них:

  • Размер и возраст зданий (данные предоставил Департамент финансов)
  • Случаи с невыплатой ипотеки (данные от портала PropertyShark.com)
  • Случаи с неуплатой налогов на недвижимость (данные от Департамента финансов)
  • Судебные дела, инициированные Агентством жилищного строительства
  • Нарушения, выявленные Советом по охране окружающей среды
  • Случаи привлечения программы аварийного ремонта
  • Отказы от заданий, выданных Департаментом зданий Нью-Йорка
  • Жалобы на качество жилья, поступившие через службу 311
  • Пожары

Модель

Для построения модели была использована в основном линейная регрессия (один из самых простых методов машинного обучения).

Образцы зданий были случайным образом разбиты на два набора:

  • набор учебных образцов (75%) – около 500 тысяч зданий
  • набор для тестирования вне модели (25%) – около 170 тысяч

Затем аналитики исключали по очереди каждый фактор и смотрели, как ведет себя модель. Если фактор оставался значимым во всех итерациях обучения, то он шел в окончательную выборку.

Итоговая модель вывела список самых «опасных» зданий. Из них были выбраны те, с которыми еще не работала HPD. Эти здания передали для дальнейшей работы организаторам «Проактивной программы сохранения».

Срок работы аналитиков: 2 месяца

Использованные программы: DataBridge, SAS