Рождаемость в России научились предсказывать по поисковым запросам: новый метод от экономистов ВШЭ
Сотрудники факультета экономических наук НИУ ВШЭ предложили новый способ прогнозирования рождаемости в России, основанный на анализе поисковых запросов. Исследование показало, что учёт цифрового поведения будущих родителей может значительно повысить точность краткосрочных и долгосрочных демографических прогнозов.
Прогнозирование рождаемости — важнейшая задача для государства. Оно позволяет заранее рассчитать необходимое количество детских садов и школ, спланировать развитие инфраструктуры и оценить будущие нагрузки на рынок труда. Точность таких прогнозов напрямую влияет на эффективность социальных программ и бюджетных расходов.
Как поисковые запросы помогают предсказать рождаемость?
Группа исследователей НИУ ВШЭ под руководством Лилии Родионовой и Елены Копновой, совместно с аспирантами Никитой Родионовым и Светланой Камелендиновой, использовала данные поисковой системы Google Trends для улучшения стандартных демографических моделей. Учёные проанализировали ежемесячные данные Росстата о числе родившихся в России за период с 2011 по 2024 год и сопоставили их с динамикой поисковых запросов по темам, связанным с беременностью и родами.
Всего было отобрано 56 слов, которые с помощью машинного обучения разделили на четыре смысловых блока: планирование беременности, течение беременности, подготовка к родам и универсальные запросы. Для прогнозирования применялась модель SARIMA, которая учитывает сезонные колебания рождаемости.
Результаты опубликованы в журнале Populations and Economics. Оказалось, что стандартная модель даёт среднюю ошибку прогноза на год вперёд 4,62% (около 4,6 тысячи ошибочных прогнозов на каждые 100 тысяч рождений). Добавление поисковых данных снизило ошибку до 3,2% — то есть точность выросла почти в полтора раза.
Какой блок запросов оказался самым точным?
Наиболее эффективным оказался блок «Подготовка к родам». Сюда входят запросы вроде «роддом» или «сумка в роддом». Как объясняет Лилия Родионова, такие поисковые запросы чаще всего делают женщины, которые уже знают о своей беременности и активно готовятся к предстоящим родам, поэтому они служат надёжным краткосрочным предиктором.
Особенно сильный эффект дал учёт временных задержек (лагов) в поисковой активности. Авторы выяснили, что запросы о планировании беременности отражаются на прогнозе через 7,4 месяца, а запросы о подготовке к родам — уже через шесть месяцев. Чем ближе срок родов, тем быстрее срабатывает сигнал от таких запросов.
При увеличении прогнозного горизонта до двух и трёх лет модель с использованием всех блоков запросов показала ещё более высокую точность: ошибка снизилась до 2,7% и 2,6% соответственно. Важно, что модель тестировалась на данных вплоть до декабря 2024 года, включая периоды пандемии COVID-19 и геополитической нестабильности, что подтверждает её устойчивость в кризисных условиях.
Разработанный подход открывает новые возможности для точного прогнозирования демографических процессов и может быть использован для более эффективного планирования государственной политики в области поддержки семьи и рождаемости.
Комментарии
0 всего