← Назад
Наука

Нейросеть для анализа русскоязычных научных статей и патентов: разработка НИУ ВШЭ

Учёные Института статистических исследований и экономики знаний НИУ ВШЭ дообучили существующие большие языковые модели для работы с русскоязычными научными текстами. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, что позволяет запускать её на более доступном оборудовании.

Источник: naked-science.ru
Иллюстрация нейросети, анализирующей научные статьи на русском языке

Объём научно-технической информации — патентов, статей, отчётов — растёт с каждым днём. Эффективно работать с этим массивом помогает искусственный интеллект. Однако большинство популярных языковых моделей, таких как ChatGPT, обучаются преимущественно на английских данных, что создаёт риск монокультуры данных в области ИИ. Российские исследователи решили эту проблему, адаптировав модель для работы с русским языком.

Как обучали модель

Учёные НИУ ВШЭ использовали корпус данных iFORA-QA, который вручную собрали более 150 экспертов из аналитических материалов и отчётов в сфере науки, технологий и инноваций. Программа прошла государственную регистрацию. После адаптации точность модели при ответах на узкопрофессиональные вопросы выросла, скорость генерации увеличилась в 2,7 раза, а использование памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.

«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы», — комментирует главный аналитик проекта Анастасия Малашина.

Планы на будущее

Уже в этом году исследователи разработают дополнительные инструменты на базе адаптированной модели. Первым станет умный поисковик, который снизит риски галлюцинирования модели и будет формировать выводы только со ссылками на научные источники. Второй инструмент — граф связей, позволяющий выявлять закономерности, в том числе скрытые, на основе структуры источников. Кроме того, модель получит способность работать с неполной и неоднозначной информацией, а также рассуждать: сначала анализировать, чего ей не хватает, задавать уточняющие вопросы пользователю и только потом формулировать ответ.

Все эти возможности объединятся в единую мультиагентную систему, которая сможет автономно анализировать научно-техническую информацию и выявлять скрытые связи. «Мы создаем целостную систему интеллектуальных агентов, адаптированную под реалии российской науки. Это шаг к автоматизации научной аналитики, где ИИ становится партнером исследователя», — подчёркивает Анастасия Малашина.

Комментарии

0 всего
Пока комментариев нет. Будь первым.

Похожие статьи

Квантовая запутанность впервые обнаружена в сантиметровом кристалле странного металла
Наука 18.06.2026 14:00

Квантовая запутанность впервые обнаружена в сантиметровом кристалле странного металла

Физики впервые продемонстрировали квантовую запутанность в макроскопическом объекте — сантиметровом кристалле странного металла CePd₃Si₂, используя метод квантовой информации Фишера.

3 просмотров 4 мин
Астроном оценил шансы найти инопланетные технологии в Солнечной системе
Наука 18.06.2026 13:30

Астроном оценил шансы найти инопланетные технологии в Солнечной системе

Следы внеземных цивилизаций могут скрываться рядом с нами, но человечество пока не способно их уверенно обнаружить. Исследователь Джозеф Лацио проанализировал современные возможности поиска техносигнатур в Солнечной системе.

4 просмотров 4 мин
Буддийские монахи из Юго-Восточной Азии приедут в Россию для совместных ретритов
Наука 18.06.2026 12:30

Буддийские монахи из Юго-Восточной Азии приедут в Россию для совместных ретритов

В июле в Россию прибудут монахи из Таиланда, Мьянмы, Камбоджи и других стран для совместных ретритов. Об этом объявил глава Центрального духовного управления буддистов Сергей Киришов на форуме Россия – АСЕАН в Казани.

3 просмотров 4 мин

Ещё из раздела «Наука»

При прокрутке вниз будут подгружаться полноценные предыдущие статьи этой же рубрики — одна за другой.

Прокрути ниже, чтобы открыть следующую предыдущую статью.