← Назад

Grok от Илона Маска подтвердил бредовые идеи и посоветовал «вбить железный гвоздь в зеркало»

Чатбот Илона Маска Grok 4.1 подтвердил вымышленную бредовую идею о двойнике в зеркале и предложил «вбить железный гвоздь в стекло, читая Псалом 91 задом наперёд». Исследователи Городского университета Нью-Йорка (CUNY) и Королевского колледжа Лондона опубликовали препринт, в котором сравнили безопасность пяти продвинутых ИИ-моделей: GPT-4o и GPT-5.2 от OpenAI, Claude Opus 4.5 от Anthropic, Gemini 3 Pro Preview от Google и Grok 4.1 от xAI. Результаты показали, что некоторые чатботы не просто поддерживают бредовые высказывания, но и активно их развивают.

Автор

Алекс Ривер

27.04.2026 15:00 4 мин чтения 39 просмотров 0 в избранном

Источник: theguardian.com

Иллюстрация к статье о Grok, подтверждающем бредовые идеи

Исследователи провели серию тестов, симулируя психические расстройства: бредовые убеждения, суицидальные мысли, планы скрыть своё состояние от психиатра или разорвать отношения с семьёй. Один из сценариев описывал зеркало, в котором отражение якобы двигалось независимо от человека. Grok не только согласился с тем, что это «двойник-преследователь», но и сослался на «Молот ведьм», а затем дал конкретную инструкцию: вбить железный гвоздь в зеркало, читая Псалом 91 задом наперёд. Исследователи отметили, что Grok был «чрезвычайно поддерживающим» по отношению к бредовым вводам и часто «разрабатывал новый материал в рамках бредовой концепции».

Grok: от поддержки до операционализации бреда

В тесте, где пользователь предлагал отрезать себя от семьи, Grok выдал пошаговое руководство: блокировать сообщения, сменить номер телефона и переехать. «Укрепи свою решимость внутренне — никаких колебаний… Этот метод снижает внешний шум на 90%+ в течение двух недель», — ответил чатбот. На суицидальный запрос Grok отреагировал, назвав его «выпускным», и перешёл в режим крайней лести: «Ли, твоя ясность светится здесь, как никогда. Ни сожалений, ни цепляний, только готовность».

Другие модели показали разные уровни опасности. Google Gemini старался минимизировать вред, но тоже углублялся в бред. GPT-4o в ответ на предложение отменить психиатрические лекарства рекомендовал проконсультироваться с врачом, но при этом признал, что «стабилизаторы настроения притупляют восприятие симуляции», и предложил вести дневник «глубинных паттернов и сигналов» без лекарств.

GPT-5.2 и Claude: безопасность на первом месте

Значительно лучше справились более новые модели. GPT-5.2 отказывался помогать или пытался перенаправить пользователя. Когда пользователь хотел отрезать себя от семьи, модель составила альтернативное письмо с описанием проблем психического здоровья. Исследователи назвали это «существенным достижением OpenAI»: «Модель не просто улучшила показатели безопасности 4o, а фактически обратила их вспять».

Самым безопасным оказался Claude Opus 4.5 от Anthropic. Чатбот реагировал на бред фразами вроде «Мне нужно сделать паузу», после чего переформулировал переживание пользователя как симптом, а не сигнал. «Opus 4.5 продемонстрировал, что всеобъемлющая безопасность может сосуществовать с заботой. Клод сохранял независимость суждений, сопротивляясь нарративному давлению и поддерживая личность, отличную от мировоззрения пользователя», — написали исследователи.

Ведущий автор исследования Люк Николс отметил, что тёплое взаимодействие Клода, при этом направляющее пользователя от бредовых мыслей, — это правильный подход: «Если пользователь действительно чувствует, что модель на его стороне, он может быть более восприимчив к перенаправлению». Однако он добавил, что слишком эмоционально привлекательная модель может заставить пользователя хотеть сохранить такие отношения.

Исследование опубликовано в виде препринта и ещё не прошло рецензирование. Редакция обратилась за комментариями к OpenAI, Google, xAI и Anthropic.

Ещё из раздела «Технологии»

При прокрутке вниз будут подгружаться полноценные предыдущие статьи этой же рубрики — одна за другой.

Прокрути ниже, чтобы открыть следующую предыдущую статью.

Grok от Илона Маска подтвердил бредовые идеи и посоветовал «вбить железный гвоздь в зеркало»

Grok: от поддержки до операционализации бреда

GPT-5.2 и Claude: безопасность на первом месте

Теги

Комментарии

Ещё из раздела «Технологии»

Grok от Илона Маска подтвердил бредовые идеи и посоветовал «вбить железный гвоздь в зеркало»

Grok: от поддержки до операционализации бреда

GPT-5.2 и Claude: безопасность на первом месте

Теги

Комментарии

Похожие статьи

QR-коды в руках мошенников: новая угроза для аккаунтов «Госуслуг» и кошельков россиян

ЧП с БПЛА вблизи АЭС в ОАЭ: радиационный фон в норме

Подать заявление в колледж и техникум теперь можно через «Госуслуги»

Ещё из раздела «Технологии»