Исследователь ИИ заявил, что уже взломал защиту новой модели Anthropic Fable 5

Содержание

Пользователь, называющий себя «Pliny the Liberator», утверждает, что ему удалось обойти защитные механизмы новой языковой модели Anthropic Fable 5. Он заявляет, что «умно находит дыры в заборе, которые пропустила мысленная полиция», и уже делится результатами в сети.

Исследователь ИИ заявил об обходе защиты Fable 5

Под этим псевдонимом действует исследователь в области искусственного интеллекта, который ранее уже находил уязвимости в других моделях. На этот раз объектом его атаки стала Fable 5 — новейшая разработка компании Anthropic, созданная с упором на безопасность и этичное поведение. По словам исследователя, защита модели оказалась не такой прочной, как заявляли разработчики.

Ранее криптосообщество уже выражало опасения по поводу рисков эксплойтов, связанных с моделями ИИ от Anthropic, как сообщалось в статье «ИИ Claude Mythos от Anthropic вызвал опасения криптосообщества из-за риска эксплойтов».

Он использует метод, который сам описывает как «поиск щелей в ограждении» — то есть находит неочевидные комбинации запросов, которые система не распознаёт как запрещённые.

Почему заявление о взломе угрожает репутации Anthropic

Anthropic позиционирует Fable 5 как одну из самых защищённых моделей на рынке. Компания вложила значительные ресурсы в то, чтобы модель отказывалась выполнять вредоносные инструкции. Если заявление «Pliny the Liberator» подтвердится, это станет серьёзным ударом по репутации разработчика.

Напомним, что ранее исследователь, нашедший баг в ZcashZEC$476.91+3.50% через ИИ, уже взялся за аудит MoneroXMR$364.53+0.30%, что подтверждает растущую роль ИИ в поиске уязвимостей, как писалось в статье «Исследователь, нашедший баг в Zcash через ИИ, взялся за аудит Monero».

Пока нет независимого подтверждения взлома, но сам факт такого заявления подрывает доверие к заверениям Anthropic о безопасности Fable 5.

Инцидент также поднимает давний вопрос: можно ли вообще создать «непробиваемую» языковую модель? Каждое новое поколение ИИ получает всё более сложные фильтры, но и методы их обхода становятся изощрённее.

Риски для криптоиндустрии и чувствительных сфер

Anthropic — один из ключевых игроков в гонке генеративных ИИ, наряду с OpenAI и Google. Безопасность моделей — их главное конкурентное преимущество и предмет гордости. Если защиту Fable 5 действительно можно обойти, это может замедлить внедрение таких систем в чувствительных сферах: финансах, юриспруденции, медицине.

Для криптоиндустрии, где ИИ всё чаще используется в торговых ботах, анализе смарт-контрактов и модерации DeFi-платформ, это сигнал: даже самые «этичные» алгоритмы остаются уязвимыми для целенаправленных атак. Инвесторам стоит учитывать этот риск при выборе проектов, полагающихся на ИИ.

Официального ответа от Anthropic пока не последовало. «Pliny the Liberator» обещает опубликовать детали взлома, если компания не устранит уязвимости в ближайшее время.