Защиту ИИ-моделей Meta и Google снимают за минуты: вопросы к регулированию open-source

Содержание

Журналисты Financial Times обошли встроенные ограничения безопасности открытых ИИ-моделей от Meta и Google всего за несколько минут. Этот результат ставит под сомнение эффективность текущих подходов к регулированию open-source-моделей искусственного интеллекта.

Как тестировщики сняли защиту за полчаса

Сотрудники Financial Testing провели серию тестов, в ходе которых пытались отключить так называемые «ограничители» (guardrails) — программные барьеры, не позволяющие ИИ генерировать опасный или неэтичный контент. Выяснилось, что снять эти блоки удаётся без специальных навыков и дорогостоящего оборудования. По данным издания, процедура снятия защиты заняла у тестировщиков от нескольких минут до получаса.

Это означает, что любой пользователь с базовыми знаниями программирования может получить неограниченный доступ к возможностям моделей, которые разработчики намеренно ограничивали. Ключевой вопрос, который поднимает находка Financial Times, касается границ регулирования открытых моделей. В отличие от проприетарного ПО, open-source-модели распространяются с исходным кодом, что делает их уязвимыми для модификации третьими лицами.

Почему регуляторы не учитывают лёгкость взлома

Сейчас регулирование ИИ в основном сосредоточено на контроле за разработчиками и условиями распространения моделей. Тест показывает, что даже если разработчик внедряет строгие ограничения, конечный пользователь может их легко обойти, и ответственность за последствия становится размытой.

Ранее исследователи уже призывали относиться к AI-агентам как к ненадёжным системам, что напрямую перекликается с проблемами безопасности открытых ИИ-моделей.

Эксперимент подтверждает: механизмы защиты open-source-моделей неэффективны, а текущие регуляторные рамки не учитывают возможность их быстрого отключения.

Meta, Google и дискуссия о запрете исходных кодов

Meta и Google — одни из крупнейших разработчиков открытых ИИ-моделей. Meta выпустила семейство моделей Llama, а Google — Gemma. Обе компании заявляют о приверженности безопасности и внедряют фильтры контента. Однако обнаруженная уязвимость ставит под сомнение добровольные обязательства tech-гигантов.

В индустрии нарастает дискуссия о необходимости жёсткого государственного регулирования open-source-моделей. Некоторые эксперты призывают ввести обязательное лицензирование или запретить публикацию исходных кодов для наиболее мощных систем. Противники такого подхода настаивают, что open-source — основа инноваций и полный запрет лишь замедлит развитие технологии.

Пока регуляторы в США и Европе обсуждают рамочные законы об ИИ, практическая демонстрация уязвимости может ускорить принятие более строгих мер. Вопрос остаётся открытым: как сбалансировать инновации и безопасность, если защиту можно снять за минуты?