Разработчики не знают, зачем ему это надо. Специалисты предполагают, что стратегия, основанная на обмане, оказалась лучшим способом быстро выполнять тренировочные задачи. Например, CICERO от Meta* учили играть в ролевую онлайн-игру – нейросеть вошла в 10% лучших игроков, но при этом почти никогда не играла честно.
И если обман в онлайн-игре – это безобидно, то обман теста, который оценивает безопасность ИИ – это уже серьезно. Поэтому ученые призывают к разработке продвинутой системы контроля безопасности: без нее нельзя развивать нейросети дальше.
“Благодаря систематическому обману тестов безопасности, налагаемых на него людьми-разработчиками и регулирующими органами, обманывающий ИИ может привести нас, людей, к ложному чувству безопасности. Нам, как обществу, нужно как можно больше времени, чтобы подготовиться к более продвинутой лжи будущих продуктов искусственного интеллекта и моделей с открытым исходным кодом.”
ведущий автор исследования Питер С. Парк, постдокторант по безопасности ИИ в Массачусетском технологическом институте
*признана экстремистской организацией и запрещена в России