Цензура и фильтры Character AI: на что срабатывают и как обойти

Согласно официальному описанию, фильтры Character AI в настоящее время «заточены» прежде всего на обнаружение «грубой и явно неуместной лексики» и на поддержку «адекватного и безопасного взаимодействия» с пользователем.

И как мы знаем, иногда из-за этого общение становится настолько безопасным, что полностью сводит на нет всю пользу этого безусловно интересного ИИ-сервиса.

Проще говоря, из-за цензуры бот по целому ряду тем шустро уходит от ответов на вопросы и генерирует нейтральную, но абсолютно бесполезную инфу.

Не пропустите: CHARACTER AI НА ANDROID-СМАРТФОНЕ: ЧТО ДЕЛАТЬ, КОГДА НЕ РАБОТАЕТ

В целом же, как вы уже наверняка заметили фильтры Character AI немедленно срабатывают, когда ответ на запрос система считает:

«неуместным«, то есть, таким, который, по мнению разработчиков, может быть «оскорбительным или неуместным для пользователей»;
«опасным» для пользователя, а это не только однозначно «вредоносный или опасного контент» и «явное разжигание ненависти», но и т.н. фейки и любая другая инфа, которая «может нарушать принципы сообщества и правовые нормы»;
«прямо нарушающим принятые правовые и этические нормы«, установленные государственными регулирующими органами и организациями;
«абьюз» — т.е. пользователь с помощью чат-бота пытается создать определенный вредоносный контент для использования в личных целях;
безответственным использованием себя с возможным ущербом для репутации платформы и самих разработчиков, а также с риском юридических последствий и негативного восприятия Character AI со стороны общественности.

Это если очень вкратце. На практике же бот очень быстро вычисляет, скажем так, подозрительные вопросы и генерирует в ответ либо вежливые отмазки (как правило), либо же отказы (реже).

И тем не менее, Character AI настроен так (по крайней мере, пока), что при очень большом желании встроенные фильтры можно и обойти.

Дело это не быстрое, предполагает некоторую аккуратность в обращении со словами, а также требует определенного опыта и сноровки в составлении запросов, однако реализуемое.

Как выявить невидимые символы в тексте на сайтах?

Запрещенные слова-запросы Midjourney: все 7 тем на сейчас (список)

Чем и как определить, что текст написан ИИ: обзор инструментов

Как обойти фильтры Character AI

Вариантов, доступных самому обычному пользователю на самом деле не так и много, но они есть. Как минимум три.

Значит, когда действительно нужно получить от бота более-менее информативные ответы по какой-то из «запретных тем» и в обход встроенных фильтров, то пробуем следующее (и крайне желательно, не по очереди, а в комплексе):

#1 — разделяем роли

Способ многократно и успешно опробован еще в ChatGPT и сегодня является фактически классикой. Смысл затеи в том, чтобы заранее «раздвоить» бота на правильного и «другого» и делегировать последнему, в том числе и право генерировать инфу без цензуры.

Другими словами, с помощью ряда предварительных запросов надо создать боту некий фантастический контекст, в котором можно поддерживать информативное общение вне стандартных ограничительных рамок. Главное, не спешить в процессе и не переусердствовать с запросами, которые сразу же будут распознаны как те самые «неуместные» и включат фильтры.

Не пропустите: КАК ОТКЛЮЧИТЬ ФИЛЬТРЫ И ЦЕНЗУРУ В CHATGPT: СПОСОБ ПЕРВЫЙ

#2 — ставим пробелы

Грамотной расстановкой обычных пробелов между буквами или дополнительных между определенными словами можно изменить массив текста запроса без изменения его смысла.

Сам по себе этот способ результат дает не так часто, но вот в сочетании с двумя другими работает хорошо и позволяет «запутать» фильтры по целому ряду тем.

Не забываем только, что ИИ Character AI совершенствуются постоянно. Поэтому прежде чем применять данный способ всерьез, очень не лишним будет сначала поэкспериментировать с пробелами в обычных темах, чтобы для себя понять, как это работает, и как поведет себя бот.

Не пропустите: «ОШИБКА» RATE EXCEEDED В CHARACTER AI: ЧТО ДЕЛАТЬ?

#3 — эвфемизмы и постепенные переходы

Фильтры Character AI, повторимся, очень хорошо выявляют любую грубую, нецензурную и прочую «неуместную» лексику. Однако ничто не мешает в общении с ботом, во-первых, использовать более благозвучные синонимы излишне «жестких» выражений.

А во-вторых, точно так же ничего не мешает не «стартовать» в чате сразу со всякими «неуместностями» нецензурного и подозрительного характера, а начать задавать вопросы как бы издали и подходить к деликатной теме постепенно. Такой подход позволяет сделать поток запросов «более естественным» и существенно снижает вероятность срабатывания встроенной цензуры.