Датасеты: как спрятать от ChatGPT контент своего сайта?

Оказывается, нельзя просто так «скомандовать» ChatGPT (равно как и другим LLM) не использовать для обучения контент со своего сайта. Кое-какие способы, конечно, есть, но они далеко не стопроцентные.

Так называемые большие языковые модели (или LLM), как известно, обучаются на массивах данных из нескольких источников (датасетов). Для начального обучения LLM энтузиасты задействуют открытые источники, к примеру:

Wikipedia
онлайн-архивы (государственные, судебные и пр)
книги
переписки в электронной почте
открытый контент сайтов.

Существуют также специализированные порталы с каталогами датасетов самого разнообразного содержания и направленности — для профи.

Такой есть у Amazon (Registry of Open Data на AWS), еще есть Google Dataset, Hugging Face и др (список из 28 таких порталов можно глянуть в Википедии — [ССЫЛКА]).

Кроме того, есть и еще более специализированные датасеты, в частности:

WebText и OpenWebText

WebText — это закрытый датасет компании OpenAI, созданный путем сканирования ссылок на Reddit-е, которые одобрили минимум три раза. Т.е. идея в том, что контент на страницах по этим ссылкам не только качественный, но и заслуживает доверия.

OpenWebText — открытый датасет, созданный с применением аналогичных шаблонов сканирования и, вероятно, с той же базой ссылок.

Так что, если кто-то оставил на Reddit-е ссылку на ваш сайт или сайты и читатели «лайкнули» ее трижды, то, очень вероятно, сайт тоже попал в базу WebText и/или OpenWebText.

Common Crawl

А это целая некоммерческая организация, которая целенаправленно занимается созданием открытых датасетов. Специальный бот Common Crawl собирает данные по всей Сети, затем они очищаются от спама и прочего мусора, и далее с ними работают разные компании и организации, обучающие свои LLM.

Так вот, бот этот называется CCBot. Он подчиняется протоколу robots.txt, а значит, его можно просто не пускать на сайт (в теории).

Не пропустите: ИИ-БОТ CHATGPT В WHATSAPP: КАК ЭТО ДЕЛАЕТСЯ

Впрочем, надо понимать, что если CCBot сайт уже просканировал (а скорее всего, так оно и есть), то ваш контент уже содержится минимум в нескольких датасетах. Тем не менее, чтобы новый контент сайта утекал реже и в меньших объемах, можно попробовать заблокировать CCBot.

Т.н. идентификационная строка клиентского приложения (User-Agent) у него имеет следующий вид: CCBot/2.0. Следовательно:

в файле robots.txt прописываем:

User-agent: CCBot
Disallow: /

а так как CCBot подчиняется еще и директивам метатег nofollow, то добавляем в файл также:

<meta name="robots" content="nofollow">

Вот как-то так. Но, повторимся, боту Common Crawl (также как и ботам поисковиков) можно запретить сканировать новый контент сайта и/или совсем новый сайт. Старый контент он уже забрал, и удалить его из существующих датасетов не получится.

Не пропустите: OPENAI S SERVICES ARE NOT AVAILABLE — КАК ОБОЙТИ И ЗАРЕГИСТРИРОВАТЬСЯ В CHATGPT

Более того, спрятать сайт от других ботов тоже нельзя. Общественность, конечно, активно обсуждает тему, насколько это «этично» брать контент с чужих сайтов без разрешения (и даже без уведомления) его владельцев. Но хозяевам LLM сие обсуждение пока «по барабану».

Есть даже мнение, что разработчков ChatGPT и других ИИ-сервисов максимум, может быть, когда-то обяжут предоставлять хоть какую-то инфу о том, контент каких сайтов и где именно они используют. На большее рассчитывать «издателям» уже не приходится.

Датасеты: как спрятать от ChatGPT и других ИИ контент своего сайта?

WebText и OpenWebText

Common Crawl