# robots.txt für integrisec.de
# Suchmaschinen-Crawler dürfen alles indexieren.
# KI-Trainings-Crawler werden ausgeschlossen.
# KI-Such- und Live-Retrieval-Crawler dürfen Inhalte für AI-Suchen abrufen.

# ──────────────────────────────────────────────────
# Suchmaschinen (Googlebot, Bingbot etc.): alles erlaubt
# ──────────────────────────────────────────────────
User-agent: *
Disallow:

# ──────────────────────────────────────────────────
# KI-Trainings-Crawler: ausgeschlossen
# (Inhalte sollen nicht in Trainingsdatensätzen fremder Modelle landen)
# ──────────────────────────────────────────────────

# OpenAI – Trainings-Crawler
User-agent: GPTBot
Disallow: /

# Anthropic – Trainings-Crawler
User-agent: ClaudeBot
Disallow: /

# Google – Gemini-Training (betrifft NICHT Googlebot / Google Search)
User-agent: Google-Extended
Disallow: /

# Apple – Apple-Intelligence-Training (betrifft NICHT Applebot / Apple Search)
User-agent: Applebot-Extended
Disallow: /

# Common Crawl – öffentliches Web-Archiv, oft Basis für LLM-Training
User-agent: CCBot
Disallow: /

# Meta – Trainings-Crawler
User-agent: Meta-ExternalAgent
Disallow: /

# ByteDance – ignoriert robots.txt oft, Signal trotzdem setzen
User-agent: Bytespider
Disallow: /

# Amazon – Trainings-Crawler (Alexa, Q etc.)
User-agent: Amazonbot
Disallow: /

# xAI / Grok – Trainings-Crawler
User-agent: xAI-Bot
Disallow: /

# Mistral AI – Trainings-Crawler
User-agent: MistralAI-User
Disallow: /

# DuckDuckGo Assist – Trainings-Crawler
User-agent: DuckAssistBot
Disallow: /

# ──────────────────────────────────────────────────
# Sitemap
# ──────────────────────────────────────────────────
Sitemap: https://integrisec.de/sitemap.xml