# robots.txt für integrisec.de # Suchmaschinen-Crawler dürfen alles indexieren. # KI-Trainings-Crawler werden ausgeschlossen. # KI-Such- und Live-Retrieval-Crawler dürfen Inhalte für AI-Suchen abrufen. # ────────────────────────────────────────────────── # Suchmaschinen (Googlebot, Bingbot etc.): alles erlaubt # ────────────────────────────────────────────────── User-agent: * Disallow: # ────────────────────────────────────────────────── # KI-Trainings-Crawler: ausgeschlossen # (Inhalte sollen nicht in Trainingsdatensätzen fremder Modelle landen) # ────────────────────────────────────────────────── # OpenAI – Trainings-Crawler User-agent: GPTBot Disallow: / # Anthropic – Trainings-Crawler User-agent: ClaudeBot Disallow: / # Google – Gemini-Training (betrifft NICHT Googlebot / Google Search) User-agent: Google-Extended Disallow: / # Apple – Apple-Intelligence-Training (betrifft NICHT Applebot / Apple Search) User-agent: Applebot-Extended Disallow: / # Common Crawl – öffentliches Web-Archiv, oft Basis für LLM-Training User-agent: CCBot Disallow: / # Meta – Trainings-Crawler User-agent: Meta-ExternalAgent Disallow: / # ByteDance – ignoriert robots.txt oft, Signal trotzdem setzen User-agent: Bytespider Disallow: / # Amazon – Trainings-Crawler (Alexa, Q etc.) User-agent: Amazonbot Disallow: / # xAI / Grok – Trainings-Crawler User-agent: xAI-Bot Disallow: / # Mistral AI – Trainings-Crawler User-agent: MistralAI-User Disallow: / # DuckDuckGo Assist – Trainings-Crawler User-agent: DuckAssistBot Disallow: / # ────────────────────────────────────────────────── # Sitemap # ────────────────────────────────────────────────── Sitemap: https://integrisec.de/sitemap.xml