Je váš e-shop crawlovatelný pro LLM? Jak to otestovat a opravit
Jiří Štěpánek
Pokud AI crawlery nemají přístup k vašim produktovým stránkám, vaše produkty se neobjeví v AI generovaných nákupních odpovědích. Tento průvodce pokrývá robots.txt pro AI boty, problémy s JavaScript renderingem, hygienu sitemap, kanonizaci a přístupnost obsahu.

LLM crawlovatelnost pro e-commerce: nový technický základ
LLM crawlovatelnost určuje, zda AI nákupní asistenti dokáží najít a pochopit vaše produktové stránky. Pokud GPTBot nemůže crawlovat váš web, vaše produkty se neobjeví v ChatGPT nákupních odpovědích. Pokud se specifikace produktů renderují jen JavaScriptem, většina AI crawlerů vidí prázdnou stránku.
Není to teoretický problém. Podíl GPTBot na webovém crawlování vzrostl za poslední rok z 5 % na 30 %. AI nákupní funkce v Google AI Mode, ChatGPT, Perplexity a dalších platformách čerpají z crawlovaného obsahu pro doporučování produktů.
Tradiční SEO crawlovatelnost (přístup Googlebotu, pokrytí sitemapy, canonical tagy) stále platí. Ale LLM crawlovatelnost přidává nové požadavky, které mnoho e-shopů neřeší. Tento průvodce pokrývá pět oblastí ke kontrole a opravě.
O tom, jak kvalita dat ovlivňuje, co AI enginy s vaším obsahem dělají, v průvodci enrichmentem produktových dat.
Robots.txt: koho povolit a koho blokovat
Soubor robots.txt je první brána. Pokud je AI crawler blokován, nic dalšího nehraje roli — váš obsah je pro ten engine neviditelný.
Hlavní AI crawlery
| Bot | Provozovatel | Účel | Doporučení |
|---|---|---|---|
GPTBot | OpenAI | ChatGPT trénink + nákupní funkce | Povolit |
OAI-SearchBot | OpenAI | Real-time vyhledávání v ChatGPT | Povolit |
ClaudeBot | Anthropic | Claude trénink + retrieval | Povolit |
Googlebot | Search + AI Mode + AI Overviews | Povolit | |
PerplexityBot | Perplexity | AI vyhledávání + nákupy | Povolit |
AmazonBot | Amazon | Alexa + Amazon vyhledávání | Povolit pro e-commerce |
Doporučený přístup k robots.txt
Místo blokování AI crawlerů ve výchozím stavu explicitně povolte ty, kteří řídí nákupní viditelnost:
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
Častá chyba: mnoho e-shopů přidalo plošné bloky AI crawlerů v roce 2024. Pokud váš robots.txt stále blokuje GPTBot nebo ClaudeBot, jste pro jejich nákupní funkce neviditelní. Zkontrolujte a aktualizujte.
JavaScript rendering: tichý zabiják
Většina AI crawlerů — včetně GPTBot, ClaudeBot a PerplexityBot — JavaScript nespouští. Vidí pouze to, co je v iniciální HTML odpovědi.
Co to znamená pro e-shopy
Pokud vaše produktové stránky načítají JavaScriptem:
- Titulky a popisy produktů
- Tabulky specifikací a seznamy atributů
- Ceny a dostupnost
- Recenze a hodnocení
- Galerie obrázků
...pak AI crawlery nic z toho nevidí.
Jak testovat
Nejjednodušší test: použijte curl pro načtení stránky a prohlédněte si surové HTML. Pokud titulek produktu, cena nebo specifikace nejsou v surovém HTML, AI crawlery je nevidí.
Můžete také v prohlížeči vypnout JavaScript a znovu načíst produktovou stránku. Pokud kritický obsah zmizí, máte problém s renderingem.
Jak opravit
- Server-side rendering (SSR) — renderujte produktový obsah na serveru, aby iniciální HTML obsahoval všechna kritická data
- Static site generation (SSG) — předrenderujte produktové stránky v build time
- Hybridní rendering — server-renderujte kritický obsah (titulek, cena, specifikace, schema markup) a client-renderujte nepodstatné elementy
Pokud plná architekturální změna není krátkodobě možná, zajistěte, aby alespoň váš Product schema markup (JSON-LD) byl v iniciálním HTML.
Hygiena sitemap a struktura obsahu
Čistá sitemap pomáhá AI crawlerům (i Googlebotu) efektivně nacházet produktové stránky.
Best practices pro LLM crawlovatelnost
- Zahrňte všechny aktivní produktové stránky — každý produkt skladem s kanonickou URL by měl být v sitemap
- Vylučte non-kanonické URL — filtrované pohledy, stránky výsledků hledání a paginované listingy do sitemap nepatří
- Používejte
lastmoddata — AI crawlery prioritizují nedávno aktualizovaný obsah - Segmentujte podle typu — oddělené sitemapy pro produkty, kategorie a blog obsah
- Dodržujte limit 50 000 URL na soubor — pro větší katalogy používejte sitemap index soubory
Vznikající standard llms.txt
Nový standard llms.txt získává na trakci. Umístěný v root domény (jako robots.txt) poskytuje AI systémům strukturovaný přehled webu — o čem web je, jaký obsah prioritizovat a jak v něm navigovat. Pro e-shopy je to zajímavá možnost, jak nasměrovat AI na nejdůležitější kategorie.
Kanonizace a duplicitní obsah
AI crawlery se, stejně jako Googlebot, mohou ztratit v duplicitním obsahu. E-shopy jsou obzvlášť náchylné kvůli URL parametrům, variantním URL, HTTP/HTTPS nekonzistencím a paginaci.
Jak opravit
- Canonical tagy — každá produktová stránka musí mít self-referencing
<link rel="canonical"> - Handling parametrů — použijte
robots.txtDisallow nebo canonical tagy pro prevenci indexování filtrovaných/řazených variací - Redirect chainy — vyčistěte, aby crawlery dosáhly kanonické URL jedním hopem
- Hreflang pro vícejazyčné weby — implementujte hreflang tagy, aby AI crawlery pochopily, která verze slouží kterému trhu
Širší optimalizaci produktových stránek prospívající lidem i AI rozebíráme v průvodci optimalizací PDP.
Přístupnost obsahu: strojová čitelnost stránek
Kromě renderingu a přístupu pro crawl ovlivňuje struktura obsahu, jak dobře AI systémy dokáží extrahovat a použít vaše data.
Sémantické HTML
<h1>pro titulek produktu,<h2>pro nadpisy sekcí- Tabulky specifikací v
<table>s<th>a<td> <ul>nebo<ol>pro seznamy vlastností- Smysluplný
alttext na všech produktových obrázcích
Vyhněte se obsahu v obrázcích
Kritické produktové informace — specifikace, ingredience, tabulky velikostí — by měly být v HTML textu, ne vložené do obrázků. AI crawlery nečtou text z obrázků.
Strukturovaná data
I když je vizuální obsah přístupný, JSON-LD strukturovaná data poskytují paralelní, strojově optimalizovanou vrstvu. Nástroje jako Lasso zajistí, že vaše produktová data jsou dostatečně kompletní pro generování smysluplného schema markupu.
Checklist LLM crawlovatelnosti
Projděte tento checklist pro vaše top produktové stránky:
-
robots.txtpovoluje GPTBot, ClaudeBot, PerplexityBot a Googlebot - Produktové stránky vrací kompletní obsah v iniciálním HTML
- Product schema markup (JSON-LD) je přítomný v HTML zdroji
- XML sitemap zahrnuje všechny aktivní kanonické produktové URL s přesným
lastmod - Canonical tagy jsou přítomné a self-referencing na produktových stránkách
- Žádné redirect chainy nebo smyčky na produktových URL
- Kritické specifikace jsou v HTML textu, ne v obrázcích
-
alttext obrázků je popisný a obsahuje atributy produktu
Prioritizujte opravu JavaScript renderingu a robots.txt přístupu — to jsou nejčastější blokátory.
Pro týmy s velkými katalogy, kde je kompletnost dat úzkým hrdlem, prozkoumejte enrichment možnosti Lassa nebo nás kontaktujte.