Průvodci6 min čtení

Je váš e-shop crawlovatelný pro LLM? Jak to otestovat a opravit

Jiří Štěpánek

Jiří Štěpánek

Pokud AI crawlery nemají přístup k vašim produktovým stránkám, vaše produkty se neobjeví v AI generovaných nákupních odpovědích. Tento průvodce pokrývá robots.txt pro AI boty, problémy s JavaScript renderingem, hygienu sitemap, kanonizaci a přístupnost obsahu.

Abstraktní mist gradient v tmavě modré a světle stříbrné symbolizující AI crawlery přistupující k e-commerce obsahu

LLM crawlovatelnost pro e-commerce: nový technický základ

LLM crawlovatelnost určuje, zda AI nákupní asistenti dokáží najít a pochopit vaše produktové stránky. Pokud GPTBot nemůže crawlovat váš web, vaše produkty se neobjeví v ChatGPT nákupních odpovědích. Pokud se specifikace produktů renderují jen JavaScriptem, většina AI crawlerů vidí prázdnou stránku.

Není to teoretický problém. Podíl GPTBot na webovém crawlování vzrostl za poslední rok z 5 % na 30 %. AI nákupní funkce v Google AI Mode, ChatGPT, Perplexity a dalších platformách čerpají z crawlovaného obsahu pro doporučování produktů.

Tradiční SEO crawlovatelnost (přístup Googlebotu, pokrytí sitemapy, canonical tagy) stále platí. Ale LLM crawlovatelnost přidává nové požadavky, které mnoho e-shopů neřeší. Tento průvodce pokrývá pět oblastí ke kontrole a opravě.

O tom, jak kvalita dat ovlivňuje, co AI enginy s vaším obsahem dělají, v průvodci enrichmentem produktových dat.

Robots.txt: koho povolit a koho blokovat

Soubor robots.txt je první brána. Pokud je AI crawler blokován, nic dalšího nehraje roli — váš obsah je pro ten engine neviditelný.

Hlavní AI crawlery

BotProvozovatelÚčelDoporučení
GPTBotOpenAIChatGPT trénink + nákupní funkcePovolit
OAI-SearchBotOpenAIReal-time vyhledávání v ChatGPTPovolit
ClaudeBotAnthropicClaude trénink + retrievalPovolit
GooglebotGoogleSearch + AI Mode + AI OverviewsPovolit
PerplexityBotPerplexityAI vyhledávání + nákupyPovolit
AmazonBotAmazonAlexa + Amazon vyhledáváníPovolit pro e-commerce

Doporučený přístup k robots.txt

Místo blokování AI crawlerů ve výchozím stavu explicitně povolte ty, kteří řídí nákupní viditelnost:

User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: PerplexityBot
Allow: /

Častá chyba: mnoho e-shopů přidalo plošné bloky AI crawlerů v roce 2024. Pokud váš robots.txt stále blokuje GPTBot nebo ClaudeBot, jste pro jejich nákupní funkce neviditelní. Zkontrolujte a aktualizujte.

JavaScript rendering: tichý zabiják

Většina AI crawlerů — včetně GPTBot, ClaudeBot a PerplexityBot — JavaScript nespouští. Vidí pouze to, co je v iniciální HTML odpovědi.

Co to znamená pro e-shopy

Pokud vaše produktové stránky načítají JavaScriptem:

  • Titulky a popisy produktů
  • Tabulky specifikací a seznamy atributů
  • Ceny a dostupnost
  • Recenze a hodnocení
  • Galerie obrázků

...pak AI crawlery nic z toho nevidí.

Jak testovat

Nejjednodušší test: použijte curl pro načtení stránky a prohlédněte si surové HTML. Pokud titulek produktu, cena nebo specifikace nejsou v surovém HTML, AI crawlery je nevidí.

Můžete také v prohlížeči vypnout JavaScript a znovu načíst produktovou stránku. Pokud kritický obsah zmizí, máte problém s renderingem.

Jak opravit

  • Server-side rendering (SSR) — renderujte produktový obsah na serveru, aby iniciální HTML obsahoval všechna kritická data
  • Static site generation (SSG) — předrenderujte produktové stránky v build time
  • Hybridní rendering — server-renderujte kritický obsah (titulek, cena, specifikace, schema markup) a client-renderujte nepodstatné elementy

Pokud plná architekturální změna není krátkodobě možná, zajistěte, aby alespoň váš Product schema markup (JSON-LD) byl v iniciálním HTML.

Hygiena sitemap a struktura obsahu

Čistá sitemap pomáhá AI crawlerům (i Googlebotu) efektivně nacházet produktové stránky.

Best practices pro LLM crawlovatelnost

  • Zahrňte všechny aktivní produktové stránky — každý produkt skladem s kanonickou URL by měl být v sitemap
  • Vylučte non-kanonické URL — filtrované pohledy, stránky výsledků hledání a paginované listingy do sitemap nepatří
  • Používejte lastmod data — AI crawlery prioritizují nedávno aktualizovaný obsah
  • Segmentujte podle typu — oddělené sitemapy pro produkty, kategorie a blog obsah
  • Dodržujte limit 50 000 URL na soubor — pro větší katalogy používejte sitemap index soubory

Vznikající standard llms.txt

Nový standard llms.txt získává na trakci. Umístěný v root domény (jako robots.txt) poskytuje AI systémům strukturovaný přehled webu — o čem web je, jaký obsah prioritizovat a jak v něm navigovat. Pro e-shopy je to zajímavá možnost, jak nasměrovat AI na nejdůležitější kategorie.

Kanonizace a duplicitní obsah

AI crawlery se, stejně jako Googlebot, mohou ztratit v duplicitním obsahu. E-shopy jsou obzvlášť náchylné kvůli URL parametrům, variantním URL, HTTP/HTTPS nekonzistencím a paginaci.

Jak opravit

  • Canonical tagy — každá produktová stránka musí mít self-referencing <link rel="canonical">
  • Handling parametrů — použijte robots.txt Disallow nebo canonical tagy pro prevenci indexování filtrovaných/řazených variací
  • Redirect chainy — vyčistěte, aby crawlery dosáhly kanonické URL jedním hopem
  • Hreflang pro vícejazyčné weby — implementujte hreflang tagy, aby AI crawlery pochopily, která verze slouží kterému trhu

Širší optimalizaci produktových stránek prospívající lidem i AI rozebíráme v průvodci optimalizací PDP.

Přístupnost obsahu: strojová čitelnost stránek

Kromě renderingu a přístupu pro crawl ovlivňuje struktura obsahu, jak dobře AI systémy dokáží extrahovat a použít vaše data.

Sémantické HTML

  • <h1> pro titulek produktu, <h2> pro nadpisy sekcí
  • Tabulky specifikací v <table> s <th> a <td>
  • <ul> nebo <ol> pro seznamy vlastností
  • Smysluplný alt text na všech produktových obrázcích

Vyhněte se obsahu v obrázcích

Kritické produktové informace — specifikace, ingredience, tabulky velikostí — by měly být v HTML textu, ne vložené do obrázků. AI crawlery nečtou text z obrázků.

Strukturovaná data

I když je vizuální obsah přístupný, JSON-LD strukturovaná data poskytují paralelní, strojově optimalizovanou vrstvu. Nástroje jako Lasso zajistí, že vaše produktová data jsou dostatečně kompletní pro generování smysluplného schema markupu.

Checklist LLM crawlovatelnosti

Projděte tento checklist pro vaše top produktové stránky:

  • robots.txt povoluje GPTBot, ClaudeBot, PerplexityBot a Googlebot
  • Produktové stránky vrací kompletní obsah v iniciálním HTML
  • Product schema markup (JSON-LD) je přítomný v HTML zdroji
  • XML sitemap zahrnuje všechny aktivní kanonické produktové URL s přesným lastmod
  • Canonical tagy jsou přítomné a self-referencing na produktových stránkách
  • Žádné redirect chainy nebo smyčky na produktových URL
  • Kritické specifikace jsou v HTML textu, ne v obrázcích
  • alt text obrázků je popisný a obsahuje atributy produktu

Prioritizujte opravu JavaScript renderingu a robots.txt přístupu — to jsou nejčastější blokátory.

Pro týmy s velkými katalogy, kde je kompletnost dat úzkým hrdlem, prozkoumejte enrichment možnosti Lassa nebo nás kontaktujte.

Často kladené otázky

Připraveni vyzkoušet Lasso?