Jak opravit nekonzistentní názvy produktů od dodavatelů
Jiří Štěpánek
Když každý dodavatel pojmenovává produkty jinak, trpí vyhledávání, reklamy i kvalita feedu. Tento návod ukazuje, jak sjednotit názvy produktů pomocí šablon, normalizačních pravidel, extrakce brandu/modelu a kontrol podle požadavků jednotlivých kanálů.

Oprava nekonzistentních názvů produktů: proč to není jen kosmetický problém
Nekonzistentní názvy produktů patří mezi nejpodceňovanější problémy datové kvality v e-commerce. Pokud každý dodavatel pojmenovává stejný produkt jinak, důsledky sahají daleko za nepořádek v tabulce. Vyhledávací algoritmy nedokážou konsolidovat signály relevance, když se stejný produkt skrývá pod odlišnými variantami názvu. Facetové filtry selhávají, když se stejný atribut vyskytuje na různých pozicích nebo v různých formátech. Reklamní platformy špatně párují produkty s dotazy. A validátory feedu zamítají listingy, které nesplňují pravidla délky, struktury nebo obsahu.
Představte si jedno SKU od tří dodavatelů:
Samsung Galaxy S25 Ultra 512GB Titanium BlackSAMSUNG SM-S938B Galaxy S25U 512 TI-BKGalaxy S25 Ultra Samsung 512GB Black Titanium Smartphone
Všechny tři popisují tentýž produkt, ale každý řeší umístění brandu, zkratku modelu, pojmenování barvy a zařazení typu produktu jinak. Vynásobte to tisíci SKU a desítkami dodavatelů a máte katalog, který podkopává každý systém: on-site search, placené kanály, kategorie i srovnávače.
Dobrá zpráva je, že nekonzistence názvů je strukturální problém se strukturálním řešením. Tento článek vás provede celým procesem od návrhu šablon po nasazení do produkce.
Pokud máte problémy s daty i mimo názvy, náš checklist kvality produktových dat pokrývá celkový obraz.
Navrhněte šablony podle kategorií a normalizační slovník
Prvním krokem ke sjednocení názvů je definice kanonické struktury, kterou musí každý title dodržovat. Bez tohoto základu jakákoliv automatizace jen zdědí chaos ze vstupních dat.
Definujte šablony po kategoriích, ne po kanálech. Jedna univerzální šablona funguje zřídka, protože různé typy produktů mají zásadně odlišné prioritní atributy. U elektroniky vede brand a číslo modelu. U oblečení je klíčový materiál, pohlaví a velikost. U bytových doplňků rozhodují rozměry a povrchová úprava. Více o kategoriích najdete v našem článku o šablonách názvů podle kategorií.
Obecný vzor, který funguje jako základ:
Brand + Typ produktu + Model/Řada + Klíčový atribut + Varianta
Příklady:
- Elektronika:
Sony WH-1000XM5 Wireless Over-Ear Headphones, Black - Oblečení:
Nike Dri-FIT Men's Running T-Shirt, Blue, Size L - Domácnost:
Bosch Serie 6 Volně stojící myčka 60cm Nerez
K šablonám přidejte normalizační slovník. Řízený slovník mapuje každou známou dodavatelskou variantu na jednu kanonickou hodnotu:
- Aliasy brandů:
Hewlett Packard,H-P,HP Inc.se všechny převedou naHP - Synonyma barev:
midnight blue,dk blue,navyse převedou naNavy - Formáty jednotek:
10-inch,10in,10"se převedou na10 in - Varianty typu produktu:
cell phone,mobile,handsetse převedou naSmartphone
Provozní pravidla, která drží normalizaci stabilní:
- Uchovávejte surové hodnoty od dodavatelů pro audit a debugging.
- Každé pravidlo musí být idempotentní, opakované zpracování nesmí data poškodit.
- Verzujte slovník i šablony společně s kódem.
- Logujte transformační kroky, abyste mohli zpětně dohledat původ každého výstupu.
Lasso tento přístup podporuje tím, že umožňuje mapovat chaotické dodavatelské vstupy do řízeného schématu ještě před samotným generováním title. Normalizace tak probíhá na datové vrstvě, ne jako oprava po exportu.
Extrahujte brand a model deterministicky, AI až jako fallback
I ta nejlepší šablona produkuje špatné názvy, pokud jsou entity, které do ní vstupují, chybné. Extrakce brandu a modelu je místo, kde se většina title pipelines tiše rozbije, protože chyby vypadají věrohodně, dokud nenarazí na validátor feedu nebo zákazníka.
Použijte vrstvenou extrakční strategii:
1. Nejdřív strukturovaná pole. Čtěte explicitní hodnoty brand, manufacturer, mpn a gtin dříve, než saháte na volný text. Tato pole existují právě proto, že free text je nespolehlivý.
2. Potom pattern matching. Aplikujte kategorie-specifické parsery pro modelové identifikátory. Čísla modelů elektroniky mají rozpoznatelné vzory (WH-1000XM5, SM-S938B). Čísla LEGO setů jsou čistě numerická (75355). Style kódy oblečení se liší podle značky, ale obvykle jsou alfanumerické.
3. AI inference až na třetím místě. AI nasazujte jen na skutečně nejednoznačné případy, kde deterministická pravidla neprodukují žádný nebo konfliktní výsledek. Když AI běží, vracejte confidence score, aby downstream logika mohla rozhodnout o auto-publish nebo review.
4. Nízká confidence do review fronty. Jakýkoliv title, kde confidence brandu nebo modelu klesne pod práh, by měl jít do fronty na ruční kontrolu místo automatického publikování. Náklad jedné ruční kontroly je nesrovnatelně nižší než zamítnutý feed nebo špatně označený produkt.
Proč na pořadí záleží:
- Dodavatelské popisy často obsahují marketingový jazyk, který mate entity parsery.
- Modelová nejednoznačnost je obzvlášť běžná v módě, kde se sezónní názvy překrývají.
- Špatně identifikovaný brand vytváří compliance riziko, když se produkt zobrazí pod nesprávným výrobcem.
Pokud ve vašem katalogu chybí produktové identifikátory, článek o chybějících EAN/GTIN kódech vysvětluje, jak s takovými listingy pracovat.
Validujte title podle pravidel cílového kanálu před exportem
Normalizovaný title postavený na šabloně je připravený k publikaci teprve poté, co projde validací specifickou pro daný kanál. Každý prodejní kanál má vlastní požadavky na délku, povolené znaky, strukturu a zakázaný obsah. Publikovat jeden univerzální title všude znamená garantovat porušení pravidel někde.
Vytvořte rendering profily po kanálech. Interně ukládejte jeden normalizovaný záznam a při exportu z něj renderujte variantu přizpůsobenou konkrétnímu kanálu. Máte jeden zdroj pravdy s více výstupy.
Klíčové validace:
- Limity znaků: Různé kanály mají různá maxima. Klíčové query termy by měly být v prvních 70 až 100 znacích, protože většina rozhraní zbytek zkracuje.
- Zakázaný obsah: Promo jazyk, nadměrná kapitalizace a speciální znaky mimo název značky jsou časté důvody zamítnutí.
- Opakování slov: Některá tržiště označují title, ve kterém se stejné slovo opakuje více než dvakrát, s výjimkou běžných spojek.
- Konzistence s landing page: Title ve feedu musí odpovídat produktu, jak se zobrazuje na vašem e-shopu. Nesoulad mezi feedovým a PDP title může vést k zamítnutí.
Pro týmy spravující více kanálů z jednoho pipeline tento přístup eliminuje neustálé přepisovací konflikty, které vznikají, když různí členové týmu ručně upravují title per kanál.
Náš průvodce optimalizací produktového feedu pokrývá zdraví feedu v širším záběru, včetně požadavků na obrázky, mapování kategorií a validaci identifikátorů.
Měřte kvalitu title pomocí scorecardu
Jakmile title projdou vaší pipeline, potřebujete opakovatelný způsob, jak měřit kvalitu před publikací. Ad-hoc review nešáluje a vnáší nekonzistenci do procesu, který má nekonzistenci odstraňovat.
Vytvořte jednoduchý scorecard hodnotící každý title na škále 0-100:
- Shoda se šablonou (25 bodů): Správné pořadí polí, všechny povinné komponenty přítomny, žádné nadbytečné tokeny.
- Integrita identifikátorů (20 bodů): Brand a model odpovídají zdrojovým identifikátorům. Žádná záměna.
- Čitelnost (20 bodů): Bez keyword stuffingu, bez rozbité interpunkce, přirozený tok slov.
- Channel compliance (20 bodů): Splňuje všechny limity délky, znaků a pravidel cílového kanálu.
- Merchandising hodnota (15 bodů): Obsahuje atributy podporující vyhledávací intent a diferenciaci.
Routing podle skóre:
- 90-100: auto-publish.
- 70-89: publish se vzorkovou kontrolou.
- Pod 70: povinné ruční review.
Tento přístup ke scoringu funguje obzvlášť dobře s Lasso, kde generování title, validace a schvalování běží v jednom pipeline s audit logy. Místo odhalování chyb poté, co se dostanou na živý kanál, je zachytíte ještě před exportem.
Týdenní KPI pro monitoring pipeline:
- Míra zamítnutí ve feedu navázaná na chyby v title.
- Reject rate v QA podle dodavatele nebo kategorie.
- Time-to-publish na 1 000 SKU.
- Změny CTR na hlavních kanálech.
Pokud pracujete i na popisech a atributech produktových stránek, náš průvodce optimalizací PDP pokrývá celou sadu polí ovlivňujících konverzi.
Nasaďte standardizaci title bez dopadu na živé listingy
Největší provozní riziko při normalizaci názvů je narušení listingů, které aktuálně dobře fungují. Postupný rollout chrání tržby a zároveň buduje důvěru v novou pipeline.
Týden 1: Audit a návrh šablon. Změřte současnou míru nekonzistence. Identifikujte kategorie a dodavatele s nejvyšší variabilitou. Definujte šablony a připravte první verzi normalizačního slovníku. Stanovte baseline pro míru zamítnutí feedu a QA reject rate, abyste mohli měřit zlepšení.
Týden 2: Kalibrace slovníku a testování extrakce. Spusťte normalizační pravidla na reálná dodavatelská data a měřte přesnost mapování. Otestujte extrakci brandu a modelu na vzorku a označte edge cases. Zdokumentujte každé pravidlo, které produkuje neočekávaný výstup.
Týden 3: Pilot na jedné kategorii nebo dodavateli. Aplikujte celou pipeline, šablonu, normalizaci, extrakci, kanálovou validaci a scorecard, na jednu kategorii. Exportujte do jednoho kanálu a porovnejte s baseline metrikami. Opravte pravidla, která způsobují regrese.
Týden 4: Řízené rozšíření. Škálujte na další kategorie pouze tehdy, když pilotní KPI drží alespoň dva synchronizační cykly. Přidávejte kanály postupně. Uchovávejte surová dodavatelská data pro případ rollbacku.
Nejčastější chyby při rolloutu:
- Jedna rigidní šablona pro všechny kategorie místo přizpůsobení podle typu produktu.
- AI přepisuje title bez omezení šablonou, což přináší nepředvídatelné variace.
- Vynechání kanálové validace v pilotní fázi, vedoucí k překvapivým zamítnutím při škálování.
- Neuchovávání původních dodavatelských dat, což znemožňuje debugging i revert.
Pro týmy, které zároveň konsolidují data z více dodavatelských feedů, nabízí náš článek o slučování dodavatelských katalogů doplňkový framework pro strukturální sjednocení dat.
Až budete připraveni posunout se za pilotní fázi, funkce Lasso podporují celý workflow od příjmu dodavatelských dat po channel-ready export, včetně normalizace, validace a review kroků popsaných v tomto článku.