Jak funguje extrakce
Když vytvoříte tabulku, Lasso zpracuje vaše zdrojové soubory prostřednictvím AI pipeline:- Parsování dokumentu — PDF, tabulky a obrázky jsou parsovány pro získání surového textu a vizuálních prvků.
- Mapování schématu — AI namapuje surový obsah na definice sloupců vašeho schématu.
- Generování řádků — Každý detekovaný produkt nebo položka se stane řádkem s hodnotami pro každý sloupec.
- Validace — Extrahované hodnoty jsou validovány oproti typům sloupců (čísla, URL, e-maily atd.).
Typy zdrojů
Data k extrakci můžete poskytnout třemi způsoby:| Zdroj | Popis |
|---|---|
| Soubory | Nahrajte PDF, tabulky, obrázky nebo dokumenty přes Files API. |
| URL | Při vytváření tabulky předejte veřejně přístupné URL adresy. |
| Text | Poskytněte surový textový obsah k extrakci. |
Životní cyklus tabulky
Tabulka prochází těmito stavy:- queued — Úloha čeká na zpracování.
- processing — Extrakce aktivně běží. Pole
progress(0-100) sleduje průběh. - completed — Všechny řádky byly extrahovány a jsou připraveny k dotazování.
- failed — Něco se pokazilo. Podrobnosti najdete v
error_message.
Polling vs webhooky
Máte dvě možnosti, jak zjistit, kdy extrakce skončí:- Polling — Použijte
client.tables.waitForCompletion()(SDK) nebo opakovaně dotazujteGET /v1/tables/{id}, dokud stav nebudecompleted. - Webhooky — Při vytváření tabulky předejte
webhook_url. Lasso odešle HTTP POST po dokončení zpracování.
Práce s řádky
Jakmile je tabulka dokončena, každá extrahovaná položka je řádek. Řádky obsahují:- data — Objekt klíč-hodnota odpovídající sloupcům vašeho schématu.
- validation_status — Zda řádek prošel typovou validací.
- enhancement_status — Stav AI obohacení pro jednotlivé sloupce.
- is_edited — Zda byl řádek ručně upraven prostřednictvím API.

