Přejít na hlavní obsah
Lasso přijímá řadu formátů souborů jako zdrojová data pro extrakci. Nejprve nahrajte soubory a poté na ně odkazujte pomocí ID při vytváření tabulky.

Podporované formáty

FormátPříponyPoznámky
PDF.pdfPodporovány jsou jak skenované, tak textové PDF soubory.
Tabulky.xlsx, .xls, .csvKaždý list nebo soubor je parsován pro data o produktech.
Obrázky.jpg, .png, .webpOCR extrahuje text z obrázků.
Dokumenty.docx, .docWord dokumenty jsou parsovány pro obsah.

Postup nahrávání

1

Nahrajte soubor

Odešlete soubor jako multipart/form-data na POST /v1/files. Maximální velikost je 1 GB.
2

Získejte ID souboru

Odpověď obsahuje pole id. Uložte si ho pro další krok.
3

Vytvořte tabulku

Předejte ID souboru v poli file_ids při vytváření tabulky.

Příklad

const file = new File([buffer], "catalog.pdf", { type: "application/pdf" });
const uploaded = await client.files.upload(file, "catalog.pdf");

const table = await client.tables.create({
  schema_id: "schema_abc",
  name: "My Catalog",
  file_ids: [uploaded.id],
});

Alternativní zdroje

Pokud nechcete nahrávat soubory, můžete také poskytnout:
  • URL — Předejte file_urls s veřejně přístupnými URL adresami. Lasso je stáhne a zpracuje na straně serveru.
  • Text — Předejte source_text se surovým textovým obsahem k extrakci.

Správa souborů

Soubory lze zobrazit a smazat prostřednictvím Files API. Smazání souboru neovlivní tabulky, které z něj již byly vytvořeny.