Carica un PDF per iniziare.
Carica documenti, fai domande in italiano. L'AI trova le risposte nei tuoi PDF e ti dice esattamente dove le ha trovate. I tuoi dati non escono mai dal server.
Non è magia — è un sistema riproducibile con strumenti open source. Ecco ogni passo dell'architettura.
Il PDF viene caricato e il testo estratto pagina per pagina con metadati (file, pagina).
pdfplumberIl testo viene diviso in frammenti da ~500 token con overlap per non perdere il contesto tra un chunk e l'altro.
RecursiveTextSplitterOgni chunk diventa un vettore numerico. Testi con significato simile finiscono vicini nello spazio vettoriale.
all-MiniLM-L6-v2La domanda viene vettorizzata e ChromaDB trova i 5 chunk più vicini semanticamente — anche con parole diverse.
ChromaDB · cosineI chunk rilevanti vengono iniettati nel prompt. DeepSeek risponde citando il documento e la pagina esatta.
DeepSeek · LCEL