STRUMENTI / Gestione dataset

Easy DataSet

Trasforma i documenti in dataset per addestramento AI

Easy DataSet screenshot

Easy Dataset è un tool open-source pensato per trasformare documenti disordinati – PDF, Word, markdown, report tecnici, manuali, policy aziendali – in dataset puliti, strutturati e pronti per il fine-tuning di un modello linguistico.

Questo è fondamentale perché un LLM non “impara” leggendo documenti come un essere umano. I PDF contengono layout, margini, note, colonne, testi spezzati e rumore: elementi impossibili da usare direttamente per l’addestramento.

Un dataset, invece, deve essere composto da esempi chiari, formati da:

  • un input coerente e pulito,
  • un output esplicito (risposta, spiegazione, classificazione),
  • un formato standard come JSON o JSONL,
  • campioni bilanciati, senza errori e semanticamente consistenti.

Easy Dataset automatizza l’intero processo: legge i documenti, li segmenta in parti comprensibili, genera domande e risposte, crea esempi in stile fine-tuning, permette la revisione umana e infine esporta tutto nel formato corretto.

In pratica, è il ponte che trasforma materiali “grezzi” in un dataset reale utilizzabile per addestrare un modello di dominio.

Quale problema risolve

Preparare dataset per il fine-tuning è una delle parti più costose e lente nello sviluppo di modelli AI personalizzati.

I documenti originali non sono addestrabili così come sono e costruire manualmente centinaia di esempi QA o istruzione-risposta richiede giorni o settimane.

Easy Dataset risolve questa frizione automatizzando:

  • la pulizia dei documenti,
  • la divisione in blocchi semantici,
  • la generazione di esempi QA,
  • la creazione di dataset strutturati,
  • la revisione tramite interfaccia grafica.

Riduce drasticamente il tempo necessario per la preparazione dati e permette anche ai non-programmatori di produrre dataset di qualità.

Il processo di strutturazione dei dati – Immagine dal repo ufficiale

Funzioni principali

  • Importazione documenti complessiSupporta PDF, DOCX, TXT, Markdown e altri formati, con estrazione intelligente del contenuto.
  • Segmentazione semantica (chunking)Divide automaticamente il testo in blocchi coerenti, evitando spezzature casuali.
  • Generazione automatica di QACrea domande e risposte di qualità basate sui contenuti, utili per fine-tuning o RAG supervisionato.
  • Etichettatura e classificazioneAggiunge categorie, ruoli, tipologie di contenuto o etichette personalizzate.
  • Revisione umana integrataPermette di correggere o migliorare ogni esempio prima dell’esportazione.
  • Esportazione datasetIn formati standard: JSON, JSONL, Alpaca, ShareGPT, template personalizzati.
  • Compatibile con API OpenAI-likePuò usare qualsiasi modello che espone API compatibili per generare contenuti (GPT, Claude, Llama-server, ecc.).

Da chi viene usato

  • Aziende che vogliono addestrare LLM di dominio (legal, finance, manufacturing, health).
  • Data scientist che preparano dataset QA e istruzionali in modo più veloce.
  • Ricercatori e università che creano corpora personalizzati.
  • Startup AI che sviluppano agenti basati su LLM e chatbot proprietari.
  • Team enterprise che vogliono mantenere i dati in locale evitando tool chiusi.

Costi

Easy Dataset è open-source e gratuito.

L’unico costo potenziale riguarda:

  • uso di API esterne (OpenAI, Anthropic, ecc.) se usate per generare QA;
  • infrastruttura locale se si preferisce usare modelli on-premise.

Supporto lingua italiana

L’interfaccia al momento non supporta l’Italiano, ma è molto semplice da navigare e il tool non impone alcuna lingua sui contenuti: la qualità dipende solo dal modello che si usa per generare QA.

Con GPT-4.1, Claude, Llama-3.1 o modelli italiani, la generazione QA in italiano è fluida, coerente e precisa.

Installazione

Sono disponibili tre metodi dal più semplice a quello avanzato:

1. Installare l’applicazione

Programma installabile per Windows, Mac e Linux scaricabile dal repository ufficiale.

2. Installazione locale (Node.js)

  • clonare il repository GitHub
  • installare dipendenze con npm install
  • avviare l’interfaccia con npm run build e npm start
  • il tool si apre su http://localhost:1717

3. Docker / Docker-compose

La soluzione più semplice: un singolo comando avvia l’interfaccia grafica senza configurazioni complesse.

Documentazione completa nel repository ufficiale.

Alternative

Nessuno strumento attualmente offre la combinazione di: upload + chunking + QA automatico + revisione + esportazione standardizzata.

Conclusioni

Easy Dataset è oggi uno dei modi più semplici, veloci e accessibili per trasformare documenti disordinati in dataset di fine-tuning.

Riduce la complessità tecnica, accelera la preparazione dei dati e permette sia a professionisti sia a team aziendali di creare dataset solidi partendo da materiali già disponibili.

Se devi addestrare un LLM su un dominio specifico, Easy Dataset è uno degli strumenti più efficaci e concreti da integrare nel tuo workflow.

ALTRI STRUMENTI

Trasforma i documenti in dataset per addestramento AI

Framework self-hosted per agenti

Sintensi vocale open source

Elaborazione testi e immagini

Automazione AI