Easy Dataset è un tool open-source pensato per trasformare documenti disordinati – PDF, Word, markdown, report tecnici, manuali, policy aziendali – in dataset puliti, strutturati e pronti per il fine-tuning di un modello linguistico.
Questo è fondamentale perché un LLM non “impara” leggendo documenti come un essere umano. I PDF contengono layout, margini, note, colonne, testi spezzati e rumore: elementi impossibili da usare direttamente per l’addestramento.
Un dataset, invece, deve essere composto da esempi chiari, formati da:
- un input coerente e pulito,
- un output esplicito (risposta, spiegazione, classificazione),
- un formato standard come JSON o JSONL,
- campioni bilanciati, senza errori e semanticamente consistenti.
Easy Dataset automatizza l’intero processo: legge i documenti, li segmenta in parti comprensibili, genera domande e risposte, crea esempi in stile fine-tuning, permette la revisione umana e infine esporta tutto nel formato corretto.
In pratica, è il ponte che trasforma materiali “grezzi” in un dataset reale utilizzabile per addestrare un modello di dominio.
Quale problema risolve
Preparare dataset per il fine-tuning è una delle parti più costose e lente nello sviluppo di modelli AI personalizzati.
I documenti originali non sono addestrabili così come sono e costruire manualmente centinaia di esempi QA o istruzione-risposta richiede giorni o settimane.
Easy Dataset risolve questa frizione automatizzando:
- la pulizia dei documenti,
- la divisione in blocchi semantici,
- la generazione di esempi QA,
- la creazione di dataset strutturati,
- la revisione tramite interfaccia grafica.
Riduce drasticamente il tempo necessario per la preparazione dati e permette anche ai non-programmatori di produrre dataset di qualità.

Funzioni principali
- Importazione documenti complessiSupporta PDF, DOCX, TXT, Markdown e altri formati, con estrazione intelligente del contenuto.
- Segmentazione semantica (chunking)Divide automaticamente il testo in blocchi coerenti, evitando spezzature casuali.
- Generazione automatica di QACrea domande e risposte di qualità basate sui contenuti, utili per fine-tuning o RAG supervisionato.
- Etichettatura e classificazioneAggiunge categorie, ruoli, tipologie di contenuto o etichette personalizzate.
- Revisione umana integrataPermette di correggere o migliorare ogni esempio prima dell’esportazione.
- Esportazione datasetIn formati standard: JSON, JSONL, Alpaca, ShareGPT, template personalizzati.
- Compatibile con API OpenAI-likePuò usare qualsiasi modello che espone API compatibili per generare contenuti (GPT, Claude, Llama-server, ecc.).
Da chi viene usato
- Aziende che vogliono addestrare LLM di dominio (legal, finance, manufacturing, health).
- Data scientist che preparano dataset QA e istruzionali in modo più veloce.
- Ricercatori e università che creano corpora personalizzati.
- Startup AI che sviluppano agenti basati su LLM e chatbot proprietari.
- Team enterprise che vogliono mantenere i dati in locale evitando tool chiusi.
Costi
Easy Dataset è open-source e gratuito.
L’unico costo potenziale riguarda:
- uso di API esterne (OpenAI, Anthropic, ecc.) se usate per generare QA;
- infrastruttura locale se si preferisce usare modelli on-premise.
Supporto lingua italiana
L’interfaccia al momento non supporta l’Italiano, ma è molto semplice da navigare e il tool non impone alcuna lingua sui contenuti: la qualità dipende solo dal modello che si usa per generare QA.
Con GPT-4.1, Claude, Llama-3.1 o modelli italiani, la generazione QA in italiano è fluida, coerente e precisa.
Installazione
Sono disponibili tre metodi dal più semplice a quello avanzato:
1. Installare l’applicazione
Programma installabile per Windows, Mac e Linux scaricabile dal repository ufficiale.
2. Installazione locale (Node.js)
- clonare il repository GitHub
- installare dipendenze con npm install
- avviare l’interfaccia con npm run build e npm start
- il tool si apre su http://localhost:1717
3. Docker / Docker-compose
La soluzione più semplice: un singolo comando avvia l’interfaccia grafica senza configurazioni complesse.
Documentazione completa nel repository ufficiale.
Alternative
Nessuno strumento attualmente offre la combinazione di: upload + chunking + QA automatico + revisione + esportazione standardizzata.
Conclusioni
Easy Dataset è oggi uno dei modi più semplici, veloci e accessibili per trasformare documenti disordinati in dataset di fine-tuning.
Riduce la complessità tecnica, accelera la preparazione dei dati e permette sia a professionisti sia a team aziendali di creare dataset solidi partendo da materiali già disponibili.
Se devi addestrare un LLM su un dominio specifico, Easy Dataset è uno degli strumenti più efficaci e concreti da integrare nel tuo workflow.
