Post 4: Dataset Engineering: Von Dokumenten zu Trainingsdaten
Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub Inhaltsverzeichnis Das Problem: Keine Daten, kein Training Die Pipeline im Überblick Was wir bauen: Ein Instruction Dataset für RAG-QA Schritt 1: Document Loading und Chunking Schritt 2: QA-Pair Generation mit GPT-4o-mini Schritt 3: Quality Control – Der unterschätzte Schritt Schritt 4: Dataset Generation - Vom QA-Pair zum Instruction Sample Schritt 5: Train/Val/Eval Split Lessons Learned Was wir beim nächsten Mal besser machen würden Code & Ressourcen Fazit Das Problem: Keine Daten, kein Training Die meisten Fine-tuning-Tutorials starten so: ...