Post 4: Dataset Engineering: Von Dokumenten zu Trainingsdaten

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub Inhaltsverzeichnis Das Problem: Keine Daten, kein Training Die Pipeline im Überblick Was wir bauen: Ein Instruction Dataset für RAG-QA Schritt 1: Document Loading und Chunking Schritt 2: QA-Pair Generation mit GPT-4o-mini Schritt 3: Quality Control – Der unterschätzte Schritt Schritt 4: Dataset Generation - Vom QA-Pair zum Instruction Sample Schritt 5: Train/Val/Eval Split Lessons Learned Was wir beim nächsten Mal besser machen würden Code & Ressourcen Fazit Das Problem: Keine Daten, kein Training Die meisten Fine-tuning-Tutorials starten so: ...

January 28, 2025 · 21 min

Post 7: Dataset-Generierung selbst gehostet – Der ehrliche Vergleich

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub Hinweis: Alle Zahlen sind gemessen, nicht geschätzt. Unternehmen stehen vor einem Dilemma: Sie wollen, dass ihre Entwickler und Data Scientists Generative KI nutzen - für schnellere Entwicklung, bessere Lösungen, synthetische Trainingsdaten. Aber niemand will Firmendaten, interne Dokumentation oder Intellectual Property an OpenAI, Anthropic oder andere externe Provider schicken. Besonders kritisch: Dataset Generation. Entwickler brauchen synthetische QA-Pairs für Instruction Tuning, realistische Test-Daten für Evaluation, augmentierte Daten für Training. Genau die Art von Daten, die man NICHT extern generieren lassen möchte. ...

March 11, 2025 · 15 min

Post 7.1: Dataset-Generierung parallelisiert – 9× schneller durch Batching

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub Hinweis: Dieser Post baut direkt auf Post 7 (Self-Hosted Dataset Generation) auf. Wir nutzen das gleiche Setup (Mistral-7B Instruct auf vLLM), optimieren aber die Durchsatzrate durch Parallelisierung. In Post 7 haben wir bewiesen: Self-hosted Dataset-Generierung funktioniert. 2.71 Stunden für 1932 Chunks waren bereits schneller als gpt-4o-mini’s 3.5 Stunden. Aber 2.71 Stunden sind immer noch zu lang für iterative Entwicklung. Das Problem: Sequentielle Verarbeitung lastet die GPU kaum aus. Bei jedem Request wartet die GPU auf den nächsten – eine klassische Underutilization. ...

March 18, 2025 · 19 min

Post 7.2: Quality Comparison Redux – Fairer Vergleich mit Llama-3.1-8B

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub In Post 7.1 haben wir Dataset-Generierung auf 15 Minuten beschleunigt - ein 9× Speedup der iterative Entwicklung praktikabel macht. Statt 138 Minuten pro Run können wir jetzt 4 Experimente pro Stunde durchführen. Das ermöglicht systematisches Testing verschiedener Models, Prompts und Parameter. Jetzt nutzen wir diese schnelle Iteration: Kann ein besseres Model die Quality von Mistral-7B (77% in Post 7) in Richtung gpt-4o-mini (93%) steigern? Bei 15 Minuten pro Run können wir 3-4 Models in unter einer Stunde testen - was früher einen ganzen Arbeitstag gekostet hätte. ...

March 25, 2025 · 15 min