Post 7.2: Quality Comparison Redux – Fairer Vergleich mit Llama-3.1-8B
Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub In Post 7.1 haben wir Dataset-Generierung auf 15 Minuten beschleunigt - ein 9× Speedup der iterative Entwicklung praktikabel macht. Statt 138 Minuten pro Run können wir jetzt 4 Experimente pro Stunde durchführen. Das ermöglicht systematisches Testing verschiedener Models, Prompts und Parameter. Jetzt nutzen wir diese schnelle Iteration: Kann ein besseres Model die Quality von Mistral-7B (77% in Post 7) in Richtung gpt-4o-mini (93%) steigern? Bei 15 Minuten pro Run können wir 3-4 Models in unter einer Stunde testen - was früher einen ganzen Arbeitstag gekostet hätte. ...