Post 7.1: Dataset-Generierung parallelisiert – 9× schneller durch Batching

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub Hinweis: Dieser Post baut direkt auf Post 7 (Self-Hosted Dataset Generation) auf. Wir nutzen das gleiche Setup (Mistral-7B Instruct auf vLLM), optimieren aber die Durchsatzrate durch Parallelisierung. In Post 7 haben wir bewiesen: Self-hosted Dataset-Generierung funktioniert. 2.71 Stunden für 1932 Chunks waren bereits schneller als gpt-4o-mini’s 3.5 Stunden. Aber 2.71 Stunden sind immer noch zu lang für iterative Entwicklung. Das Problem: Sequentielle Verarbeitung lastet die GPU kaum aus. Bei jedem Request wartet die GPU auf den nächsten – eine klassische Underutilization. ...

March 18, 2025 · 19 min

Post 8.1: Llama-70B als Judge – Apple Silicon statt Cloud GPUs

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub In Post 8 haben wir Llama-3.1-8B als self-hosted Judge evaluiert: 65% Agreement mit Claude Sonnet 4.5, klare Grenzen bei nuancierten B/C-Ratings. Die Frage blieb offen: Wie viel besser ist ein 8.75× größeres Model? Der ursprüngliche Plan: Llama-70B auf AWS g5.12xlarge (4× A10G GPUs). Die Realität: Frankfurt komplett ausverkauft, Service Quotas zu niedrig, Wartezeit unbestimmt. Die Alternative: Llama-3.1-70B lokal auf Mac Studio Max (M4 Max, 64 GB Unified Memory). Kein Deployment, keine Quota-Requests, kein Hourly Billing. ...

April 8, 2025 · 13 min