Post 1: Warum Self-Hosting? Der Business Case für Datensouveränität

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub TL;DR – Für eilige Leser Das Problem: Unternehmen wollen generative KI nutzen, aber sensible Daten dürfen nicht an externe APIs. Die Lösung: Self-Hosted LLMs bieten volle Kontrolle über Daten und Modellverhalten. Diese Tutorial-Serie zeigt: ✅ Von “erstes LLM deployen” bis “vollständige Datensouveränität” ✅ Echte Debugging-Stories statt “happy path” ✅ Production-Grade Stack: Kubernetes, vLLM, MLflow, Prometheus ✅ Schrittweiser Aufbau – nach Post 2 läuft dein erstes selbst gehostetes LLM Für wen? ML Engineers, Data Scientists, Tech Leads und technische Entscheider im DACH-Raum. ...

January 7, 2025 · 7 min

Post 2: vLLM auf Kubernetes – Dein erstes selbst gehostetes LLM

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub TL;DR - Für eilige Leser Was wir bauen: vLLM auf Kubernetes mit Mistral-7B (4-bit quantized) OpenAI-kompatible API für einfache Integration Monitoring mit Prometheus/Grafana out-of-the-box Kostenoptimiert mit scale-to-zero Tech-Stack: vLLM 0.14.1, Mistral-7B-AWQ, Kubernetes (EKS), g6.xlarge (L4 GPU) Code: Alle Manifeste auf GitHub | Willst du mehr? Inhaltsverzeichnis Inhaltsverzeichnis Schnellstart: Warum vLLM auf Kubernetes? Was wollen wir erreichen? Teil 1: Design-Entscheidungen Architekturüberblick Serving Framework Auswahl (vLLM vs TGI vs Triton) Quantisierung (AWQ 4-bit) Hardware-Wahl (g6.xlarge mit L4) Teil 2: Kubernetes Deployment ...

January 14, 2025 · 24 min

Post 3: Warum Fine-tuning? Wenn RAG und Prompting nicht reichen

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub TL;DR – Für eilige Leser Die Ausgangslage: Dein LLM läuft (Post 2), aber das Verhalten ist inkonsistent. Prompting allein reicht nicht. Die drei Ansätze: Prompting: Flexibel, aber variable Ergebnisse RAG: Fügt Wissen hinzu, aber keine Verhaltensgarantien Fine-tuning: Brennt konsistentes Verhalten ein Wann Fine-tuning? Spezifische Output-Formate (JSON, strukturierte Daten) 100% Regeleinhaltung erforderlich Latenz-Optimierung durch kürzere Prompts Kleinere, spezialisierte Modelle statt große Generalisten Unser Ansatz: Instruction Fine-tuning mit QLoRA – ressourcenschonend und kombinierbar mit RAG. ...

January 21, 2025 · 9 min

Post 5.2: Model Evaluation – Qualität messen

Serie: Self-Hosted LLMs für Datensouveränität | Code: GitHub Hinweis: Dieser Post ist optional und vertieft die Evaluation-Methodik aus Post 5. Du kannst direkt zu Post 6 (vLLM Deployment) springen, wenn du mit deinem Training zufrieden bist. TL;DR – Für eilige Leser Das Problem: Training Loss = 0.35 sieht gut aus. Validation Loss = 0.35 zeigt kein Overfitting. Aber sind die generierten Antworten tatsächlich gut? Metrics alleine sagen wenig über Output Quality. ...

February 18, 2025 · 13 min

Glossar: Self-Hosted LLMs für Datensouveränität

Projekt: Self-Hosted LLMs für Datensouveränität – Blog-Serie Zweck: Zentrale Begriffserklärungen für alle Posts Dieses Glossar erklärt technische Begriffe, die in der Blog-Serie verwendet werden. Die Begriffe sind alphabetisch sortiert und nach Kategorien gruppiert. Inhaltsverzeichnis Training & Optimization Model Architecture & LoRA Memory & Hardware Serving & Infrastructure Evaluation & Metriken Data & Datasets Training & Optimization Activation / Activations Zwischenergebnisse, die während des Forward Pass (Berechnung der Predictions) eines Neural Networks entstehen. Diese müssen für den Backward Pass (Gradient-Berechnung) im Speicher gehalten werden. Bei großen Models und Batches können Activations mehrere GB VRAM benötigen. ...

April 29, 2025 · 10 min

KI-Agenten unter der Haube: Was macht einen Agent wirklich aus?

Wenn man über Agenten redet, wird wie selbstverständlich davon ausgegangen, dass man sie mit Tools wie LangChain, LangGraph, CrewAI oder AutoGen baut. Das macht auch absolut Sinn. Wenn man aber gerade erst beginnt, sich mit Agenten zu beschäftigen, dann empfehle ich, zumindest einmal einen Agenten von Hand zu implementieren bzw. seine Komponenten und ihr Zusammenspiel ohne Framework zu betrachten. Ich für meinen Teil habe damit sehr gute Erfahrungen gemacht. Man entwickelt ein tieferes Verständnis davon, was einen Agenten ausmacht und versteht auch die Abstraktionen der Frameworks besser. ...

March 12, 2026 · 6 min