Daten liegen selten da, wo man sie braucht. Das ERP hat sie, das CRM braucht sie, das Reporting-Tool erwartet ein anderes Format, und irgendwo dazwischen sitzt jemand mit einem Excel-Export und einer halben Stunde Zeit pro Woche. Dieser Artikel erklärt, was eine professionelle Datenpipeline von einer improvisierten Lösung unterscheidet — und wann es sinnvoll ist, den Aufbau outzusourcen.
Lesezeit: ca. 5 Minuten · Stand: Juni 2026
Eine Datenpipeline ist ein automatisierter Prozess, der Daten aus einer oder mehreren Quellen liest, sie in ein einheitliches Format transformiert und in ein Zielsystem überträgt — kontinuierlich, überwacht und ohne manuelle Eingriffe.
Der Begriff ETL (Extract, Transform, Load) beschreibt die drei grundlegenden Schritte: Extraktion aus den Quellsystemen, Transformation (Normalisierung, Typkonvertierung, Validierung, Deduplizierung) und Laden in das Zielsystem. In der Praxis kommen häufig auch ELT-Varianten vor, bei denen die Transformation im Zielsystem stattfindet.
In B2B-Projekten kommen folgende Kombinationen regelmäßig vor:
Vier Situationen, in denen Eigenentwicklung teurer ist als ein Managed Service:
Jemand exportiert wöchentlich eine CSV aus System A, lädt sie manuell in System B hoch und korrigiert manuell Inkonsistenzen. Das ist kein Datenprozess — das ist Wartungsarbeit. Der Zeitaufwand skaliert mit dem Datenvolumen und hängt an der Verfügbarkeit einer Person.
Ein Python-Skript, das vor zwei Jahren jemand gebaut hat, läuft auf einem Entwicklerrechner oder einem nicht dokumentierten Server. Wenn es bricht, weiß niemand, warum. Wenn der Entwickler das Unternehmen verlässt, ist die Pipeline tot.
ERP, CRM und externer Datenlieferant nutzen unterschiedliche IDs, Felddefinitionen und Datumsformate. Solange kein zentrales Transformationsmodell existiert, landen inkonsistente Daten in Analysen — und Entscheidungen basieren auf falsch zusammengeführten Datensätzen.
APIs ändern ihre Endpunkte, Authentifizierungstoken laufen ab, Quellsysteme liefern plötzlich leere Datensätze. Ohne Monitoring bemerkt man den Ausfall erst, wenn Kollegen fragen, warum die Daten seit drei Tagen nicht aktuell sind.
Transparenter Tech-Stack, den Sie für Ihre IT-Abteilung dokumentieren können:
Python + FastAPI für API-Anbindungen und asynchrone Webhook-Endpunkte. ETL-Logik nach bewährten Enterprise Integration Patterns: Retry, Dead Letter, Idempotent Consumer.
FastAPI für asynchrone API-Endpunkte. Pandas für Normalisierung, Typkonvertierung und Deduplizierung. PostgreSQL als Zielsystem mit optionaler Historisierung.
Hetzner (Deutschland). Docker-Container. Kein US-Cloud-Provider, kein Cloud Act Risiko. DSGVO-konform by Architecture.
Festpreise, kein Stundensatz, keine variablen Überraschungsrechnungen.
Alle Preise netto zzgl. MwSt. Für Datenpipelines mit besonders hohem Transformationsaufwand oder mehr als zwei Quell-Ziel-Verbindungen erstellen wir ein individuelles Angebot.
Web Scraping liest Daten von öffentlichen Webseiten, die keine strukturierte API anbieten. Eine Datenpipeline verbindet Systeme, die bereits Daten strukturiert bereitstellen — über REST-APIs, Datenbankanbindungen, SFTP-Transfers oder ERP-Exporte. Beides kann kombiniert werden: Web-Scraping-Ergebnisse als eine von mehreren Quellen in einer ETL-Pipeline.
Prinzipiell jedes System mit einer technischen Schnittstelle: REST-APIs (mit oder ohne OAuth), SFTP/FTP-Dateiübergaben (CSV, Excel, XML), Datenbankzugänge (PostgreSQL, MySQL, MSSQL), ERP-Exporte (SAP, Dynamics, Weclapp, Odoo) und Webhook-Streams. Systeme ohne jede Schnittstelle — z. B. rein manuelle Prozesse ohne Export-Funktion — erfordern gesonderte Analyse.
Nein. Sie brauchen jemanden, der die fachliche Anforderung formulieren kann: welche Daten aus welchem System in welchem Format wo landen sollen. Den technischen Aufbau und Betrieb übernehmen wir vollständig. Zugang zu den Quellsystemen müssen Sie oder Ihr Team bereitstellen — die Zugangsdaten bleiben ausschließlich in Ihrem Zugriff und in unseren gesicherten Secrets.
Bei BrainMaze: 1.500 € einmaliges Setup für 1–2 Quell-Ziel-Verbindungen, danach ab 290 € pro Monat für den laufenden Betrieb inklusive Monitoring, Fehlerbehandlung und Anpassungen bei API-Änderungen. Kein Stundensatz, keine variablen Kostenpositionen. Für Setups mit mehr als zwei Verbindungen oder hohem Transformationsaufwand erstellen wir ein individuelles Angebot.
API-Änderungen der Quellsysteme — neue Endpunkte, geänderte Feldnamen, neue Authentifizierung — sind in der Monatspauschale enthalten. Unser Monitoring erkennt Laufzeitfehler, wir passen die Integration an, ohne dass Sie eine Extra-Rechnung erhalten. Strukturelle Erweiterungen wie neue Quellen oder neue Zielfelder werden separat angeboten.
Einfache REST-API-Integrationen mit gut dokumentierter Schnittstelle und klarem Datenmodell: 3–7 Werktage nach Auftragsbestätigung. Komplexere Setups mit mehreren Quellen, ERP-Anbindungen oder Custom-Transformationslogik: 2–4 Wochen. Den verbindlichen Zeitplan nennen wir im Angebot — nicht erst nach Auftragserteilung.
Weitere Seiten zur Datenbeschaffung und Datenintegration.
Pillar-Seite zum Thema Datenbeschaffung: ROI-Rechner, Leistungsumfang und Anfrageformular.
Wann lohnt vollständiges Outsourcing? Vergleich, Konditionen und Scope-Abgrenzung für reine Scraping-Aufträge.
Beschreiben Sie kurz Ihre Quellsysteme, das Zielformat und den gewünschten Aktualisierungsrhythmus — Sie erhalten innerhalb von 24 Stunden eine technische Einschätzung, ob und wie eine saubere Integration umsetzbar ist.