Datenpipeline aufbauen: Was ETL-Integration wirklich bedeutet — und wann Sie Hilfe brauchen

Daten liegen selten da, wo man sie braucht. Das ERP hat sie, das CRM braucht sie, das Reporting-Tool erwartet ein anderes Format, und irgendwo dazwischen sitzt jemand mit einem Excel-Export und einer halben Stunde Zeit pro Woche. Dieser Artikel erklärt, was eine professionelle Datenpipeline von einer improvisierten Lösung unterscheidet — und wann es sinnvoll ist, den Aufbau outzusourcen.

Lesezeit: ca. 5 Minuten · Stand: Juni 2026

Was ist eine Datenpipeline?

Eine Datenpipeline ist ein automatisierter Prozess, der Daten aus einer oder mehreren Quellen liest, sie in ein einheitliches Format transformiert und in ein Zielsystem überträgt — kontinuierlich, überwacht und ohne manuelle Eingriffe.

Der Begriff ETL (Extract, Transform, Load) beschreibt die drei grundlegenden Schritte: Extraktion aus den Quellsystemen, Transformation (Normalisierung, Typkonvertierung, Validierung, Deduplizierung) und Laden in das Zielsystem. In der Praxis kommen häufig auch ELT-Varianten vor, bei denen die Transformation im Zielsystem stattfindet.

Abgrenzung zu Web Scraping: Web Scraping ist eine spezifische Form der Extraktion — aus öffentlichen Webseiten ohne strukturierte API. Eine Datenpipeline kann Web-Scraping-Ergebnisse als eine von mehreren Quellen einbinden, ist aber nicht darauf beschränkt. Systeme mit REST-APIs, Datenbankzugängen oder SFTP-Schnittstellen lassen sich ohne Scraping direkt anbinden.

Typische Quellen und Ziele

In B2B-Projekten kommen folgende Kombinationen regelmäßig vor:

Typische Quellsysteme
  • REST-APIs (mit OAuth 2.0, API-Key oder Bearer Token)
  • ERP-Exporte (SAP, Dynamics, Weclapp, Odoo) über SFTP oder API
  • Datenbanken: PostgreSQL, MySQL, MSSQL (Lesezugriff genügt)
  • SFTP/FTP-Dateiübergaben (CSV, Excel, XML)
  • Webhook-Streams von externen Systemen
  • Web-Scraping-Ergebnisse als strukturierte Datenquelle
Typische Zielsysteme
  • Zentrales Data Warehouse (PostgreSQL, BigQuery-Alternative EU)
  • CRM-Systeme (Zoho, Pipedrive, HubSpot) über deren API
  • Reporting-Datenbank für BI-Tools (Metabase, Grafana)
  • REST-API-Endpunkt (für nachgelagerte Systeme)
  • Täglicher Dateiexport per SFTP (CSV, Excel, JSON)
  • Vektordatenbank (pgvector) für KI-gestützte Weiterverarbeitung

Wann lohnt sich externer Aufbau?

Vier Situationen, in denen Eigenentwicklung teurer ist als ein Managed Service:

1

Die Lösung ist ein manueller Prozess

Jemand exportiert wöchentlich eine CSV aus System A, lädt sie manuell in System B hoch und korrigiert manuell Inkonsistenzen. Das ist kein Datenprozess — das ist Wartungsarbeit. Der Zeitaufwand skaliert mit dem Datenvolumen und hängt an der Verfügbarkeit einer Person.

2

Internes Skript wird nicht gewartet

Ein Python-Skript, das vor zwei Jahren jemand gebaut hat, läuft auf einem Entwicklerrechner oder einem nicht dokumentierten Server. Wenn es bricht, weiß niemand, warum. Wenn der Entwickler das Unternehmen verlässt, ist die Pipeline tot.

3

Mehrere Quellen, kein einheitliches Datenmodell

ERP, CRM und externer Datenlieferant nutzen unterschiedliche IDs, Felddefinitionen und Datumsformate. Solange kein zentrales Transformationsmodell existiert, landen inkonsistente Daten in Analysen — und Entscheidungen basieren auf falsch zusammengeführten Datensätzen.

4

Kein Monitoring, keine Fehlerbenachrichtigung

APIs ändern ihre Endpunkte, Authentifizierungstoken laufen ab, Quellsysteme liefern plötzlich leere Datensätze. Ohne Monitoring bemerkt man den Ausfall erst, wenn Kollegen fragen, warum die Daten seit drei Tagen nicht aktuell sind.

Was liefern wir — was nicht

Inbegriffen
  • Analyse der Quell- und Zielsysteme
  • Entwicklung der ETL-Pipeline mit Transformationslogik
  • Laufendes Monitoring mit Fehlerbenachrichtigung
  • Anpassungen bei API-Änderungen der Quellen
  • Vollständige DSGVO-konforme EU-Infrastruktur
  • Technische Dokumentation für Ihre IT-Abteilung
Nicht inbegriffen
  • Systeme ohne jede technische Schnittstelle
  • Zugang zu Systemen, den Sie selbst nicht bereitstellen können
  • Fachliche Datenmodelldefinition (wir setzen um, was Sie definieren)
  • Strukturelle Erweiterungen (neue Quellen, neue Ziele) ohne neues Angebot
  • Real-Time-Streaming unter 5 Minuten Latenz (Standardfall: tägliche/stündliche Läufe)

Technischer Ansatz bei BrainMaze

Transparenter Tech-Stack, den Sie für Ihre IT-Abteilung dokumentieren können:

Integration

Python + FastAPI für API-Anbindungen und asynchrone Webhook-Endpunkte. ETL-Logik nach bewährten Enterprise Integration Patterns: Retry, Dead Letter, Idempotent Consumer.

Verarbeitung

FastAPI für asynchrone API-Endpunkte. Pandas für Normalisierung, Typkonvertierung und Deduplizierung. PostgreSQL als Zielsystem mit optionaler Historisierung.

Infrastruktur

Hetzner (Deutschland). Docker-Container. Kein US-Cloud-Provider, kein Cloud Act Risiko. DSGVO-konform by Architecture.

Zu Enterprise Integration Patterns: EIP sind sprachunabhängige Lösungsschablonen für Integrationsherausforderungen — Routing, Aggregation, Dead Letter Channel, Idempotent Consumer. Wir implementieren diese Patterns in Python, ohne proprietäre Framework-Abhängigkeiten. Das Ergebnis ist nachvollziehbarer Code, den Ihre IT-Abteilung lesen und dokumentieren kann.

Konditionen

Festpreise, kein Stundensatz, keine variablen Überraschungsrechnungen.

Einmaliges Setup
1.500 €
  • • Analyse der Quell- und Zielsysteme (1–2 Anbindungen)
  • • Entwicklung der ETL-Pipeline inkl. Transformationslogik
  • • Server-Setup und erste produktive Datenlieferung
  • • Technische Abnahme und Dokumentation
Laufender Betrieb
ab 290 € / Monat
  • • Kontinuierlicher, überwachter Betrieb der Pipeline
  • • Proaktives Monitoring, Alarmierung bei Ausfällen
  • • Anpassungen bei API-Änderungen der Quellsysteme
  • • Strukturierte Auslieferung in vereinbartem Format und Rhythmus

Alle Preise netto zzgl. MwSt. Für Datenpipelines mit besonders hohem Transformationsaufwand oder mehr als zwei Quell-Ziel-Verbindungen erstellen wir ein individuelles Angebot.

Häufige Fragen

Was ist der Unterschied zwischen einer Datenpipeline und Web Scraping?

Web Scraping liest Daten von öffentlichen Webseiten, die keine strukturierte API anbieten. Eine Datenpipeline verbindet Systeme, die bereits Daten strukturiert bereitstellen — über REST-APIs, Datenbankanbindungen, SFTP-Transfers oder ERP-Exporte. Beides kann kombiniert werden: Web-Scraping-Ergebnisse als eine von mehreren Quellen in einer ETL-Pipeline.

Welche Quellsysteme können angebunden werden?

Prinzipiell jedes System mit einer technischen Schnittstelle: REST-APIs (mit oder ohne OAuth), SFTP/FTP-Dateiübergaben (CSV, Excel, XML), Datenbankzugänge (PostgreSQL, MySQL, MSSQL), ERP-Exporte (SAP, Dynamics, Weclapp, Odoo) und Webhook-Streams. Systeme ohne jede Schnittstelle — z. B. rein manuelle Prozesse ohne Export-Funktion — erfordern gesonderte Analyse.

Brauche ich dafür intern einen Entwickler?

Nein. Sie brauchen jemanden, der die fachliche Anforderung formulieren kann: welche Daten aus welchem System in welchem Format wo landen sollen. Den technischen Aufbau und Betrieb übernehmen wir vollständig. Zugang zu den Quellsystemen müssen Sie oder Ihr Team bereitstellen — die Zugangsdaten bleiben ausschließlich in Ihrem Zugriff und in unseren gesicherten Secrets.

Was kostet eine externe Datenpipeline?

Bei BrainMaze: 1.500 € einmaliges Setup für 1–2 Quell-Ziel-Verbindungen, danach ab 290 € pro Monat für den laufenden Betrieb inklusive Monitoring, Fehlerbehandlung und Anpassungen bei API-Änderungen. Kein Stundensatz, keine variablen Kostenpositionen. Für Setups mit mehr als zwei Verbindungen oder hohem Transformationsaufwand erstellen wir ein individuelles Angebot.

Was passiert, wenn sich eine Quell-API ändert?

API-Änderungen der Quellsysteme — neue Endpunkte, geänderte Feldnamen, neue Authentifizierung — sind in der Monatspauschale enthalten. Unser Monitoring erkennt Laufzeitfehler, wir passen die Integration an, ohne dass Sie eine Extra-Rechnung erhalten. Strukturelle Erweiterungen wie neue Quellen oder neue Zielfelder werden separat angeboten.

Wie lange dauert die Einrichtung?

Einfache REST-API-Integrationen mit gut dokumentierter Schnittstelle und klarem Datenmodell: 3–7 Werktage nach Auftragsbestätigung. Komplexere Setups mit mehreren Quellen, ERP-Anbindungen oder Custom-Transformationslogik: 2–4 Wochen. Den verbindlichen Zeitplan nennen wir im Angebot — nicht erst nach Auftragserteilung.

Verwandte Themen

Weitere Seiten zur Datenbeschaffung und Datenintegration.

Datenpipeline anfragen

Beschreiben Sie kurz Ihre Quellsysteme, das Zielformat und den gewünschten Aktualisierungsrhythmus — Sie erhalten innerhalb von 24 Stunden eine technische Einschätzung, ob und wie eine saubere Integration umsetzbar ist.

Gespräch vereinbaren