Search by job, company or skills

Deutsche Telekom

Technology Architect (m/f/d)

Save
  • Posted 7 hours ago
  • Be among the first 10 applicants
Early Applicant

Job Description

None

Dein Profil

Wir suchen einen hochqualifizierten Platform Operations Engineer mit umfassender Expertise in Linux-Systemen, Kubernetes, Sicherheitsplattformen, Observability-Tools und Datenbankbetrieb. Der ideale Kandidat fungiert als technischer Experte der 3. Ebene, treibt Plattformstabilität und Automatisierungsinitiativen voran und unterstützt kritische Sicherheits-, Compliance- und Audit-Aktivitäten.

Muss-Kriterien

  • Fortgeschrittene Administration von unternehmensweiten Linux-Systemen (RHEL, Ubuntu, SuSE, gehärtete Distributionen)
  • Tiefgreifendes OS-Level-Troubleshooting (CPU-, Speicher-, IO-Engpässe, Prozessdiagnose)
  • Service-Lifecycle-Management mit systemd, einschließlich journald-Loganalyse
  • Kernel-Parameter-Tuning, Optimierung und Performance-Diagnose
  • Host-Level-Incident-Untersuchung und forensische Loganalyse
  • Dateisystemoperationen und Troubleshooting (LVM, XFS, ext4, Mount- und IO-Probleme)
  • Benutzer- und Remote-Access-Konfiguration, einschließlich SSH-Härtung und Bastion-Host-Konzepten
  • Operativer Support für Kubernetes-Cluster über Control Plane und Worker Nodes hinweg
  • Troubleshooting von Pod-Fehlern, Scheduling-Problemen, Container-Abstürzen und Ressourcenerschöpfung
  • Debugging von netzwerkbezogenen Problemen (CNI-Schichten, Service-Routing, DNS-Auflösung)
  • Management von Persistent Volumes, Storage Classes und dynamischen Provisioning-Verhalten
  • Ressourcenprognose und Kapazitätsplanung für Cluster-Wachstum (CPU, Speicher, Storage)
  • Durchführung und Validierung von Kubernetes-Cluster-Upgrades
  • Analyse von Kubernetes-Systemlogs (kube-api, kubelet, controller-manager)
  • Design, Deployment und operatives Management der Wazuh-SIEM-Plattform
  • Vollständiges Lifecycle-Management von Wazuh-Agents, einschließlich Policy-Enforcement und Tuning
  • Troubleshooting von Log-Ingestion-Pipelines, Decodern, Enrichment-Rules und Alert-Logik
  • Integration von Wazuh mit Plattformdiensten und Infrastruktur
  • Analyse von Sicherheitswarnungen und Unterstützung bei Incident-Untersuchungen
  • Performance-Optimierung von SIEM-Komponenten zur Sicherstellung zuverlässiger Event-Verarbeitung
  • Deployment, Konfiguration und Betrieb von Prometheus-basierten Monitoring-Stacks
  • Administration von Scraping-Konfigurationen, Service-Discovery-Rules und Target-Troubleshooting
  • Design und Wartung von Recording Rules und Alert Rules für Plattformkomponenten
  • Integration und Troubleshooting von Exportern (Node, Datenbank, Kubernetes usw.)
  • Behebung von Metrik-Lücken, Scrape-Latency-Problemen und kardinalitätsbezogenen Performance-Problemen
  • Entwicklung und Lifecycle-Management von Grafana-Dashboards für Plattform- und Infrastrukturdienste
  • Troubleshooting von Dashboard-Performance, Datenquellen-Konnektivität und Visualisierungsgenauigkeit
  • Integration von Alerting-Workflows in Incident-Management-Systeme
  • Operatives Management von PostgreSQL-Clustern über verschiedene Umgebungen hinweg
  • Überwachung wichtiger Datenbankmetriken (Verbindungen, Locks, lang laufende Queries, Replikationsverzögerung)
  • Backup, Restore und Disaster-Recovery-Validierung
  • Wachstums- und Kapazitätsplanung für Compute- und Storage-Schichten
  • Support für Datenbank-Failover-Szenarien und Resilience-Testing
  • Deployment und Betrieb von MinIO-basierten Object-Storage-Clustern
  • Troubleshooting von S3-API-Zugriff, Authentifizierung und Kompatibilitätsproblemen
  • Überwachung der Kapazitätsnutzung, Planung von Storage-Erweiterungen und Skalierung von Clustern
  • Konfiguration von Lifecycle-Policies, Datenaufbewahrung und Archivierungsstrategien
  • Operativer Support von Software-Defined-Networking-Umgebungen mit NSX-T
  • Troubleshooting von Routing-Problemen, Overlay-Networking und segmentübergreifender Konnektivität
  • Management von Distributed-Firewall-Policies und Micro-Segmentation-Rules
  • Administration von DNS-Infrastruktur (Zonen, Records, Service Discovery)
  • Design und Support von sicheren Remote-Access-Lösungen mit Apache Guacamole und Entra ID
  • Troubleshooting von Identity-Flows, Authentifizierungsketten und Access-Control-Policies
  • Integration mit Enterprise-Identity-Providern über OIDC und Directory Services
  • 3rd-Level-Eskalationspunkt für komplexe Incidents über Infrastruktur- und Plattformdienste hinweg
  • Root-Cause-Analyse unter Verwendung von Logs, Metriken und System-Level-Diagnosen
  • Koordination der Incident-Response über mehrere technische Domänen hinweg
  • Design und Diskussion von Audit-Controls mit internen und externen Auditoren
  • Vorbereitung von Audit-Nachweisen für Plattform- und Anwendungs-Compliance
  • Integration von Security-Controls und Guardrails in automatisierte Deployment-Workflows
  • Durchführung von Proofs of Concept für neue Technologien und Plattformkomponenten
  • Bewertung von Skalierbarkeit, Resilienz, operativer Komplexität und Sicherheitslage
  • Erstellung von technischen Blueprints und Referenzarchitekturen
  • Koordination von teamübergreifenden technischen Arbeitspaketen über Operations- und Engineering-Einheiten hinweg
  • Support für Application-Onboarding auf gemeinsame Plattformdienste
  • Dokumentation von Plattformstandards, operativen Verfahren und Best Practices
  • End-to-End-Verantwortung für FCI- und Kubernetes-Cluster-Kapazitätsmanagement
  • Kontinuierliche Bewertung von Ressourcennutzung, Trends und Skalierungsanforderungen
  • Erfahrung mit SuSE Manager
  • Erfahrung mit Multi-Cluster- und Multi-Environment-Setups
  • Erfahrung mit Prometheus Operator, ServiceMonitor/PodMonitor-Ressourcen
  • Erfahrung mit DB2-zu-PostgreSQL-Migration, einschließlich Datenvalidierung und Performance-Bewertung
  • Erfahrung mit Cognos
  • Fähigkeit, tiefgreifende Root-Cause-Analysen durchzuführen, einschließlich Multi-System-Debugging
  • Fähigkeit, teamübergreifende, geschäftskritische Incidents zu bearbeiten, die umfassendes Plattformwissen erfordern
  • Fähigkeit, Verbesserungen in Plattformstabilität und Deployment-Zuverlässigkeit voranzutreiben
  • Fähigkeit, operative Modelle und CI/CD-Prozesse zu optimieren
  • Fähigkeit, Automatisierungsstrategien zu entwickeln und wiederverwendbare Module und Deployment-Templates beizutragen
  • Fähigkeit, Security-Controls in automatisierte Deployment-Workflows einzubetten
  • Fähigkeit, eng mit Software-Teams zusammenzuarbeiten, um Anwendungen auf die Plattform zu onboarden
  • Fähigkeit, Wissenstransfer- und Enablement-Sessions für Operations- und Development-Teams durchzuführen

Über uns

T-Systems Information and Communication Technology India Private Limited (T-Systems ICT India Pvt. Ltd.) ist ein zertifizierter Great Place To Work® und wird stolz für seine starke mitarbeiterorientierte Kultur und sein Engagement für exzellente Mitarbeiterbetreuung anerkannt. Als hundertprozentige Tochtergesellschaft der T-Systems International GmbH ist T-Systems India in Pune und Bangalore tätig und verfügt über ein dynamisches Team von über 4.200 Fachleuten, die weltweit hochwertige IT-Services für Konzernkunden erbringen.

T-Systems India spielt eine Schlüsselrolle in dieser globalen Vision, indem das Unternehmen integrierte End-to-End-IT-Lösungen und branchenspezifische Software liefert, um die Transformation in verschiedenen Branchen voranzutreiben, darunter Automotive, Fertigung, Logistik, Transport, Gesundheitswesen und der öffentliche Sektor.

Seit über 25 Jahren steht T-Systems International GmbH an der Spitze der digitalen Innovation, treibt den Fortschritt voran und fördert digitalen Optimismus. Als führender europäischer IT-Dienstleister und stolzer Teil der Deutschen Telekom liefert T-Systems transformative Digitalisierungsprojekte, die auf fundierter Expertise in Beratung, Cloud, KI, Cybersecurity und Konnektivität basieren.

Mit einer globalen Belegschaft von 26.000 Mitarbeitern in 26 Ländern setzen wir Branchenmaßstäbe in Effizienz, Souveränität, Sicherheit und Zuverlässigkeit – und befähigen Organisationen, ihr volles digitales Potenzial zu entfalten.

Mit einem Jahresumsatz von über 4,0 Milliarden EUR (2024) ist T-Systems einer der führenden Partner für digitale Transformation in Europa und engagiert sich für die Gestaltung der Zukunft der Unternehmenstechnologie.

Weitere Details

Betrugswarnung: Sei vorsichtig bei irreführenden Anzeigen und betrügerischer Kommunikation, die im Namen von T-Systems Angebotsschreiben gegen eine Gebühr ausstellen. Bitte achte auf eine authentische T-Systems-E-Mail-Adresse - [Confidential Information] .

Bleib wachsam. Schütze dich vor Rekrutierungsbetrug!

Um mehr zu erfahren, besuche bitte: Betrugswarnung

More Info

Job Type:
Industry:
Employment Type:

About Company

Job ID: 149093935