Citi | thenumerix

Big Data Analytics & Pipeline Optimization

ETL Pipeline Optimization: Designed and optimized ETL processes using Azure Databricks, PySpark, and Java, improving data ingestion efficiency by 30% and ensuring seamless integration across large-scale datasets.
Advanced Data Processing: Utilized Azure Data Lake, Hadoop ecosystem tools (HDFS, Hive, Kafka), and SQL for high-performance data transformation and storage, meeting scalability requirements for financial data analytics.
Big Data Integration: Managed Azure-based data pipelines supporting in-house API integrations, enabling seamless data accessibility and analysis for end-user applications.

DevOps Integration & Automation

CI/CD Pipeline Management: Automated build, test, and deployment workflows using Azure DevOps, Jenkins, and Kubernetes, ensuring consistent delivery across Big Data Analytics applications.
Infrastructure Automation: Implemented Infrastructure as Code (IaC) using Terraform and Azure Resource Manager, automating environment setup and improving consistency in deployments.
Quality Assurance: Enhanced deployment reliability by integrating automated code checks via Maven, SonarQube, and GitBash, reducing deployment errors by 25%.

Containerization & Scalability

Containerized Applications: Deployed Java-based data analytics applications using Docker and Kubernetes, ensuring robust, scalable, and environment-consistent implementations.
Automation: Built Python and Bash scripts to streamline recurring ETL tasks, improve system monitoring, and reduce processing time by 20%.

Project Outcomes and Business Impact

Operational Efficiency: Delivered secure, scalable solutions for processing and storing sensitive financial data, supporting compliance with industry regulations.
Agile Development: Collaborated with multi-functional teams in Agile settings to accelerate feature delivery, maintaining high-quality outcomes for mission-critical analytics processes.