Application d’analyse des données time series en temps réel sur AWS
Quels sont les meilleurs composants AWS à utiliser sur le cloud pour un cas d'usage "real time" ?

Missions

  • - Votre mission si vous l’acceptez !
  • - Analyser, la conception et le développement d'un pipeline réutilisable, performant le traitement de données "Time Series" sur AWS de l'ingestion à la restitution en passant par le traitement sur la base d'une architecture de streaming.
  • - Vous serez amené à utiliser des outils tels que AWS Kinesis, Glue, SageMaker, Lambda , S3...
  • - Le cas d'usage sera à définir ensemble.

Conditions

Type de stage : Stage de fin d'études
Lieu : Paris
Rémunération : 1500 € bruts
Date : 2021

Profil

  • - F/H
  • - Issu de formation supérieur en école d'ingénieur, vous aimez coder en Python (ou Scala, Java) pour analyser les données.
  • - Vous êtes curieux de découvrir les services data du cloud, notamment dans le cadre de projets de traitement de données temps réel.
  • - Vous êtes particulièrement intéressé(e) d’analyser comment en tirer partie dans le cadre d’un réel projet industriel.

Contexte

Gérer des données en temps réel est un des sujets les plus complexes du domaine de la data.
On trouve différentes approches et outils capables d’ingérer et de traiter ce type de données.

Mais quelles sont les bonnes pratiques dans un environnement Cloud en mode industrialisé?

Objectifs du stage

Etape 1 : Cadrage

- Concevoir le déroulement fonctionnel et technique du projet, de l’organisation que tu souhaites mettre en place. Il te sera demandé de formaliser le besoin, d’en déduire un plan d’actions. En coordination avec tes tuteurs de stage tu seras amené à définir plusieurs cas d’usage pour arriver à mener à bien ton stage.


Etape 2 : Etude technique et fonctionnelle
- Monter en compétences sur AWS notamment sur Glue, Kinesis, Lambda, S3.
- Comparer les outils présents sur AWS pour ce type de cas d’usage mais également des outils disponibles chez les autres fournisseurs Cloud (GCP et Azure)


Etape 3 : Prototype et application
- Développer le POC d’une application capable d’une part d’ingérer des données temps réel, de les stocker mais également de les traiter et les restituer.
- Cette application devra être fournie sous forme de package facilement déployable dans le cadre d’une autre mission.


Etape 4 : Partage
- Partager au sein de la communauté OCTO les bonnes pratiques et architecture de traitement des données en temps en réel, à travers une restitution interne et un article sur le blog OCTO.

Pour postuler : recrutement-stage@octo.com

Encadrement

Vous serez encadré(e) par un binôme de data scientist et Cloud Engineer de l’équipe INPL et serez suivi(e) tout au long de ton projet (entretiens hebdomadaires avec tes tuteurs, soutien de la communauté OCTO en cas de difficultés techniques).