Apprentissage par renforcement appliqué
Développement d’un véhicule autonome

Missions

  • Participer au développement d’Octonomous, l’Iron Car d’OCTO !
  • Apprendre et maîtriser le fonctionnement détaillé d’algorithmes d’apprentissage par renforcement.
  • Découvrir les méthodes et bonnes pratiques permettant de l’appliquer à un cas concret.

Conditions

Type de stage : Stage de fin d'étude, pré-embauche.
Lieu : OCTO Technology 34 avenue de l'Opéra 75002 Paris
Rémunération : 1500 € bruts
Date : Début 2019

Profil

  • Vous aimez le Machine Learning : vous plonger dans un papier de recherche plein de calculs matriciels et de dérivations de gradient ne vous fait pas peur.
  • Vous êtes à l’aise avec Python.
  • Vous aimez explorer le fonctionnement d’un système jusque dans ses tréfonds, et vous êtes motivé(e) par le fait d’appliquer le RL à un cas concret.

Contexte

Étape 1 : État de l’art

Votre objectif est de vous familiariser avec les différents algorithmes de renforcement au travers d’une étude bibliographique ainsi que des mises en application simples.

Étape 2 : Cadrage

Vous participerez à la définition de l’architecture de l’algorithme à utiliser pour l’Iron Car, et le simulateur, ainsi que des objectifs de performance précis.

Étape 3 : Réalisation (simulateur & agent de pilotage de l’Iron Car)

Vous travaillerez à la réalisation du simulateur et de l’agent en même temps dans le but d’obtenir une première version fonctionnelle (simplifiée) le plus rapidement possible, puis de se rapprocher de la réalité par itérations.

Étape 4 : Déploiement de l’algorithme sur l’Iron Car

Vous allez déployer l’algorithme sur l’Iron Car afin d’évaluer ses performances en situation réelle. L’algorithme va piloter la voiture sur circuit afin de valider ses performances !

Étape 5 : Partage de connaissances

Outre les deux présentations obligatoires, vous pourrez partager vos avancées via :

· La rédaction d’un article sur le blog OCTO
· Des présentations/discussions informelles entre Octos

Objectifs du stage

Octonomous, le modèle réduit de voiture autonome avec laquelle OCTO participe à la compétition Iron Car, est actuellement piloté par une solution à base d’apprentissage supervisé. Votre objectif sera de travailler sur une approche permettant de s’affranchir d’une coûteuse labélisation de données. Pour cela, nous vous proposons d’explorer le potentiel de l’apprentissage par renforcement, tout en définissant une méthodologie de mise en œuvre de cette technologie.

Encadrement

Vous serez encadré(e) par un consultant de la tribu Big Data Analytics chez OCTO, un expert des techniques de Machine Learning. Vous serez suivi(e) tout au long de votre projet (entretiens hebdomadaires avec votre tuteur, soutien de la communauté OCTO en cas de difficultés techniques...).