Extraction et identification de contenu de documents numérisés.
Reconnaissance de diverses entités nommées à partir de documents numérisés.

Missions

  • Étudier, implémenter et comparer les solutions OCR et NER existantes.
  • Prototyper une approche à partir de briques Open Source et On Premise.
  • Capitaliser sur vos travaux afin de concevoir une nouvelle offre qu’OCTO pourra proposer à ses clients.

Conditions

Type de stage : Stage de fin d'étude, stage de pré-embauche
Lieu : Paris
Rémunération : 1500 € bruts
Date : 2020

Profil

  • Vous avez des connaissances sur les concepts et approches Data Science.
  • Vous savez développer en Python et le traitement d'image et de texte vous intéresse.
  • Vous êtes motivé·e par l’exploration, l’identification et l’implémentation de solutions de l’état de l’art et par la conception de nouvelles approches.
  • Bien que focalisé·e sur les aspects Data Science, vous êtes prêt·e à présenter votre solution à divers clients d’OCTO afin de pouvoir la tester dans des cas réels.

Contexte

Étape 1 : Étude de l’état de l’art
Identifiez les approches récentes de transformation des documents numérisés en texte (OCR) et d’identification d’entités nommées (NER). Vous identifierez les indicateurs de mesure de performance et comparerez les solutions existantes afin d’identifier les approches les plus prometteuses.

Étape 2 : Expérimentations
Implémentez les approches les plus prometteuses et testez-les sur divers jeux de données afin d’évaluer leurs performances respectives.

Étape 3 : Conception et réalisation d’un prototype
Développez un prototype permettant la détection d’entités nommées sur des documents numérisés. Vous vous appuierez sur les résultats de la phase d’expérimentation afin de concevoir et réaliser un benchmark de votre solution.

Étape 4 : Partage
Partagez au sein de la communauté OCTO ce que vous aurez appris, à travers une restitution interne et un article sur le blog OCTO.

Objectifs du stage

Un nombre croissant d’entreprises exprime le besoin d’exploiter le contenu de documents numérisés (rapports, contrats, factures...).

L’objectif du stage sera de concevoir une solution permettant la reconnaissance et l'extraction d’entités nommées au sein de documents numérisés.

Encadrement

Vous effectuerez votre stage au sein de la tribu Applied Intelligence Data Science & Data Advisory (AIDA), et serez encadré·e par un Octo. Vous serez suivi·e tout au long de votre projet (entretiens hebdomadaires avec votre tuteur, soutien de l’équipe AIDA et de la communauté OCTO en cas de difficultés techniques).