Lead Data Scientist Deep Learning NLP H/F
CDIColombes
UMANTIC TECHNOLOGIES
Published on 02 Septembre 2024
* Tâches à réaliser :
* Aider le commanditaire à cadrer le projet en étant force de proposition
* Accompagner techniquement des data scientists
* Requêter les bases de données du client
* Recenser et agréger les données de différentes sources
* Analyser et explorer les données
* Modéliser en s'appuyant sur des techniques de Machine Learning, Deep Learning
* Automatiser et optimiser les traitements
* Analyser les résultats produits pour s'assurer de la qualité des livrables
* Produire des data visualisations si nécessaire et en minimisant les actions de maintenance que cela impliquerait par la suite
* Restituer les résultats des travaux à l'écrit mais également à l'oral devant des commanditaires et en équipe, en apportant une plus-value dans l'analyse
* Accompagner les commanditaires dans la prise en main des livrables
* Documenter les travaux réalisés sur les aspects techniques et fonctionnels
* Capitaliser et travailler en équipe dans une démarche de boucle d'amélioration
* Utiliser les données en veillant au respect du RGPD
* Obligatoires :
* Capacité à accompagner techniquement des data scientists
* Maîtrise de Python
* Maîtrise des tâches de pré-traitement des données textuelles (parsing, expressions régulières, enrichissement (POS Tagging, dependency parsing), normalisation via lemmatisation ou stemming, correction orthographique)
* Compétences en apprentissage automatique sur des données textuelles via au moins l'un des domaines ci-dessous :
* Maîtrise des fondamentaux du Machine Learning : compréhension des concepts clés, des algorithmes et des méthodes d'évaluation
* Expertise en Deep Learning : connaissance approfondie des architectures de réseaux de neurones, notamment les RNN, LSTM, GRU, et Transformers
* Maîtrise des Frameworks de Deep Learning : expérience avec TensorFlow, PyTorch ou Keras
* Connaissance des techniques « Transfer Learning » : expérience avec des modèles LLMs pré entraînés comme CamemBERT, GPT ou Mistral et leur fine-tuning pour des tâches spécifiques
* Prompt engineering
* Capacité à restituer et communiquer efficacement les résultats des travaux menés en data science
* Appétence à l'innovation et à la veille technologique : capacité à rester à jour avec les dernières avancées en NLP
* Proactivité et dynamisme pour piloter un projet de NLP avec des acteurs de profils variés
* Encadrement d'analystes (délai, accompagnement technique, qualité)
* Expérience sur l'un ou plusieurs de ces cas d'usage :
* Classification multi-class / multi-label
* Analyse de sentiment, opinion mining
* Extraction d'entités nommées
* Segmentation de texte
* Similarité sur les données textuelles
* Génération de texte : expérience d'utilisation de LLMs notamment dans des tâches de résumé automatique, synthèse, chatbot, etc
* GitLab : connaissances de versionning et de partage de code (add, commit, push, pull, etc)
* Gestion de la donnée dans un contexte réglementaire RGPD/AI Act
* MLOps : expérience avec des outils et des pratiques pour automatiser le cycle de vie du ML y compris l'intégration continue, le déploiement continu et la surveillance des modèles
* Intégration et déploiement : capacité à intégrer ou packager des modèles entraînés pour les déployer à grande échelle
* Aisance et rigueur