Data Scientist – fiche métier
Un data Scientist est un expert en « science des données ». Son travail consiste à récolter et utiliser les données disponibles sur le web (les Big Data) pour créer des solutions de pilotage dédiées à l’entreprise. C’est à partir de celles-ci qu’il pourra tirer des conclusions qui orienteront la réponse aux problématiques de l’entreprise. Explorons ensemble quel est le profil du data scientist.
Le profil du Data Scientist
Le profil du Data Scientist est complexe et nécessite des compétences avancées en informatique. Celles-ci lui permettront de modéliser les gros volumes de données. Au menu, vous trouverez des mathématiques / statistiques, apprentissage automatique, passion pour les données, savoir gérer de gros volumes de données, curiosité, capacité à communiquer, intuition et respect de la confidentialité.
La «science des données» est multidisciplinaire et demande une grande rigueur et des compétences avancées en informatique et en calcul statistiques.
Voici quelques « savoir-faire » essentiels pour exercer le métier de data scientist :
- Algèbre : Un candidat qui souhaite assumer le profil d’un data scientist doit avoir de bonnes connaissances du calcul matriciel et en géométrie de diffusion.
- Statistiques : Il est indispensable d’avoir de solides connaissances en statistiques y compris sur des sujets tels que la régression linéaire, la régression multivariée et la corrélation entre les variables.
- Programmation de niveau avancé : Il est nécessaire de maîtriser les concepts théoriques de la programmation structurée orientée vers l’objet, ainsi que les concepts connexes de complexité computationnelle pour exercer le métier de data scientist.
Le langage le plus utilisé en science des données est le Python, qui peut-être remplacé par le java, perl ou le C++. Il est également important de connaître le langage de script (bash) des systèmes Unix / Linux.
- Conception et utilisation des bases de données relationnelles : Le profil du candidat pour un poste de data scientist saura résoudre des problématiques de conception (indexation, ,normalisation ou conception physique de la base) en allant jusqu’au paramétrage et l’optimisation des requêtes SQL. La connaissance en conception et utilisation des bases de données NoSQL et NewSQL doit également être prévue.
- Connaissance des systèmes distribués (calcul distribué et calcul haute performance, HPC), qui couvrent des concepts liés aux modèles et problèmes de calcul distribué et de stockage de données distribuées.
- Machine learning : Ce domaine de compétences du data scientist comprend des algorithmes supervisés (tels que des arbres de décision, des réseaux neuronaux, des méthodes probabilistes, SVM, etc.) et des algorithmes non supervisés (groupement hiérarchique ou k-means) pour des problèmes de classification, de régression ou de clustering.
- Comprendre les différentes typologies et le cycle de vie des données : Une compétence très importante pour répondre aux problématiques demandées pour ce métier. Cela inclut les compétences liées à la capture de données (IoT, web sémantique, données ouvertes et liées, entre autres), marquées par des métadonnées ou des processus d’extraction, de transformation et de chargement (ETL, Extraction, Transformation et Chargement).
- Maîtriser les techniques et les outils de visualisation de données pour présenter les résultats de manière claire et concise. Certains des outils les plus pertinents sont le tableau, D3.js ou l’outil de modélisation Processing. L’expertise dans ces domaine technique reste un élément clé du processus d’analyse de données. Cette connaissance nous permet de comprendre les données dans toute leur profondeur et de poser les questions appropriées et pertinentes.
- La gestion du projet : comme dans tout autre projet, le data scientist doit souvent d’occuper de la gestion de son projet et s’avérer autonome.
- Confidentialité : un data scientist doit avoir les connaissances éthiques et de confidentialité nécessaires pour être en mesure de travailler correctement avec toutes les données qu’il manipule pendant l’exécution d’un projet.
Quelle formation et quelles évolutions professionnelles pour devenir data scientist ?
Avec un tel niveau de compétences, vous imaginez bien que l’on ne devient pas Data scientist du jour au lendemain.
Voici les 5 paliers dans la carrière d’un data scientist :
- Stagiaire Data Scientist : Le stagiaire va passer d’une connaissance théorique à des connaissances plus efficaces et pratiques. Il développera une méthodologie à appliquer aux problèmes de l’entreprise.
- Data Scientist Junior : Responsable de certains aspects des projets. Il travaille ses compétences techniques au sein d’une équipe multidisciplinaire avec des architectes de données, des ingénieurs de données, des analystes.
- Data Scientist : Experts-métier compétents et autonomes, les Data Scientist vont pouvoir gérer u projet et fournir des conseils techniques détaillés sur leur domaine d’expertise.
- Data Scientist Senior : Scientifiques de données expérimentés qui fournissent un soutien et des conseils aux équipes. Ils sont reconnu pour leur expérience et dirigent une équipe de data scientist juniors.
- Responsable de département en science des données : Assurer le leadership et la direction de projets multidisciplinaires en sciences des données, en gérant les ressources pour en assurer la prestation. Ils sont reconnus comme une autorité stratégique avec une expertise technique dans les méthodes de pointe, et sont responsables de la définition de la vision dans toute l’organisation.
Le salaire du Data Scientist
Comme la plupart des métiers de la science des données, les salaires du Big data connaissent un vrai boom depuis plusieurs années. Les data scientists en sot les premiers bénéficiaires. Le salaire d’un data scientist junior démarre à 45000€ par an et va bénéficier d’une belle hausse en 2018 (+15%). Malgré cela et du à la jeunesse de la profession, les entreprises peinent à recruter des data scientist vraiment qualifié.
Laisser un commentaire
Rejoindre la discussion?N’hésitez pas à contribuer !