Data analyst vs Data scientist : quelles différences ?

Publié le 06 novembre 2020

Temps de lecture 11 minutes

Présentée comme le métier le plus sexy du 21e siècle, la Data Science est devenue un des métiers les plus recherchés de ces dernières années. Les entreprises du monde entier mettent en avant leur prestige et des salaires attractifs pour attirer ces talents scientifiques. Cet engouement est motivé par la croissance importante du volume des données numériques qui transforment actuellement notre façon de vivre et de travailler.

Il n'est pas étonnant que de plus en plus de personnes se passionnent pour ce nouveau métier. Mais avant de s'aventurer les yeux fermés dans la science de l'analyse de données, les prétendants devraient s'informer sur les filières disponibles. Les candidats intéressés sont encouragés à commencer leur démarche en identifiant les besoins et exigences des entreprises, et à se renseigner sur les différences entre les divers sous-domaines, ainsi que sur la manière dont leur CV doit être ajusté avant de soumettre leur candidature.

Une question se pose : Quelles sont les principales différences entre Data scientist et Data analyst ? Après tout, les deux professions semblent avoir pour objectif commun d'extraire la valeur économique des données. Or, le fait de partager des similitudes n'implique pas nécessairement une équivalence...

L'objectif de cet article est d’apporter un éclairage sur les différences entre ces deux métiers. Non seulement d’un point de vue théorique, mais aussi d’un point de vue pratique, avec le retour d’expérience de Mohamed Warsame, un formateur Data et professionnel qui connaît parfaitement le fonctionnement des équipes data dans le monde réel.

Data analyst : Métier, missions, expérience professionnelle

Pour pouvoir comprendre en quoi consiste le métier de Data analyst, prenons un exemple d’annonce de poste pour un Data analyst junior :

La mission typique d’un Data analyst est centrée sur le conseil, comme le montre l'exemple de la description de poste Indeed.

La plupart du temps, il s'agit de :

  • manipuler des données provenant de feuilles de calcul Excel et de bases de données SQL,
  • extraire des conclusions pertinentes par le biais d'analyses rétrospectives, de tests A/B,
  • fournir des conseils commerciaux fondés sur des preuves.

Le dernier point illustre l’importance de la connaissance et de la maîtrise des outils de reporting et de visualisation tels que Tableau et des tableaux croisés dynamiques d’Excel. D'autre part, la modélisation des données est souvent limitée à l'apprentissage supervisé de base ou à son équivalent statistique : l'analyse de régression.

Par expérience, je peux également dire que les novices oublient parfois que l'étape consistant à fournir des recommandations est souvent la plus importante. Ils peuvent se faire avoir avec des mots à la mode et des techniques très éloignées du contexte commercial. C'est pourquoi il est primordial pour un Data analyst d’apprendre à extraire des idées qui peuvent être mises en pratique, présentées sous une forme visuellement convaincante et compréhensible. Les data analysts sont des investigateurs avertis qui savent rendre leurs idées accessibles.

Data scientist : Métier, missions, expérience professionnelle

Nous allons maintenant étudier l’exemple d’une fiche de poste de Data scientist vue sur Indeed, en analysant certaines des principales différences. La première différence notable est la longueur des rubriques "mission" et "responsabilité". Il est certain que l'on exige beaucoup plus du Data scientist moyen que du Data analyst, ce qui explique en partie pourquoi les premiers sont mieux payés que les seconds. Mais est-ce la seule raison derrière l’engouement pour ce métier ?

Un Data scientist est censé être plus qu’un magicien de l’analyse des données. Il doit également se positionner en véritable constructeur qui utilise la programmation avancée pour créer des pipelines qui prédisent et recommandent dans des environnements de production avec une précision presque parfaite. Par rapport aux analystes, qui ressemblent plus à des journalistes d'investigation, ils sont beaucoup plus orientés vers le développement de produits que vers le conseil.

Cependant, il est également demandé au Data scientist de fournir des conseils commerciaux basés sur les données. Certains pensent que l’intitulé du poste a été inventé pour montrer que le métier était au croisement de trois domaines : les mathématiques/statistiques, l'informatique et être spécialiste dans un domaine.

La citation suivante résume plutôt bien la situation : "Un data scientist doit être meilleur en statistiques que n'importe quel ingénieur informatique, et meilleur ingénieur logiciel que n'importe quel statisticien."

Data analyst vs Data scientist : les principales différences

Le Data scientist et son rapport aux volumes de données

L'augmentation des volumes de données signifie que les enjeux sont plus importants, tout comme les attentes. En effet, contrairement au Data analyst à qui l'on donnerait des feuilles de calcul de 500 000 lignes et 50 colonnes lors de leur première journée, le Data scientist se verra plutôt attribuer dès le premier jour des téraoctets de données à ranger dans des dizaines de milliers de colonnes. Tout le monde s'attend à ce qu'il fasse apparaître comme par magie la valeur et la sagesse que recèlent ces volumes de données. Livré à lui-même, il devra ingérer, transformer, explorer et modéliser d'énormes volumes de données désordonnées et déstructurées.

Comme l'ont dit certains grands auteurs sur le sujet : le Data scientist est un titre qui évoque les capacités presque mystiques d'une personne qui recueille facilement des informations à partir d’immenses data lakes (ou lac de données en français, qui est une méthode de stockage de données massives utilisée par le Big Data), quelqu'un qui a des pouvoirs surnaturels et qui serait l’Houdini des données du 21e siècle !

Le Data scientist et sa connaissance plus poussée du code

La science des données demande une connaissance du code beaucoup plus poussée. Même si le Data scientist et le Data analyst traitent tous les deux les données dans le même objectif, leurs approches et les outils utilisés diffèrent considérablement :

  • Le Data analyst travaille principalement avec le langage SQL pour copier/coller des données manipulables dans des feuilles de calcul et avec des interfaces de programmation comme R Studio et Jupyter Notebooks,
  • Le Data scientist, quant à lui, travaille plutôt dans l’environnement du cloud computing (AWS, Databricks, Hadoop, etc.). Il y ingère, traite et modélise des volumes de données dont l'ampleur fait que, de nos jours, on les appelle "Big Data".

Ceci explique pourquoi la fiche de poste d’un Data scientist inclut de longues listes d'exigences en programmation.

Les nouveaux employés des grandes entreprises héritent inévitablement de tas de scripts et d'algorithmes personnalisés, parfois non documentés, qu'ils doivent soit remplacer, soit mettre à jour. Dans ce contexte, il n'est pas étonnant que des compétences avancées en programmation soient indispensables, alors qu'elles ne sont utiles que dans quelques postes de Data analyst junior.

Le Data analyst et sa proximité avec les équipes métiers

Les Data analysts sont beaucoup plus proches des équipes métiers. En effet, les postes de Data analyst sont moins exigeants en matière de maîtrise des langages de programmation. Et comme le travail en data science est généralement entouré d'un brouillard de mystère, les employés ordinaires d'une entreprise ont tendance à préférer s'adresser aux Data analysts pour obtenir de l'aide. Ceux-ci formant un véritable pont de communication entre les équipes métiers et les Data scientists.

C'est un phénomène que j'ai souvent remarqué dans le monde des affaires : tandis que le Data scientist a tendance à être plus isolé, le Data analyst a tendance à s'impliquer et à s'engager davantage auprès des autres équipes de l’entreprise, en apportant leur aide sur différents sujets comme :

  • L’optimisation des feuilles de calcul Excel,
  • L'aide aux pitchs clients avec des teasers analytiques,
  • La participation aux performances globales de l'entreprise en fournissant des tableaux de bord...
  • En bref, le rôle du Data analyst est plutôt celui d’un consultant qui aime travailler dans un contexte macro.

Maintenant que nous avons identifié les principales différences entre ces deux métiers, regardons de plus près leurs points communs !

Data Analyst vs Data Scientist : quelles similitudes ?

En soulignant les éléments qu'ils partagent et en déterminant leurs divergences, on se rapproche d'une meilleure compréhension des deux rôles. Un blogueur Data scientist, connu sous le nom de Stephan Kolassa, a tenté de délimiter visuellement ces différences en utilisant un diagramme de Venn (entrée 2403).




Nous pouvons déduire un grand nombre de points de ce diagramme. Parmi les plus évidents : le fait que les rôles du Data scientist et du Data analyst sont étroitement liés, occupant des quadrants adjacents les uns des autres.

Cela signifie, en pratique, qu'ils devraient toujours travailler dans les mêmes équipes. Seule exception : lorsque les Data analysts sont intégrés dans des équipes de projet spécifiques dans le cadre de groupes de travail Agiles.

Mise à disposition de la donnée pour répondre aux objectifs commerciaux des entreprises

Après avoir déterminé les rôles respectifs de chacun, on se rend finalement compte que ces deux métiers mettent les données au profit d'objectifs commerciaux et ont tous deux besoin d'une expertise en matière de statistiques traditionnelles.

Des compétences élevées en communication

Le Data scientist et le Data analyst partagent aussi un quadrant communication : transmettre des informations utiles aux dirigeants d'entreprises au moyen de data stories (le fait de raconter une histoire à partir des données récoltées), ou créer des outils intuitifs qui permettent une prise de décision "data driven" (basée sur les données).

Ainsi, des compétences en communication visuelle et verbale sont exigées dans presque toutes les offres d'emploi pour les deux postes.

Une tendance de popularité croissante auprès du public

Dans le graphique ci-dessous, nous avons utilisé un script Python pour charger les données des termes de recherche Google à partir d'une source en libre accès.

Nous pouvons constater que les deux métiers ont une autre similitude. Les professions apparentées ont connu une tendance de popularité similaire ces dernières années, une tendance exponentielle même !

Si jamais vous vous êtes déjà posé la question, les données sur les tendances Google proviennent d'échantillons neutres de requêtes individuelles du moteur de recherche - anonymisées, classées et regroupées géographiquement pour mesurer l'intérêt du public pour des sujets spécifiques. En 2016, une mise à jour importante sur le traitement de ces données a été publiée, rendant accessible ces données en temps réel, peu importe les catégories de sujets. Il se trouve que j'ai des années d'expérience dans l'exploitation de ces données.

Data Analyst vs. Data Scientist – Conclusion

Finalement, nous avons examiné comment les professions de Data scientist et de Data analyst se ressemblent et s'opposent. Nous sommes parvenus à comprendre comment ils diffèrent en termes de niveau de maîtrise des langages de programmation, de volumes de données utilisés dans la modélisation, de sophistication en matière d'automatisation et de formation requise en examinant des exemples d'offres d'emploi. Mais, étonnamment, nous avons également découvert à quel point les deux professions peuvent être similaires. En fait, elles cherchent toutes deux à tirer des enseignements des jeux de données.

Que vous soyez débutant ou que vous ayez un niveau intermédiaire, vous pouvez suivre l’une des formations Data de la Wild Code School :

Grâce à elles, vous serez en mesure d’acquérir les connaissances nécessaires pour évoluer dans le monde compétitif de la data, des visualisations fantaisistes et des prédictions à l'épreuve du temps.


Sources

1) Data Scientist: The Sexiest Job of the 21st Century

2) Data science without knowledge of a specific topic, is it worth pursuing as a career?

3) Google Trends