Data Analyst vs Data Scientist

Publié le 06 novembre 2020

Temps de lecture 12 minutes

Présentée comme le métier le plus sexy du 21e siècle, la Data Science est devenue un des métiers les plus recherchés de ces dernières années. Les entreprises du monde entier mettent en avant leur prestige et des salaires attractifs pour attirer ces talents scientifiques. Cet engouement est motivé par la croissance importante du volume des données numériques qui transforment actuellement notre façon de vivre et de travailler.

Il n'est pas étonnant que de plus en plus de personnes se passionne pour ce nouveau métier. Mais avant de s'aventurer les yeux fermés dans la science de l'analyse de données, les prétendants devraient s'informer sur les filières disponibles. Les candidats intéressés sont encouragés à commencer leur démarche en identifiant les besoins et exigences des entreprises, et à se renseigner sur les différences entre les divers sous-domaines, ainsi que sur la manière dont leur CV doit être ajusté avant de soumettre leur candidature.

Une question se pose : Qu’est-ce qui distingue exactement les métiers de "data scientist" et "data analyst" ? Après tout, les deux professions semblent avoir pour objectif commun d'extraire la valeur économique des données. Or, le fait de partager des similitudes n'implique pas nécessairement une équivalence. 

L'objectif de cet article est d’apporter un éclairage sur les différences entre ces deux métiers. Non seulement d’un point de vue théorique, mais aussi d’un point de vue pratique, avec le retour d’expérience d’un professionnel qui connait parfaitement le fonctionnement des équipes data dans le monde réel. En effet, ce n'est un secret pour personne que les noms des postes et ce qu'ils évoquent sont une chose, et que la réalité du travail est tout autre. 

Maintenant, regardons de plus près les points communs des deux métiers avant d'explorer leurs différences.


Similitudes – Data Analysts vs. Data Scientists

En soulignant les éléments qu'ils partagent et en déterminant leurs divergences, on se rapproche d'une meilleure compréhension des deux rôles. Un blogueur Data Scientist, connu sous le nom de Stephan Kolassa, a tenté de délimiter visuellement ces différences en utilisant un diagramme de Venn (entrée 2403).



Nous pouvons déduire un grand nombre de points de ce diagramme. Parmi les plus évidents, le fait que les rôles de data scientist et de data analyst sont étroitement liés, occupant des quadrants adjacents les uns des autres. Cela signifie, en pratique, qu'ils devraient toujours travailler dans les mêmes équipes, à moins que les data analysts ne soient intégrés dans des équipes de projet spécifiques dans le cadre de groupes de travail Agiles. Finalement, tout cela est logique, n’est-ce pas ? Les deux métiers mettent les données au profit d'objectifs commerciaux et tous deux ont besoin d'une expertise en matière de statistiques traditionnelles. 

Ils partagent aussi un quadrant communication : transmettre des informations utiles aux dirigeants d'entreprises au moyen de data stories, ou créer des outils intuitifs qui permettent une prise de décision "data driven". Il est donc facile de comprendre que les data scientists et data analysts ne sont utiles que dans la mesure où ils peuvent prouver l'utilité de leur travail. C'est précisément pour cette raison que des compétences en communication visuelle et verbale sont exigées dans presque toutes les offres d'emploi pour les deux postes. Quoi qu'il en soit, pouvons-nous trouver davantage de similitudes en interrogeant la sagesse d'internet ? 

En utilisant un script Python pour charger les données des termes de recherche Google à partir d'une source en libre accès, nous pouvons constater que les deux métiers ont une autre similitude. Les professions apparentées ont connu une tendance de popularité similaire ces dernières années, une tendance exponentielle même ! Mais c'est à peu près tout en ce qui concerne les points communs, que l'on peut résumer en trois points : (1) mettre la donnée à disposition d’objectifs commerciaux, (2) une communication élevée, et (3) la popularité auprès du public.


Si jamais vous vous êtes déjà posé la question, les données sur les tendances Google proviennent d'échantillons neutres de requêtes individuelles du moteur de recherche - anonymisées, classées et regroupées géographiquement pour mesurer l'intérêt du public pour des sujets spécifiques. En 2016, une mise à jour importante sur le traitement de ces données a été publiée, rendant accessible ces données en temps réel, peu importe les catégories de sujets. Il se trouve que j'ai des années d'expérience dans l'exploitation de ces données.


Data Analyst – Description du métier

Passons maintenant aux détails qui les différencient. Pour cela, prenons quelques exemples dénichés sur Internet d’annonces de postes de data scientists et de data analysts. Pour un poste junior on peut lire ceci :


La mission typique d’un data analyst est centrée sur le conseil, comme le montre l'exemple de la description de poste Indeed. La plupart du temps, il s'agit de manipuler des données provenant de feuilles de calcul Excel et de bases de données SQL, d'extraire des conclusions pertinentes par le biais d'analyses rétrospectives, de tests A/B et, de manière générale, de fournir des conseils commerciaux fondés sur des preuves. Le dernier point illustre l’importance de la connaissance et de la maîtrise des outils de reporting et de visualisation tels que Tableau et des tableaux croisés dynamique d’Excel. D'autre part, la modélisation des données est souvent limitée à l'apprentissage supervisé de base ou à son équivalent statistique : l'analyse de régression.

Par expérience, je peux également dire que les novices oublient parfois que l'étape consistant à fournir des recommandations est souvent la plus importante. Ils peuvent se faire avoir avec des mots à la mode et des techniques très éloignées du contexte commercial. C'est pourquoi il est primordial pour les data analysts d’apprendre à extraire des idées qui peuvent être mises en pratique, présentées sous une forme visuellement convaincante et compréhensible. Les data analysts sont des investigateurs avertis qui savent rendre leurs idées accessibles.


Data Scientist –  Description du métier

Nous allons maintenant étudier l’exemple d’une fiche de poste de data scientist vu sur Indeed, en analysant certaines des principales différences. La première différence notable est la longueur des rubriques "mission" et "responsabilité". Il est certain que l'on exige beaucoup plus du data scientist moyen que du data analyst, ce qui explique en partie pourquoi les premiers sont mieux payés que les seconds. Mais est-ce la seule raison derrière l’engouement pour ce métier ?


C’est pour cette raison que les data scientists sont censés être plus que des magiciens de l'analyse. Ils sont censés être des constructeurs qui utilisent la programmation avancée pour créer des pipelines qui prédisent et recommandent dans des environnements de production avec une précision presque parfaite. Par rapport aux analystes, qui ressemblent plus à des journalistes d'investigation, ils sont beaucoup plus orientés vers le développement de produits que vers le conseil. Même s'il est également demandé aux data scientists de fournir des conseils commerciaux basés sur les données. Certains pensent que l’intitulé du poste a été inventé pour montrer que le métier était au croisement de trois domaines : les maths/statistiques, l'informatique et être spécialiste dans un domaine. La citation suivante résume plutôt bien la situation : "Un data scientist doit être meilleur en statistiques que n'importe quel ingénieur informatique, et meilleur ingénieur logiciel que n'importe quel statisticien."


Différences – Data Analysts vs. Data Scientists

L'augmentation des volumes de données signifie que les enjeux sont plus importants, tout comme les attentes. En effet, contrairement aux analysts à qui l'on donnerait des feuilles de calcul de 500 000 lignes et 50 colonnes lors de leur première journée, les data scientists se verront plutôt attribuer dès le premier jour des téraoctets de données à ranger dans des dizaines de milliers de colonnes. Tout le monde s'attend à ce qu'ils fassent apparaître comme par magie la valeur et la sagesse que recèlent ces volumes de données. Livrés à eux-mêmes, ils devront ingérer, transformer, explorer et modéliser d'énormes volumes de données désordonnées et déstructurées. Comme l'ont dit certains grands auteurs sur le sujet : "Data scientist" est un titre qui évoque les capacités presque mystiques d'une personne qui recueille facilement des informations à partir d’immenses data lakes, quelqu'un qui a des pouvoirs surnaturels et qui serait l’Houdini des données du 21e siècle ! 

La science des données demande une connaissance du code beaucoup plus poussée. Même si les data scientists et data analysts traitent les données dans le même objectif, leurs approches et les outils utilisés diffèrent considérablement. Alors que les data analysts travaillent principalement avec le langage SQL pour copier/coller des données manipulables dans des feuilles de calcul et avec des interfaces de programmation comme R Studio et Jupyter Notebooks, on attend des data scientists qu'ils soient à l'aise pour travailler dans l’environnement du cloud computing (AWS, Databricks, Hadoop, etc.). 

Ils y ingèrent, traitent et modélisent des volumes de données dont l'ampleur fait qu’aujourd’hui on les appelles "big data". Il est donc facile de comprendre pourquoi les fiches de poste des data scientists incluent de longues listes d'exigences en programmation. Les nouveaux employés des grandes entreprises héritent inévitablement de tas de scripts et d'algorithmes personnalisés, parfois non documentés, qu'ils doivent soit remplacer, soit mettre à jour. Dans ce contexte, il n'est pas étonnant que des compétences avancées en programmation soient indispensables, alors qu'elles ne sont utiles que dans quelques postes de data analysts junior.

Les data analysts sont beaucoup plus proches des équipes métiers. En effet, comme nous l'avons découvert dans notre analyse des différences entre ces deux métiers, les postes de data analysts sont moins exigeants en matière de maîtrise des langages de programmation. Et comme le travail en data science est généralement entouré d'un brouillard de mystère, les employés ordinaires d'une entreprise ont tendance à préférer s'adresser aux data analysts pour obtenir de l'aide. Ceux-ci formant un véritable pont de communication entre les équipes métiers et les data scientists.

C'est un phénomène que j'ai souvent remarqué dans le monde des affaires : les data scientists ont tendance à être plus isolés. Les data analysts, en revanche, ont tendance à s'impliquer et à s'engager davantage auprès des autres équipes de l’entreprise, en apportant leur aide sur différents sujets comme l’optimisation des feuilles de calcul Excel, l'aide aux pitchs clients avec des teasers analytiques et la participation aux performances globales de l'entreprise en fournissant des tableaux de bord. Ainsi, si le lecteur de cet article est plutôt un consultant qui aime travailler dans un contexte macro, un poste de data analyst serait infiniment plus satisfaisant. En bref, l'herbe n'est pas toujours plus verte ailleurs.


Data Analysts vs. Data Scientists – Conclusion

Au final, nous avons examiné comment les professions de data scientist et de data analyst se ressemblent et s'opposent. Nous sommes parvenus à comprendre comment ils diffèrent en termes de niveau de maitrise des langages de programmation, de volumes de données utilisés dans la modélisation, de sophistication en matière d'automatisation et de formation requise en examinant des exemples d'offres d'emploi. Mais, étonnamment, nous avons également découvert à quel point les deux professions sont similaires. En fait, elles cherchent toutes deux à tirer des enseignements des jeux de données.

Suivez l’une de nos formations Data à la Wild Code School et armez-vous des connaissances nécessaires pour évoluer dans le monde compétitif de la data, des visualisations fantaisistes et des prédictions à l'épreuve du temps. Si vous êtes débutant, nous vous proposons notre programme adapté de remise à niveau. Si votre niveau de compétence est intermédiaire, nous vous permettrons d'accéder au plus haut niveau grâce à notre programme Data Science. La Wild Code School propose des programmes à suivre dans nos campus et à distance, dispensés par les meilleurs formateurs !


References

1) https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century

2) https://datascience.stackexchange.com/questions/2403/data-science-without-knowledge-of-a-specific-topic-is-it-worth-pursuing-as-a-ca

3) https://trends.google.com/trends/?geo=US