Die Datenwissenschaft ist eines der attraktivsten Berufsfelder des 21. Jahrhunderts geworden. Das Feld umgibt mittlerweile ein Hype, der sonst nur von Promis ausgelöst wird. Unternehmen weltweit werben mit lukrativen Gehältern, Prestige und dem Privileg, Einfluss zu nehmen, um analytische Talente zu gewinnen. Hinter all dem Hype steht die wachsende Bedeutung digitaler Daten, die unsere Lebens- und Arbeitsweise derzeit verändern.
Kein Wunder, dass immer mehr Begeisterte in dieses neue Feld einsteigen wollen. Doch bevor man sich sehenden Auges in die Datenwissenschaft und -analyse stürzt, sollte man sich als Einsteiger*in erst einmal über die Wege informieren, die man einschlagen kann. Interessierte Kandidat*innen sollten sich zunächst über Einstiegspunkte und Anforderungen informieren, mehr darüber erfahren, wie sich die verschiedenen Daten-Teilbereiche voneinander unterscheiden und ihren Lebenslauf verfeinern, bevor sie sich auf Jobsuche begeben.
Verfolgt man diese Idee weiter, stellt sich natürlich irgendwann eine Frage: Was genau unterscheidet Data scientists (Datenwissenschaftler*innen) und Data analysts (Datenanalyst*innen) voneinander? Immerhin scheinen beide Berufe die Aufgabe zu haben, aus Daten Geschäftswert zu ziehen. Logisch denkende Lesende wissen vielleicht schon, dass Gemeinsamkeiten nicht gleichbedeutend mit Ersetzbarkeit sind. Das eine kann sich mit dem anderen ergänzen, da beide gemeinsam auf ein Ziel hinarbeiten. Viele Phänomene da draußen in der Wildnis ähneln sich in einigen Bereichen und unterscheiden sich in anderen stark.
Das Ziel dieses Artikels ist es, diese Unterschiede aufzuzeigen. Das tun wir nicht nur in der Theorie. Aus der Sicht von Mohamed Warsame, einem erfahrenen Profi und Data Trainer, sehen wir, wie Datenteams in der Praxis arbeiten.
Data analyst: Karriere, Stellenbeschreibung, Durchschnittsgehalt, berufliche Fähigkeiten...
Es ist wichtig, vollständig zu verstehen, was die Rolle eines Data analyst ist. Werfen wir also einen Blick auf eine repräsentative Stellenbeschreibung für Data analysts, die aus einer Stellenanzeige stammt! Eine Beschreibung für einen Einstiegsjob sieht wie folgt aus:
Die typische Datenanalyse-Rolle ist beratungszentriert, wie man am Beispiel der Indeed-Stellenbeschreibung sehen kann.
Mit folgenden Dingen sind sie größtenteils beschäftigt:
- Verarbeitung von Daten aus Excel-Tabellen und SQL-Datenbanken,
- Extrahieren aufschlussreicher Schlussfolgerungen über retrospektive Analysen und A/B-Tests,
- Generelle Bereitstellung von evidenzbasierter Geschäftsberatung.
Der letzte Punkt verdeutlicht, warum Reporting-Routinen mit Visualisierungstools wie Tableau ebenso wichtig sind wie Pivot-Tabellen. Die Datenmodellierung hingegen beschränkt sich oft auf grundlegendes überwachtes Lernen oder sein statistisches Äquivalent: die Regressionsanalyse.
Aus Erfahrung kann ich auch sagen, dass Neulinge manchmal vergessen, dass die Phase der Bereitstellung von Empfehlungen immer die wichtigste ist. Sie können sich von Buzzwords und trendigen Techniken, die weit vom geschäftlichen Kontext entfernt sind, ablenken lassen. Deshalb ist es so wichtig, dass Data analysts lernen, wie man Erkenntnisse gewinnt, auf die man reagieren kann und die in visuell ansprechenden und verständlichen Formaten präsentiert werden können. Die Rolle des Data analyst ist die eines/einer technisch versierten investigativen Reporter*in, der/die Erkenntnisse zugänglich macht.
Data scientist: Karriere, Stellenbeschreibung, Durchschnittsgehalt, berufliche Fähigkeiten...
Wenden wir uns nun einem ähnlichen Beispiel einer Datenwissenschaften-Rolle auf Indeed zu und untersuchen wir einige der wichtigsten Unterschiede. Der erste auffällige Unterschied ist die Länge der Abschnitte "must have" und Rollenverantwortung. Sicherlich wird von einem/einer durchschnittlichen Data scientist*in viel mehr verlangt als von einem Data analyst, was zum Teil erklärt, warum erstere mehr verdienen als letztere. Aber steckt hinter dem Hype auch Substanz oder ist Datenwissenschaften lediglich ein moderner Mythos?
Um fair zu sein, wird von Data scientists aus diesem Grund erwartet, dass sie mehr als analytische Assistenz leisten (sie müssen also mehr analytische Fähigkeiten haben!). Diese Fachleute sollen Entwickler*innen sein, die fortschrittliche Programmierung einsetzen, um Pipelines zu erstellen, die dank prädiktiver Modelle in Produktionsumgebungen mit nahezu perfekter Genauigkeit Vorhersagen und Empfehlungen abgeben.
Im Vergleich Data analysts, die eher wie investigative Reporter*innen arbeiten, ist ein*e Data scientist*in viel mehr auf Produktentwicklung als auf Beratung ausgerichtet. Allerdings wird von Data scientists auch eine datengestützte kommerzielle Beratung verlangt.
Manche sagen, dass der Titel geprägt wurde, um zu verdeutlichen, dass die Rolle ein Zusammenfluss von drei Bereichen ist: Mathe und statistisches Wissen, Informatik und Fachwissen. Das folgende Zitat soll das am besten auf den Punkt bringen: "Ein/e Data scientist*in ist jemand, der besser in Statistik ist als jeder/e Software-Ingenieur*in, und besser in Softwareentwicklung als jeder/e Statistiker*in. ist"
Data analyst vs Data scientist: Was sind die Hauptunterschiede?
Data scientists und Datenmengen
Größere Datenmengen bedeuten, dass mehr auf dem Spiel steht. Folglich sind auch die Erwartungen höher. Denn im Gegensatz zu Data analysts, die an ihrem ersten Arbeitstag Tabellen mit durchschnittlich 500 Tausend Zeilen und 50 Spalten erhalten, werden Data scientists wahrscheinlich schon am ersten Tag die Schlüssel zu Terabytes von Daten mit Zehntausenden von Spalten in die Hand gedrückt bekommen. Jeder würde dann von ihnen erwarten, dass sie auf magische Weise die Perlen der Erkenntnis und Weisheit aus diesen Datenmengen hervorzaubern. Wenn man sie sich selbst überlässt, wird von ihnen erwartet, dass sie enorme Mengen ungeordneter und unstrukturierter Daten aufnehmen, umwandeln, untersuchen und modellieren. Wie einige witzige Schreiber*innen auf Medium gesagt haben: "Data scientist*in ist ein Titel, der fast mystische Fähigkeiten einer Person heraufbeschwört, die mit Leichtigkeit Erkenntnisse aus tiefen Datenseen sammelt, jemand, der übernatürliche Hände für Daten hat wie ein Houdini des 21. Jahrhunderts!"
Data scientists und Programmierkenntnisse
Datenwissenschaft ist sehr viel programmierintensiver. Auch wenn ein/e Data scientist*in und ein/e Data analyst*in Daten mit dem gleichen und bekannten Ziel vor Augen beschaffen, unterscheiden sich ihre Ansätze und die verwendeten Werkzeuge erheblich:
- Ein/e Data analyst*in arbeitet hauptsächlich mit SQL-Dialekten, um überschaubare Datenpakete in Tabellenkalkulationen und Programmierschnittstellen wie R Studio und Jupyter Notebooks einzufügen.
- Von einem/r Data scientist*in wird erwartet, dass er/sie mit der Arbeit in Cloud-Computing-Umgebungen (AWS, Databricks, Hadoop usw.) vertraut ist.
Dort nehmen sie Datenmengen auf, verarbeiten und modellieren sie, deren Ausmaß oft als Big Data bezeichnet wird. In Anbetracht dessen ist es leicht zu verstehen, warum Jobs in der Datenwissenschaft diese lächerlich langen Listen von Tech-Stack-Anforderungen mit sich bringen. Neue Mitarbeiter*innen in größeren Organisationen erben unweigerlich einen Haufen manchmal undokumentierter Legacy-Skripte und benutzerdefinierter Algorithmen, die sie entweder ersetzen oder warten müssen. Vor diesem Hintergrund ist es nicht verwunderlich, dass fortgeschrittene Programmierkenntnisse ein Muss sind, während sie in den meisten Einstiegspositionen für Data analysts nur ein "Nice to have" sind.
Data analysts und Business Stakeholder
Data analysts sind viel mehr mit den Stakeholdern des Unternehmens verbunden. Denn wie wir in unserer langen Darstellung der Unterschiede herausgefunden haben, sind Datenanalysejobs in Wirklichkeit weniger programmierintensiv, was einen etwas subtileren Punkt offenbart. Der/die aufmerksame Beobachter*in der Tech-Welt würde bestätigen, dass technische Komplexität fast immer mit Barrieren einhergeht. Sie schaffen Lücken zwischen entscheidungsbefugten Stakeholdern und praktischen Ingenieur*innen und Wissenschaftler*innen. Das wiederum ist der Raum, den Produktmanager*innen füllen, um die Lücke in der Kommunikation zu überbrücken. Und da die Arbeit der Datenwissenschaft üblicherweise von einem Nebel von Geheimnissen umgeben ist, neigen normale Mitarbeiter*innen einer Firma dazu, sich lieber an Analyst*innen zu wenden, um Hilfe zu erhalten.
Es ist ein Phänomen, das mir in der Geschäftswelt häufig aufgefallen ist: Ein/e Data scientist*in neigt dazu, eher in Silos zu arbeiten. Ein/e Data analyst*in hingegen ist eher in andere Geschäftsbereiche involviert und engagiert und hilft gerne bei Themen wie:
- Excel-Tabellen reparieren,
- Unterstützung von Kundengesprächen mit analytischen Anreißern,
- Beitrag zur allgemeinen Unternehmensleistung mit Dashboards.
Wir sehen hier, dass die Position eines/r Data analyst*in eher die eines/r Berater*in ist, der/die im Mikrokontext etwas bewirken möchte.
Nachdem wir nun die Hauptunterschiede zwischen diesen beiden Berufsgruppen identifiziert haben, können wir einen Blick auf die Gemeinsamkeiten werfen!
Data analyst vs Data scientist: Was sind die wichtigsten Gemeinsamkeiten?
Indem wir die wenigen Aspekte, die sie gemeinsam haben, bestätigen und skizzieren, wo sie divergieren, kommen wir dem besseren Verständnis beider Rollen näher. Ein Datenwissenschaft-Stack-Exchange-Blogger, der sich als Stephan Kolassa registriert hat, hat versucht, die Unterschiede mit Hilfe eines Venn-Diagramms visuell abzugrenzen (Eintrag 2403).
Aus diesem Diagramm lässt sich eine Fülle von bemerkenswerten Punkten ableiten. Zu den eher offensichtlichen gehört, dass die Rollen des/r Data scientist*in und des/r Data analyst*in eng miteinander verwandt sind und die Quadranten nebeneinander belegen. Das bedeutet in der Praxis, dass sie immer in denselben Geschäftsbereichen arbeiten sollten. Es sei denn, der/die Data analyst*in ist an bestimmte Projektteams als Teil von Squads in agilen Frameworks gebunden.
Bereitstellung von Dateneinblicken zum kommerziellen Vorteil
Nachdem wir nun die jeweiligen Rollen dieser Fachleute geklärt haben, erkennen wir, dass beide Daten im Dienste von Geschäftszielen verwenden und beide Fachkenntnisse in traditioneller Statistik benötigen.
Gute Kommunikationsfähigkeiten
Es gibt auch diesen Quadranten der Kommunikation, den ein/e Data scientist*in und ein/e Data analyst*in gemeinsam haben: die Vermittlung nützlicher Erkenntnisse an Führungskräfte durch Datengeschichten (eine Geschichte durch die Interpretation von Daten erzählen) oder die Erstellung intuitiver Werkzeuge, die eine "datengesteuerte" Entscheidungsfindung ermöglichen.
Das ist der Hauptgrund, warum Sie in fast jeder Stellenausschreibung für beide Jobs sowohl visuelle als auch verbale Kommunikationsfähigkeiten gefordert finden.
Eine wachsende Beliebtheit in der Öffentlichkeit
In der folgenden Grafik haben wir ein Python-Skript verwendet, um Daten zu Google-Suchbegriffen aus einer frei verfügbaren Quelle zu laden.
Wir können sehen, dass die beiden Berufsrollen noch eine weitere Gemeinsamkeit haben. Die verwandten Berufe sind in den letzten Jahren explosionsartig beliebter geworden.
Übrigens, falls du dich jemals gewundert hast: Google Trends Daten stammen aus unverfälschten Stichproben einzelner Suchmaschinenanfragen - anonymisiert, kategorisiert und geografisch gruppiert, um das öffentliche Interesse an bestimmten Themen zu messen. Eine große Erweiterung dieser Daten wurde 2016 veröffentlicht und macht das Sentiment über alle Themenkategorien hinweg in Echtzeit verfügbar. Zufällig habe ich jahrelange Erfahrung mit der Nutzung dieser Daten.
Data analyst vs Data scientist – Abschließende Worte
Wir haben untersucht, wie sich die Berufe des/r Data scientist*in und des/r Data analyst*in unterscheiden und voneinander abgrenzen. Wir haben uns ein Bild davon gemacht, wie sie sich in der Programmierintensität, dem Datenvolumen, das für die Modellierung verwendet wird, dem Grad der Automatisierung und dem erforderlichen Ausbildungshintergrund unterscheiden, indem wir uns Beispiele für Stellenanzeigen angesehen haben. Da haben wir natürlich Unterschiede erwartet. Aber überraschenderweise haben wir auch erkannt, wie ähnlich sich die beiden verwandten Berufe tatsächlich sind. Im Grunde geht es bei beiden darum, Erkenntnisse aus Datensätzen zu gewinnen.
Egal, ob du technisch neugierig bist, gerade erst anfängst oder bereits Erfahrung hast, du kannst unseren kostenlosen Vorbereitungskurs zum/r Data analyst*in ausprobieren oder dich für unseren Intensivkurs Data analytics anmelden, um dich mit dem Werkzeug auszustatten, das in der wettbewerbsorientierten Welt der tabellarischen Daten, ausgefallenen Visualisierungen und bombensicheren Vorhersagen benötigt wird.

Referenzen
1) https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century