Deutschenglish

Management und Controlling von Data Science Projekten

Management und Controlling von Data Science Projekten
Interner Betreuer: Matthias Pohl, Christian Haertel

Data Science verfolgt das Ziel, mit Hilfe strukturierter Analysen Wissen aus Daten zu extrahieren, was u. a. verbesserte Leistungsfähigkeit für Unternehmen und anderweitige Organisationen verspricht (Martinez 2017). Beispielsweise bauen e-Commerce-Firmen wie Amazon aus Nutzerdaten entsprungenem Marktwissen Produktempfehlungssysteme (recommenders), um zusätzliche Absätze zu erzeugen und auf Kundenverhalten schnell reagieren zu können (Chen et al. 2012). Egal ob in Politik, öffentlicher Sicherheit, Medizin oder Geologie: in vielen Sektoren kann das aus Daten extrahierte Wissen nützliche Erkenntnisse und Fortschritt bereithalten (Chen et al. 2012). Aufgrund dieser zahlreichen Möglichkeiten sowie der täglich steigenden Menge an generierten und gesammelten Daten ist eine zunehmende Wichtigkeit dieser Disziplin festzustellen. Dass IT-basierte Projekte nicht selten komplett scheitern oder zumindest ihr Produkt verspätet bzw. in beschränktere Ausprägung ausliefern, unterstreicht die Anforderung an ein angemessenes Projektmanagement für derartige Vorhaben (Aichele und Schönberger 2014, S. 17–18). Insbesondere das Projektcontrolling inklusive der Kosten- und Nutzenbetrachtung des Ganzen repräsentiert für das jeweilige Unternehmen essentielle Parameter bei der Entscheidung. Data Science- Projekte, die auf Grundlage der zuvor genannten zahlreichen Anwendungsmöglichkeiten in der Zahl zunehmen (Martinez 2017), sollte in dieser Hinsicht aufgrund der besonderen Charakteristika eine eigenständige Behandlung gewidmet werden. Dies wird u. a. durch die Entwicklung von Referenzmodellen (z. B. CRISP-DM, ASUM-DM, TDSP) fuür den außerordentlichen DS-Prozess untermalt, welche versuchen diesen in wiederkehrende Phasen mit festgelegten Aufgeben zu unterteilen (Chapman et al. 2000; Provost und Fawcett 2013). Dieser Fakt veranschaulicht, dass DS-Projekte einen Sonderstatus auch im Bereich des Projektmanagements rechtfertigen. Allerdings scheinen die bestehenden Ansätze entweder keine Anwendung zu finden oder keinesfalls qualitativ ausreichend zu sein, da gemäß einer Studie Data-Science- Projekte zu einem hohen Prozentsatz nicht das gewünschte Ergebnis bringen bzw. scheitern (VentureBeat 2019). Untermalt wird dies von Martinez et al., die u. a. Schwächen im Team- und Projektmanagement bei Data-Science-Projekten ausmachen (Martinez et al. 2021). Daher verspricht die Entwicklung eines solchen Vorgehensmodells, das diese Unzulänglichkeiten auszumerzen gedenkt, Relevanz für diverse Unternehmen, die die Durchführung derartiger Projekte anstreben, sowie für die entsprechenden Forschungsfelder.

Mithilfe bestehender Vorgehensmodelle aus IT-Projektmanagement, IT-Controlling und DS-Literatur soll eine Vorlage zur Projekt-Initiierung und zum Projekt-Controlling für Data Science-Anwendungen/Projekte entwickelt werden, die für anwendende Unternehmen bzw. Organisationen entsprechend genutzt werden kann und zur Verbesserung der Erfolgsrate von Data Science-Projekte beitragen kann. Für eine konkrete Projektplanung ist es zunächst hilfreich, die allgemeinen Aufgaben in einem Data Science-Vorhaben zu identifizieren. Dies lässt sich mit einer Literaturanalyse der bestehenden Prozessmodelle auf diesem Gebiet durchführen. Mithilfe dieser groben Phaseneinteilung (Business Understanding, Datensammlung und –vorbereitung, Analyseverfahren, Evaluation, Deployment und Betrieb) werden die controlling- und managementspezifischen Aspekte solch eines Projekts vereinfacht, da sich aus den einzelnen Tasks die benötigten Ressourcen direkt ableiten lassen. Beispielsweise lassen sich so für die Aufwandsschätzung für die jeweiligen Aufhaben Kostenfaktoren erkennen, für die dann jeweils eine nachvollziehbare Ermittlungsanleitung bereitgestellt wird. Ein weiterer Baustein des Artefakts ergeben Projektmanagement- bzw. Projektcontrollingtemplates. Dies sind einheitlich Dokumentvorlagen, welche für die verschiedenen Phasen des Projektes zu erstellen sind. Als Beispiel wären die Berichte zur Beschreibung der Daten zu nennen, welche detaillierte Auskunft zu den im Data Science-Projekt verwendeten Datensätzen geben.

Eine Evaluation des Artefakts erfolgt im ersten Schritt unter Nutzung von öffentlich zugänglichen Anwendungsprojekten bzw. Use Cases wie Predictive Maintenance oder Fraud Detection auf verbreitete IT-Systemlandschaften (z. B. Google Cloud Platform). Dafür könnte auch die KNIME Analytics Platform, eine Open Source-Software zur Erstellung von Data Science-Projekten in Form von intuitiven Workflows herangezogen werden.