Zurück zur Übersicht
14. August 2023

Saubere Datensätze als Wegbereiter für KI-Anwendungen

Finger auf Touchscreen

Die möglichen Auswirkungen von KI- und ML-Lösungen werden von Unternehmen viel diskutiert. Es wird dabei jedoch verkannt, dass die Qualität des Outcomes Hand in Hand mit dem Dateninput geht. Warum deshalb ein Umdenken stattfinden muss und wieso ein hochwertiges Dateninventar Dreh- und Angelpunkt für sinn- und wertvolle KI- und ML-Lösungen ist, zeigen wir Ihnen in diesem Blog.

Die Fragen zu ethisch-moralischen und sicherheitstechnischen Aspekten von generativer Künstlicher Intelligenz bestimmen den öffentlichen Diskurs. Das greift jedoch zu kurz, da sich beide Aspekte ausschließlich auf die Problemdarstellung der richtigen Anwendung von KI- und ML-Apps richten. Die entscheidende Frage ihrer Qualität fällt dabei vollständig unter den Tisch. Und die hängt maßgeblich von der Qualität der Trainingsdaten ab, mit denen Algorithmen bestückt werden. Hier sitzt oftmals der Kern des Übels, da meist bis zu 80 Prozent der dafür infrage kommenden Daten unstrukturiert sind. In diesen Datensätzen verstecken sich nicht nur veraltete Dokumente und risikobehaftete Daten, sondern ebenso auch wichtige und hochwertige Informationen. Es ist daher sinnvoll und auch notwendig, diese Datenbestände vorab zu klassifizieren. Wir zeigen Ihnen auf, warum saubere Datensätze (Clean & Lean Data) unabdingbar für die Entwicklung von KI-Apps sind.

  1. Input gleich Output: Die Qualität des Outputs hängt unweigerlich mit der Qualität des Inputs zusammen. Zur KI-Entwicklung eignen sich transparente, klassifizierte, strukturierte und priorisierte Daten und Metadaten, die frei von Dubletten sind. Es gilt: Je gepflegter die Trainingsdaten sind, desto qualitativ-hochwertig ist der Anwendungsnutzen.

  2. Vermindertes Risiko gleich weniger Fallstricke: Kritische Daten und Dokumente, die aus unterschiedlichen rechtlichen Gründen keine Verwendung mehr finden dürfen, verstecken sich in jedem Datenbestand. Von personenbezogenen Daten bis hin zu Inhalten, die vor dem Stichtag einer Änderung rechtlich relevanter Vorgaben datieren, können dort lauern. Um Verfälschungen, Risiken und Strafzahlungen vorzubeugen, müssen diese Daten vorab herausgefiltert werden.

  3. Synthetische Daten nicht gleich echte Daten: Um mangelndem Datenmaterial entgegenzuwirken, setzen Data Scientists synthetische Daten ein. Im Vergleich zu Originaldaten können damit Algorithmen und Anwendungen in der Praxis jedoch nur langsamer und ineffizienter entwickelt werden.

  4. Langwierige Entwicklungszeit gleich hohe Kosten: Bei der Entwicklung von KI handelt es sich um einen iterativen Prozess, der viele Ressourcen bedarf und damit zwangsläufig zu einem teuren Unterfangen wird. Schlechter oder mangelhafter Dateninput verlängert die Entwicklungszeit und macht sie unnötig kostenintensiv. Ein sauberer Datensatz hat nicht nur relevante und sinnvolle Daten kondensiert, sondern kann zu einer Beschleunigung der Entwicklungszeit beitragen. Das kann Kosten reduzieren, eine kürzere Time-to-Market ermöglichen und entscheidend für Erfolg und Misserfolg sein.

Bei der Entwicklung von KI- und ML-Apps spielen Clean und Lean Data eine überragende Rolle. Das Herausfiltern und Strukturieren wirklich relevanter Daten, um damit die Datenqualität zu steigern, sollte immer der erste Schritt sein, um perfekte Trainingsdaten für Algorithmen zu liefern. An diesem Punkt entscheidet sich, ob die Anwendung erfolgreich sein wird oder nicht. Mit der APARAVI-Plattform sind Sie hier auf der sicheren Seite.