Synthetische Daten als AI-Enabler für Unternehmen

Nachdem wir uns im letzten Beitrag (LinkedIn) intensiv mit Voraussetzungen, Vorteilen und Herausforderungen bei künstlicher Intelligenz (KI) beschäftigt haben, wollen wir uns heute einem besonderen Anwendungsfeld widmen: Eine Herausforderung von KI ist, dass die Qualität des Ergebnisses von der Menge und Qualität der zugrundeliegenden Trainingsdaten abhängig ist. Das beste KI-Modell ist also ohne ausreichende Trainingsgrundlage wertlos. Umso interessanter ist es, sich eine Möglichkeit anzuschauen, ausreichend viele Daten in benötigter Qualität bereitzustellen – selbst wenn Daten im eigenen Unternehmen noch nicht oder nur in geringem Umfang produziert werden: synthetische Daten.

KI braucht viele Trainingsdaten, um Muster zu erlernen, besser zu werden – und so einen wirklichen Mehrwert zu generieren. Eine große Herausforderung kann es sein, ausreichend Daten in benötigter Güte bereitzustellen, um den benötigten Trainingseffekt zu erzielen. Insbesondere in sicherheitskritischen Bereichen, wie beispielsweise dem autonomen Fahren, lassen sich Daten, die zu Reaktionen auf potentielle Zusammenstöße führen sollen, kaum im Praxisbetrieb erheben. Doch auch in jungen Unternehmen und in Firmen mit innovativen Produktionstechnologien, bei denen noch kaum Produktionsdaten erzeugt wurden, können synthetische Daten eine Rolle spielen; ebenso wie in Bereichen mit hohen Datenschutzstandards wie zum Beispiel im Gesundheitswesen. Umso wichtiger sind in solchen Fällen künstlich erzeugt Testdaten, mit denen ein System bestmöglich auf den Einsatz im Realbetrieb und das Sicherstellen höchster Qualitätsstandards vorbereitet wird. Neben rein synthetischen Daten sind auch teilweise synthetische Daten erzeugbar, indem Originaldaten um künstlich hinzugefügte Informationen ergänzt werden.

Synthetische Daten können insbesondere auf zwei unterschiedliche Weisen generiert werden: Eine Möglichkeit ist, einem mathematischen Modell die Struktur und Gesetzmäßigkeiten der Originaldaten beizubringen und dieses Modell entsprechend geartete Daten reproduzieren zu lassen. Eine andere Option ist, synthetische Daten direkt aus realen Daten zu gewinnen. Unter Einsatz von künstlicher Intelligenz und maschinellen Lernens werden Verteilungshäufigkeiten, Beziehungen und Strukturen innerhalb eines Sets an Originaldaten analysiert, von der KI gelernt und als Grundlage zur Erzeugung neuer Datensets genutzt.

Von einem praktischen Einsatz solcher synthetischer Daten im größeren Stil hat Bosch berichtet: Nach eigenen Angaben war es möglich, mithilfe einer KI-Lösung aus einer nur zweistelligen Anzahl an Originalbildern 15.000 synthetische Trainingsbilder zu erzeugen. Diese werden dann von einem weiteren KI-gestützten Qualitätssicherungssicherungssystem zu Lernzwecken genutzt, um später fehlerhafte Teile zu erkennen und auszusortieren. Das Potential für zukünftige Kosteneinsparungen wird folglich als enorm hoch angesehen.[1]

Welche Vorteile bieten also synthetische Daten? Zunächst sind synthetische Daten in vielen denkbaren Anwendungsfällen entweder günstiger oder sicherer zu erzeugen als unter realen Bedingungen. Die Anzahl fehlerhaft produzierter Teile, die als Trainingsgrundlage für eine KI dienen könnte, kann leicht den Fortbestand eines Unternehmens gefährden. Auch ist es problemlos möglich, Gefahrensituationen oder Entscheidungen, die im Zweifel über Leben und Tod entscheiden, gefahrlos nachzustellen und in ausreichendem Maße zu trainieren. Zusätzlich können in der Realität nur selten auftretende Extremereignisse, die normalerweise zu schlechten Trainingseffekten führen würden, in künstlichen Datensets multipliziert werden. Zudem gibt es bei künstlich erzeugten Daten keine Probleme mit Datenschutz und Anonymität: Diese sind insbesondere bei sensiblen Daten, die z.B. die Gesundheit, die Genetik betreffen, von Vorteil oder zum Schutz von persönlichen oder betrieblichen Daten vor Cyberkriminellen. Zuletzt kann der Aufwand im Umgang mit Daten deutlich reduziert werden: Während es bei der Nutzung von Originaldaten notwendig ist, sogenannte Labels zu setzen, die eine KI auf Fehler in Produkten zu Lernzwecken hinweisen, fällt diese Arbeit bei synthetischen Daten weg, da die Daten bereits inklusive solcher Labels erzeugt werden können.

Doch nicht jedes Unternehmen hat die technischen und finanziellen Möglichkeiten von Bosch. Der Aspekt, wie synthetische Daten entweder selbst produziert oder über spezialisierte Anbieter eingekauft werden können, ist deshalb entscheidend. Hier unterstützen wir Sie mit unserem Fachwissen und unseren Kontakten gerne. Doch wir fangen auch bereits einen Schritt vorher an und überlegen gemeinsam mit Ihnen, ob oder in welchem Anwendungsfeld sich der Einsatz synthetischer Daten bei Ihnen lohnen könnte. Denn bei allen Vorteilen, die synthetische Daten bieten; eine Unsicherheit bleibt: Auch wenn sich zahlreiche denkbare Fallkonstellationen in künstlich erzeugten Daten abbilden lassen können – an die Komplexität der realen Welt reichen sie selten heran. Doch auch hier können in Kombination mit generativer KI Fortschritte erzielt werden – wobei wir sie selbstverständlich mit unserem Expertenteam unterstützen.