Echte Daten sind rar, teuer und oft mit rechtlichen Einschränkungen verbunden – doch Künstliche Intelligenz benötigt immer größere Datenmengen. Synthetische Daten können diese Lücke in der KI schließen. Denn sie liefern Szenarien, die in der Realität kaum erfassbar sind, und schonen zugleich vertrauliche Informationen.
Daten sind der grundlegende Baustein für Künstliche Intelligenz. Denn ohne sie können KI-Modelle weder lernen noch verlässlich Entscheidungen treffen.
Mit Daten erhalten KI-Modelle Beispiele, aus denen ihre Algorithmen wiederum Muster, Zusammenhänge und Regeln ableiten. Je vielfältiger, umfangreicher und qualitativ hochwertiger die Daten sind, desto präziser und robuster wird die KI.
KI-Systeme können beispielsweise mit rein realen Daten entwickelt werden. Doch auch synthetische Daten werden in vielen Bereichen der KI immer wichtiger. Denn sie können Probleme lösen, die mit realen Daten schwer oder gar nicht zu handhaben sind.
Synthetische Daten werden für KI immer wichtiger
KI-Systeme sind nicht grundsätzlich auf synthetische Daten angewiesen. In vielen Feldern sind sie jedoch inzwischen unverzichtbar. Denn sie können Lücken füllen, um Modelle robuster zu machen und auch den Datenschutz einzuhalten.
Vor allem Daten aus den Bereichen Gesundheit und Finanzen sowie personenbezogene Daten dürfen nicht einfach für das KI-Training eingesetzt werden. Synthetische Daten bieten deshalb ein großes Maß an Datenschutz, weil sie keine echten Personen betreffen und so datenschutzrechtliche Probleme umgehen können.
Synthetische Daten können außerdem helfen, Probleme zu lösen, die mit realen Daten schwer oder gar nicht zu bewältigen sind. Dies ist vor allem bei seltenen Ereignissen der Fall, für die einfach nicht genug echte Daten zur Verfügung stehen. Das ist zum Beispiel in der Medizin bei seltenen Krankheiten der Fall, aber auch bei seltenen Verkehrssituationen, wie beispielsweise bei autonomen Fahrzeugen.
Der Einsatz synthetischer Daten kann für KI-Systeme auch einen Kostenvorteil bieten. Denn synthetische Daten können günstig und schnell in großen Mengen erzeugt werden. Reale Datensätze hingegen können, beispielsweise durch klinische Studien, sehr teuer sein.
Welche Risiken birgt der Einsatz von synthetischen Daten?
Der Einsatz von synthetischen Daten für das Training von KI-Systemen ist jedoch nicht nur mit Vorteilen behaftet. Denn das kann auch dazu führen, dass Modelle in einer künstlichen Komfortzone und somit fern der Realität trainiert werden.
So können durch synthetische Daten bereits bekannte Probleme wie Verzerrungen und Bias auftreten. Sind die zugrunde liegenden Daten oder Simulationen fehlerhaft, können synthetische Daten Vorurteile oder falsche Annahmen widerspiegeln.
„Da die synthetischen Daten aus einer kleinen Menge realer Daten erstellt werden, kann sich derselbe Bias, der in den realen Daten vorhanden ist, auf die synthetischen Daten übertragen“, erklärt Kalyan Veeramachaneni, leitender Wissenschaftler am Laboratory for Information and Decision Systems am MIT, gegenüber MIT News.
Genau wie bei realen Daten müssen Sie gezielt sicherstellen, dass der Bias durch verschiedene Stichprobenverfahren eliminiert wird, um ausgewogene Datensätze zu erstellen.
Um das Auftreten von Bias zu verhindern, sei laut Veeramachaneni eine sorgfältige Planung notwendig. Um die Ausbreitung von Bias zu verhindern, könne eine Kalibrierung der Datengenerierung zum Einsatz kommen.
Auch interessant: