Anonymisierte Daten dank Deep Learning


Durch eine wachsende Datenmenge lassen sich für Unternehmen wichtige Erkenntnisse aus den vorhandenen Daten ziehen. Bei diesen Daten handelt es sich allerdings um persönliche Daten, welche aufgrund von Datenschutzbestimmungen nicht ohne weiteres verarbeitet werden dürfe. Da für die Auswertung allerdings nur die Struktur der Daten und nicht die einzelnen persönlichen Angaben wichtig sind, ist es möglich die vorhandenen Daten zu anonymisieren und so eine eindeutige Zuordnung zu verhindern. Diese Anonymisierung soll über eine Deep Learning Methodik erfolgen und so die Struktur der ursprünglichen Quelldaten beibehalten und eine Verwertung ermöglichen.

Die CAS Software AG wurde 1986 gegründet und ist heute führend bei Customer Relationship Management (CRM) Software im Mittelstand. Sie hat ihren Hauptsitz in Karlsruhe und beschäftigt derzeit über 400 Mitarbeiter. Die Future Labs bieten seit ihrer Gründung im Jahr 2017 Möglichkeiten für Forschungsprojekte und Abschlussarbeiten. Hierbei werden vor allem innovative neue Geschäftsbereiche wie z.B. Machine Learning oder Virtual Reality abgedeckt.

Lukas wird in seiner Bachelor-Thesis ein Variational Autoencoder und ein Generative Adversarial Network an eine Verwendung mit relationalen Daten anpassen. Anschließend sollen die so generierten synthetischen Daten mit den Ursprungsdaten unter verschiedenen Gesichtspunkten verglichen werden. Basierend auf diesen Ergebnissen sollen VAE oder GAN verbessert werden und ein allgemeines Vorgehen zur Data Preparation für das Tool erstellt werden.

Ziel sind synthetische Daten, welche strukturell den ursprünglichen Daten gleichen, also eine ähnliche Verteilung haben und einen ähnlichen Wertebereich abdecken. Da es sich um relationale Daten handelt muss eine ähnliche Struktur nicht nur innerhalb einer Spalte, sondern auch innerhalb einer Zeile gewährleistet werden. Darüber hinaus muss auch eine ausreichende Anonymisierung sichergestellt sein. Die Menge an synthetischen Daten kann beliebig gewählt werden, wodurch die Menge an synthetischen Daten die ursprüngliche Datenmenge übertreffen kann.