Alle Fachinformationen auf einen Blick

Big Data für das Qualitätsmanagement - Welchen Beitrag leisten Q-DAS und TEQ?

11. April 2018, Dr. Wolfgang Schultz und Dipl.-Ing. Roman Wenig

Teil 1: Einführung, Überblick und was Sie davon haben

1  Einleitung

Big Data ist derzeit der Mega-Hype überhaupt. Gemeinsam mit Industrie 4.0, dem Internet der Dinge (IoT) und der totalen Digitalisierung sind viele aktuelle Buzz-Words versammelt. Ergänzt um die Begriffe mobiles Internet und Cloud-Computing werden sie sogar als Kandidaten für einen sechsten Kondratjew gehandelt.
 
Seit nunmehr fast 30 Jahren setzt sich Q-DAS mit der Analyse und Interpretation von Daten, die aus den Messsystemen der industriellen Fertigung sprudeln, auseinander. Es ist an der Zeit, sich zu outen: Wir beschäftigten uns bereits mit großen Datenmengen, als der Begriff Big Data noch nicht einmal erfunden geschweige denn gehypt wurde. Machen wir also bereits in Big Data?
 
Eine offizielle, genormte Definition für Big Data gibt es nicht. Unter den seriöseren Suchergebnissen findet sich unter anderem ein Beitrag des wissenschaftlichen Dienstes des Deutschen Bundestags aus dem Jahr 2013.
 
Quelle: https://www.bundestag.de/blob/194790/c44371b1c740987a7f6fa74c06f518c8/big_data-data.pdf
 
Wenn diverse Veröffentlichungen zum Thema Big Data ausgewertet werden, ergeben sich häufig die folgenden Gemeinsamkeiten:
  • Exponentieller Zuwachs des existierenden Datenvolumens auf der Welt
  • Zu groß, zu komplex, zu schnelllebig, zu schwach strukturiert
  • Velocity, volume, variety (value, validity oder veracity); eine Zahl von 100 Millionen Dateien wird oft genannt
  • 80 % bis 95 % der Daten weltweit sind unstrukturiert, darunter Daten aus:
    Social Media, Finanzwelt, Energiewirtschaft, Gesundheitswesen, Verkehr
    (einschließlich der Navigationssysteme), aber auch Produktionssteuerung, Internet of Things, Industrie 4.0
  • Daten sind bisher wenig bis gar nicht aufeinander bezogen.
 
2  Begriffsklärung

Was ist Big Data? – die große Menge unstrukturierter und semi-strukturierter Daten, die von Menschen und Maschinen erzeugt werden. Diese Menge übersteigt die Menge strukturierter Daten bei Weitem. Sie wächst auch schneller als die Menge strukturierter Daten.
 
Was ist big? – Datensätze, die üblicherweise so groß sind, dass sie nicht in den Arbeits­speicher des Computers geladen werden können. (Ab einer fünfstelligen Zahl von Zeilen in einem Datensatz verlangsamt sich dessen Verarbeitung mit den gegenwärtigen "Büro-Computern" spürbar.)
Einer unserer Kunden hat über einen Zeitraum von etwa drei Jahren Daten von Koordinaten­messmaschinen aufgenommen (ca. 1.800 Merkmale von Motorblöcken). Das sind insgesamt "nur" ca. 70 GB, aber das ist keinesfalls "big".
 
Was ist strukturiert? – Das Vorliegen der Daten in einem Format, mit dem die Daten sofort verarbeitet werden können, z. B. das Vorliegen der Daten im AQDEF-Format.
 
Was ist unstrukturiert? – Das Vorliegen der Daten in einem Format, mit dem die Daten nicht sofort verarbeitet werden können, z B. Texte, Bilder, Audio-Tracks, Videos, Inhalte aus Blogs oder von Homepages …
 
Was heißt verarbeiten? – Jede Datenanalyse hat (mindestens) ein Ziel. In der industriellen Fertigung besteht das Ziel meist darin, (möglichst automatisch erzeugte) Entscheidungen zu treffen, um einen Prozess auf den Sollwert eines Merkmals zu lenken oder die Streuung eines Merkmals zu minimieren. Manchmal sollen auch nur die nicht offensichtlichen Strukturen eines Systems ergründet werden, um daraus Schlussfolgerungen für die künftige "Behandlung" des Systems zu treffen. Dafür sind verschiedene Operationen erforderlich: "extract, transform, load" (ETL) der Daten, dann deren eigentliche Analyse sowie die Interpretation der Ergebnisse. All das wiederum richtet sich nach den Zielen und vielen Randbedingungen.
Für diese Vielfalt wurden unterschiedlichste Algorithmen entwickelt. Diese sind oftmals noch nicht in statistischer Standardsoftware abgebildet.
 
Was ist Analytics? – Vorgehensweisen, um mit Hilfe von Methoden (Algorithmen) und Werkzeugen (Software) aus Daten Informationen zu generieren, die ihrer Zielstellung entsprechen.
 
Um welche Methoden handelt es sich? – Methoden der deskriptiven und induktiven Statistik, ergänzt um (z. B.) Methoden des Machine Learnings.
 
Was ist Machine Learning? – Ein Satz an Methoden, der für die Lösung verschiedenster Aufgabenstellungen entwickelt wurde. Unter anderem zählt auch die lineare Regression dazu, in der folgenden Abbildung unten links im Pad "Regression" zu finden.


Bitte lesen Sie weiter in Downloadartikel


Laden Sie sich diesen Artikel als PDF herunter: