Industrie 4.0 und Statistik

Das Wort Industrie 4.0 ist wie Big Data ein ‚Buzzword‘ geworden, das leider oft einseitig aus der IT-Sicht betrachtet wird.

Doch was bedeutet Industrie 4.0 eigentlich und weshalb ist der Zusammenhang mit Statistik so wichtig?

Industrie 4.0 (in der Schweiz auch ‚Industrie 2025‘ benannt, link: Industrie2025) wird als 4.Industrielle Revolution bezeichnet und bezweckt die Informatisierung der Produktionstechnik. Unter anderem sollen Prozesse so automatisiert werden, damit Selbstoptimierung und Selbstdiagnose intelligenter werden. Selbstoptimierung erfordert komplexe mathematisch-statistische Algorithmen, um aus den aktuellen Produktionsdaten die Parameter zu optimieren, welche zur Steuerung der Prozesse bzw. der Maschinen zurückfliessen sollen.

(Bild: 4.Industrielle Revolution)Mit dem Internet der Dinge (i.e. ‚internet of things‘ IoT), werden Geräte von einfachen Gebrauchsgegenständen bis komplexen Produktionsmaschinen zunehmend vernetzt. Nach Cisco wird es im Jahr 2020 ca. 50 Mia. vernetzte Geräte geben.

Quelle: http://www.cisco.com/web/solutions/trends/iot/portfolio.html

Damit ist der Begriff der „cyber-physical system“ (CPS) eng verknüpft, der einen Verbund von softwaretechnischen Komponenten mit mechanischen oder elektronischen Teilen bezeichnet, welche über das Internet kommunizieren. Cloud-computing oder smart –grid sind weitere Begriffe, die den Fokus auf computertechnische Verfahren legen.

 

Daten als Rohstoff

Eine wichtige Konsequenz des IoT, ist Daten als Rohstoff zu betrachten, wie im folgenden Beispiel erläutert wird:

(Bild: Innova UEV 2015)

(Bild: Innova UEV 2015)

Quelle: Innova UEV 2015

 

Innova UEV stellt Elektrofahrzeuge für den Kommunalbereich und Schulen her. Die Fahrzeuge sind mit Sensoren ausgerüstet und liefern Daten in Echtzeit in die Cloud.

 

 

Aus den gewonnenen Daten über das Fahrverhalten können Information über Einsatzbereich, Energieverbrauch ja selbst mögliche Unfallrisiken abgeleitet werden, d.h. es können wertvolle Schlüsse über die optimalen Fahrzeugeigenschaften, das Zielpublikum, etc. gewonnen werden.

 

 

Ein ähnliches Beispiel liefert ein international tätiger Lastwagenhersteller, wo Sensordaten ausgewertet werden, um drohende Komponentenausfälle rechtzeitig vorherzusagen. Das Fahrzeug wird vom System zur Wartung aufgerufen, bevor ein Ausfall auftrifft. Dies ist ein geschlossener Zyklus, ohne menschliche Intervention, d.h. die Vorhersagemodelle sind im System so implementiert, dass Warnungen automatisch ausgegeben werden können.

 

Spezielle leistungsfähige mathematisch-statistische Algorithmen

Damit diese Informationen effektiv genutzt werden können, sind analytische Verfahren nötig. D.h. es braucht spezielle leistungsfähige mathematisch-statistische Algorithmen um aus der Datenflut wertvolle Informationen abzuleiten. Ohne diesen ‚analytischen Layer‘ kann der Kreislauf der Wissensgenerierung nicht geschlossen werden, die Statistik ist also der unabdingbare Werkzeugkasten, um aus Daten Erkenntnisse zu gewinnen. Im genannten Beispiel des Lastwagenherstellers ist denkbar, dass ein Fahrzeug zur Wartung aufgerufen wird, wenn die Wahrscheinlichkeit eines Defekts in den nächsten 3 Monaten 90% beträgt. Dabei gibt es wie bei allen Prognosemodellen Fehlerraten, d.h. Fahrzeuge können zu früh oder zu spät zur Wartung aufgerufen werden. Aufgabe der Statistik ist es, die Modelle so zu optimieren, dass eine hohe Trefferrate erreicht wird. Anhand von Trainingsdaten wird das Modell ‚trainiert‘, um mit den echten Daten bei unbekanntem Ausgang eine möglichst trennscharfe Klassifikation zu machen.

(Bild: logistic regression)

Neben diesem Beispiel eines sogenannt Überwachten Lernens (supervised learning), gibt es auch das Unüberwachte Lernen (engl. unsupervised learning), wo indes keine bestimmte Klassierung (Defekt, nicht-Defekt) besteht.

Das Ziel besteht eher darin in hoch-dimensionalen Daten Muster und Zusammenhänge zu erkennen. Visualisierung von multidimensionalen Variablen bzw. Reduktion der Dimensionalität (zB durch Hauptkomponentenanalyse) stehen hier im Vordergrund, um zB. das Kundenverhalten besser zu verstehen.

Data Science

Die enge Schnittstelle zwischen Computerwissenschaften und Statistik mit der Zunahme von Big data (Charakterisiert durch grosse umfangreiche Datenmengen, die in hoher Geschwindigkeit und hoher Heterogenität erzeugt werden) hat zu einer neuen Disziplin geführt der Data Science, die gewissermassen ein Hybrid zwischen Informatik und Statistik darstellt.

(Bild: Data Science Venn Diagramm)

Quelle: www.kdnuggets.com

Im Endeffekt bedeutet dies eine Annäherung der beiden Disziplinen: Statistiker müssen lernen, sich mit den Strukturen von Datenbanken vertraut machen, um modellierbare Variablen abzuleiten. Umgekehrt werden IT-Fachleute lernen müssen mit statistischen Modellen vertraut zu werden, um aus dem Rauschen der Datenflut die Signale herausfiltern zu können.

Industrie 4.0 stellt die Statistik also vor grosse Herausforderungen, wir sind bereit dazu!
Dr. Dominik H. Pfluger, Geschäftsführer