2 Einführung in Big Data

Big Data bezeichnet umfangreiche Datenmengen, die aufgrund ihres Volumens, ihrer Vielfalt und der Geschwindigkeit ihrer Erstellung mit herkömmlichen Methoden der Datenverarbeitung nicht oder nur schwer zu erfassen, zu speichern, zu verwalten und zu analysieren sind. Diese Daten können aus verschiedenen Quellen stammen, darunter Geschäftstransaktionen, soziale Medien, Sensoren, digitale Bilder und Videos, sowie aus wissenschaftlicher Forschung. Die Herausforderung und das Ziel von Big Data Technologien ist es, aus diesen riesigen und komplexen Datenmengen wertvolle Informationen zu extrahieren, die für Entscheidungsfindungen, strategische Planungen und Innovationen genutzt werden können. Big Data repräsentiert somit nicht nur eine technische Herausforderung, sondern auch eine beträchtliche Chance für Unternehmen und Organisationen, ihre Kenntnisse zu vertiefen und neue Erkenntnisse in Echtzeit zu gewinnen.

2.1 Überblick des Schulungsprogramms

In den kommenden zwei Tagen werden wir uns auf eine explorative Reise durch die Welt von Big Data begeben. Unser Ziel ist es, Ihnen ein solides Verständnis der grundlegenden Konzepte, Technologien und Herausforderungen zu vermitteln, die mit Big Data verbunden sind. Wir beginnen mit den Grundlagen, indem wir uns anschauen, was Big Data eigentlich ist, welche charakteristischen Merkmale es aufweist und warum es für Unternehmen und Organisationen von zunehmender Bedeutung ist.

Anschließend werden wir uns mit den verschiedenen Arten von Daten beschäftigen, die unter den Begriff Big Data fallen. Wir erkunden, wie diese Daten erfasst, gespeichert und schließlich analysiert werden, um wertvolle Einblicke zu gewinnen. Dabei wird ein besonderer Fokus auf die Unterscheidung zwischen strukturierten und unstrukturierten Daten sowie auf die Vor- und Nachteile relationaler und nicht-relationaler Datenbanksysteme gelegt.

Ein weiterer wesentlicher Bestandteil unserer Agenda ist die Einführung in die Technologien und Werkzeuge, die für die Arbeit mit Big Data eingesetzt werden. Dazu gehören unter anderem Hadoop und sein Ökosystem, NoSQL-Datenbanken sowie neuere Entwicklungen wie Data Lakes und Echtzeitanalyse-Tools.

Darüber hinaus werden wir praktische Anwendungsbeispiele von Big Data in verschiedenen Branchen betrachten. Dies soll Ihnen helfen, das Potenzial von Big Data für die Lösung realer Geschäftsprobleme zu erkennen und wie durch die Analyse großer Datenmengen Entscheidungen optimiert und Innovationen vorangetrieben werden können.

Abschließend widmen wir uns den Herausforderungen und ethischen Überlegungen, die mit der Sammlung und Analyse von Big Data einhergehen. Datenschutz, Datensicherheit und die sozialen Auswirkungen der Datennutzung stehen hier im Mittelpunkt.

Unser Ziel ist es, dass Sie am Ende dieser Schulung nicht nur ein theoretisches Verständnis von Big Data haben, sondern auch praktische Kenntnisse darüber, wie Big Data in verschiedenen Kontexten angewendet werden kann. Wir möchten eine Lernumgebung schaffen, in der Fragen, Diskussionen und der Austausch von Ideen gefördert werden, um Ihr Lernen zu vertiefen und anzuregen.

2.2 BigData Ökosystem

Thema Erläuterung
Grundlagen
Definition von Big Data Beschreibt umfangreiche Datenmengen, die spezielle Technologien und Ansätze für die Verarbeitung benötigen, um wertvolle Informationen zu extrahieren.
Charakteristische Merkmale Bezieht sich auf die spezifischen Eigenschaften von Big Data: Volumen, Geschwindigkeit, Vielfalt, Wahrhaftigkeit und Wert.
Bedeutung und Einsatzgebiete Erklärt die Relevanz von Big Data in verschiedenen Branchen und wie es zur Entscheidungsfindung und Innovation beiträgt.
Datenhaltung
Relationale Datenbanken Datenbanken, die Daten in tabellarischer Form speichern, ermöglichen komplexe Abfragen und Transaktionen.
Nicht-relationale Datenbanken Datenbanken, die nicht auf einem tabellenbasierten Modell basieren, inklusive verschiedener Typen wie Schlüssel-Wert, Dokumentenbasis, Spaltenorientierung, usw.
Schlüssel-Wert Datenbanken Speichern Daten als Schlüssel-Wert-Paare und sind für ihre Schnelligkeit und Einfachheit bekannt.
Dokumentenbasierte Datenbanken Verwenden ein dokumentenorientiertes Modell, um semi-strukturierte Daten wie JSON oder XML zu speichern und zu verwalten.
Spaltenorientierte Datenbanken Speichern Daten in Spalten statt in Zeilen, was die Analyse und Verarbeitung großer Datenmengen effizienter macht.
Graph Datenbanken Spezialisiert auf die Speicherung von Beziehungen zwischen Datenpunkten in einem Graphen, ideal für komplexe Verknüpfungen und Netzwerkanalysen.
Data Lakes Große Speichersysteme, die Rohdaten in ihrem nativen Format speichern, bis sie benötigt werden, unterstützen eine flexible Datenanalyse.
Technologien und Werkzeuge
Hadoop & sein Ökosystem Eine Sammlung von Open-Source-Software, die es ermöglicht, riesige Datenmengen über viele Computer hinweg zu verarbeiten und zu speichern.
Echtzeit-Datenverarbeitung Technologien, die die Verarbeitung von Daten in Echtzeit ermöglichen, was für zeitkritische Anwendungen wichtig ist.
Analysewerkzeuge Werkzeuge und Plattformen, die die Analyse großer Datenmengen erleichtern, einschließlich statistischer Analysen, maschinelles Lernen und Datenvisualisierung.
Machine Learning & KI Technologien, die es Computern ermöglichen, aus Daten zu lernen und intelligente Entscheidungen ohne explizite Programmierung zu treffen.
Herausforderungen - Die fünf Vs
Volume – Volumen Bezieht sich auf die immense Menge an Daten, die gespeichert und analysiert werden muss.
Velocity – Geschwindigkeit Die hohe Geschwindigkeit, mit der Daten generiert und verarbeitet werden müssen.
Variety – Vielfalt Die unterschiedlichen Arten und Formate von Daten, die verarbeitet werden müssen.
Veracity – Wahrhaftigkeit Die Qualität und Genauigkeit der Daten, die eine Herausforderung darstellen kann.
Value – Wert Die Fähigkeit, aus großen Datenmengen wertvolle Informationen zu extrahieren.
Ethische und rechtliche Aspekte
Datenschutz Maßnahmen und Vorschriften zum Schutz personenbezogener Daten und zur Wahrung der Privatsphäre.
Datensicherheit Die Sicherung von Daten vor unberechtigtem Zugriff, Verlust oder Diebstahl.
Daten-Governance Die Gesamtheit der Richtlinien, Prozesse und Standards, die sicherstellen, dass Daten im gesamten Unternehmen effektiv und effizient verwaltet werden.

2.3 Tag 1: Grundlagen der Daten und Datenhaltung

Der erste Schulungstag legt das Fundament für unser Verständnis von Big Data, indem wir uns auf die fundamentalen Konzepte der Daten und der Datenhaltung konzentrieren. Dieses Wissen ist entscheidend, da es die Basis für die effiziente Nutzung und Analyse von Big Data bildet. Wir werden untersuchen, was Daten in verschiedenen Kontexten bedeuten, wie sie strukturiert sein können und welche Rolle sie in der Informationsverarbeitung spielen.

2.3.1 Der Datenbegriff

Unsere Reise beginnt mit einer grundlegenden Frage: Was sind Daten? Wir werden Daten in ihrem weitesten Sinne als digitale Repräsentation von Fakten, Konzepten oder Anweisungen in einer formalisierten Weise, die für die Kommunikation, Interpretation oder Verarbeitung geeignet ist, definieren. Ein tieferes Verständnis dieser Definition ermöglicht es uns, die Vielschichtigkeit und die verschiedenen Dimensionen von Daten zu erkennen, von einfachen numerischen Werten bis hin zu komplexen multimedia Daten.

2.3.2 Einführung in die Datenhaltung

Im Anschluss an die Einführung des Datenbegriffs vertiefen wir uns in die Welt der Datenhaltung. Datenhaltung umfasst alle technischen und organisatorischen Maßnahmen, die erforderlich sind, um Daten sicher, zuverlässig und effizient zu speichern, zu verwalten und zugänglich zu machen. Dieses Segment unseres Kurses zielt darauf ab, ein solides Verständnis für die Bedeutung einer strukturierten Datenhaltung zu schaffen, welche die Grundlage für jede Art von Datenanalyse, einschließlich Big Data, bildet.

2.3.3 Relationale Datenbanken

Ein wesentlicher Teil des heutigen Programms ist den relationalen Datenbanken gewidmet. Diese klassische Form der Datenhaltung nutzt Tabellen, um Daten und die Beziehungen zwischen ihnen zu organisieren. Wir werden die Konzepte von Tabellen, Reihen und Spalten sowie Schlüssel und Relationen erforschen. Das Verständnis relationaler Datenbanken ist essentiell, da es die Grundprinzipien des Datenmanagements und der Datenstrukturierung vermittelt, auf denen viele Systeme aufbauen.

2.3.4 NoSQL-Datenbanken

Mit der zunehmenden Vielfalt und dem Volumen der Daten stießen relationale Datenbanken jedoch an ihre Grenzen. Hier kommen NoSQL-Datenbanken ins Spiel. Wir werden die verschiedenen Typen von NoSQL-Datenbanken kennenlernen, darunter dokumentenorientierte, Schlüssel-Wert-, Spalten- und Graph-Datenbanken. Diese Sektion wird die Stärken und Einsatzgebiete jedes Datenbanktyps beleuchten und aufzeigen, wie sie den Anforderungen von Big Data gerecht werden.

2.3.5 Vertiefung in Schlüssel-Wert- und Dokumentenbasierte Datenbanken

Ein besonderer Fokus liegt auf Schlüssel-Wert- und dokumentenbasierten Datenbanken. Wir werden untersuchen, wie Schlüssel-Wert-Datenbanken durch ihre Einfachheit und Schnelligkeit in bestimmten Anwendungsfällen Vorteile bieten können. Ebenso werden wir die Flexibilität und Effizienz dokumentenbasierter Datenbanken für die Verarbeitung semi-strukturierter Daten hervorheben.

Der heutige Tag ist darauf ausgerichtet, ein robustes Verständnis für die Grundlagen der Daten und Datenhaltung zu entwickeln. Diese Kenntnisse sind unerlässlich, um die komplexeren Aspekte von Big Data, die wir in den folgenden Sitzungen behandeln werden, zu verstehen und effektiv zu nutzen. Durch praktische Beispiele und Diskussionen wollen wir sicherstellen, dass alle Teilnehmenden ein klares Bild der verschiedenen Datenhaltungsoptionen erhalten und deren Relevanz für die Big Data Landschaft verstehen.