4 Grundlagen in SQL

SQL (Structured Query Language) ist eine standardisierte Sprache zur Verwaltung und Manipulation von relationalen Datenbanken. Sie ermöglicht es, Daten abzufragen, zu aktualisieren, einzufügen und zu löschen. Im Folgenden werden einige der grundlegenden Konzepte und Begriffe erläutert, die für das Verständnis und die Arbeit mit relationalen Datenbanken und SQL essentiell sind.

4.1 Normalisierung

Normalisierung ist ein Prozess zur Strukturierung einer relationalen Datenbank gemäß bestimmter Regeln, um Redundanzen zu reduzieren und die Datenintegrität zu verbessern. Das Ziel ist es, die Daten in einer Weise zu organisieren, dass jede Information nur einmal gespeichert wird. Dies führt zu effizienteren Datenbanken und vereinfacht die Wartung.

Normalisierungsgrade, bekannt als Normalformen, definieren die Kriterien für die Strukturierung von Datenbanken. Die wichtigsten sind:

1. Normalform (1NF): Jedes Attribut enthält nur atomare Werte, und jede Zeile ist eindeutig.
2. Normalform (2NF): Befindet sich in 1NF, und alle nicht-Schlüsselattribute sind voll funktional abhängig vom Primärschlüssel.
3. Normalform (3NF): Befindet sich in 2NF, und es gibt keine transitiven Abhängigkeiten von nicht-Schlüsselattributen.

4.1.1 Beispiel

Stellen Sie sich vor, Sie verwalten einen Buchclub, in dem Mitglieder Bücher ausleihen können. Um die Ausleihen zu verfolgen, führen Sie eine Tabelle, die sowohl Informationen über die Mitglieder (wie Name und E-Mail) als auch Details zu jedem ausgeliehenen Buch (wie Buchtitel und Ausleihdatum) enthält. Anfänglich mag diese einfache Tabelle ausreichend erscheinen, aber mit der Zeit erkennen Sie Probleme:

Redundanz: Wenn ein Mitglied mehrere Bücher ausleiht, wiederholen Sie dessen Namen und E-Mail jedes Mal. Das führt zu unnötiger Duplizierung.
Aktualisierungsanomalien: Möchte ein Mitglied seine E-Mail-Adresse ändern, müssen Sie diese Änderung an mehreren Stellen vornehmen. Das ist nicht nur mühsam, sondern erhöht auch das Fehlerpotenzial.
Löschungsanomalien: Wenn Sie die letzte Buchausleihe eines Mitglieds löschen, verschwinden auch die Informationen zu diesem Mitglied aus Ihrer Tabelle.

Lösung durch Normalisierung: Sie teilen Ihre Tabelle in zwei auf:

Eine Tabelle für Mitglieder, in der jedes Mitglied eine einzigartige ID hat, neben seinem Namen und seiner E-Mail-Adresse.
Eine Tabelle für Buchausleihen, die die einzigartige ID des Mitglieds, den Buchtitel und das Ausleihdatum enthält.

Jetzt ist jedes Mitglied nur einmal in der Mitgliedertabelle aufgeführt, unabhängig davon, wie viele Bücher es ausleiht. Änderungen an den Mitgliederdaten müssen nur einmal vorgenommen werden, und die Datenintegrität bleibt auch beim Löschen von Buchausleihen erhalten.

4.2 Denormalisierung

Denormalisierung ist der Prozess des bewussten Hinzufügens von Redundanz in eine Datenbank, um die Abfrageleistung zu verbessern. In bestimmten Szenarien kann die Normalisierung zu einer komplexen Struktur mit vielen Tabellen führen, was die Abfragegeschwindigkeit reduzieren kann. Durch Denormalisierung werden Daten bewusst dupliziert, um die Anzahl der notwendigen Joins zu reduzieren und die Leistung zu verbessern.

4.2.1 Beispiel

Nehmen wir an, Ihr Buchclub ist gewachsen, und Sie haben jetzt eine umfangreiche Datenbank mit vielen Tabellen, die durch Normalisierung entstanden sind. Während die Normalisierung viele Vorteile hat, stellen Sie fest, dass die Abfrageleistung nachlässt, da komplexe Joins zwischen vielen Tabellen notwendig sind, um einfache Fragen zu beantworten, wie z.B. “Welche Bücher hat Mitglied X ausgeliehen?”

Lösung durch Denormalisierung: Sie fügen bewusst Redundanzen hinzu oder kombinieren Tabellen, um die Anzahl der Joins zu verringern und die Abfrageleistung zu verbessern. Zum Beispiel könnten Sie eine Tabelle erstellen, die speziell für Berichte genutzt wird und die wichtigsten Informationen aus der Mitglieder- und der Buchausleihentabelle zusammenführt.

Durch Denormalisierung erhöhen Sie die Datenredundanz und potenziell das Risiko von Inkonsistenzen, aber Sie gewinnen an Geschwindigkeit bei bestimmten Abfragen. Dies kann in Szenarien, in denen Leistung kritisch ist, ein akzeptabler Kompromiss sein.

4.3 Zusammenfassung

Normalisierung verbessert die Datenstruktur, reduziert Redundanzen und fördert die Datenintegrität, kann aber zu komplexeren Abfragen führen.
Denormalisierung verbessert die Abfrageleistung durch bewusste Einführung von Redundanzen, erhöht aber das Risiko von Dateninkonsistenzen.

Die Wahl zwischen beiden Ansätzen hängt von den spezifischen Anforderungen Ihrer Anwendung und den Prioritäten in Bezug auf Leistung und Datenintegrität ab.

4.4 Kardinalitäten

Kardinalitäten definieren die Beziehung zwischen zwei Entitäten in einer relationalen Datenbank. Sie beschreiben, wie viele Instanzen einer Entität mit Instanzen einer anderen Entität in Beziehung stehen können. Die wichtigsten Kardinalitäten sind:

Eins-zu-Eins (1:1): Jede Instanz in der einen Entität ist mit höchstens einer Instanz in der anderen Entität verknüpft.
Eins-zu-Viele (1:N): Eine Instanz in der einen Entität kann mit vielen Instanzen in der anderen Entität verknüpft sein.
Viele-zu-Viele (N:M): Viele Instanzen in einer Entität können mit vielen Instanzen in einer anderen Entität verknüpft sein.

D.h. Kardinalitäten beschreiben die Beziehung zwischen zwei Tabellen in einer Datenbank und geben an, wie viele Datensätze in einer Tabelle mit Datensätzen in einer anderen Tabelle verknüpft sein können. Die drei grundlegenden Typen von Kardinalitäten sind 1:1, 1:N und N:M.

4.4.0.1 1:1 Beziehung

Beispiel: Jeder Mitarbeiter hat genau einen Arbeitsplatz, und jeder Arbeitsplatz ist genau einem Mitarbeiter zugeordnet.

In diesem Fall könnte man eine Tabelle Mitarbeiter und eine Tabelle Arbeitsplatz haben, wobei jede Tabelle einen Verweis auf die andere enthält. Diese Art der Beziehung kommt relativ selten vor und wird oft verwendet, wenn spezifische Informationen voneinander getrennt werden sollen, zum Beispiel aus Sicherheitsgründen oder zur besseren Organisation.

4.4.0.2 1:N Beziehung

Beispiel: Ein Manager leitet mehrere Mitarbeiter, aber jeder Mitarbeiter wird von genau einem Manager geleitet.

Hier gibt es eine Tabelle Manager und eine Tabelle Mitarbeiter. Jeder Mitarbeiter hat einen Fremdschlüssel, der auf den Manager verweist. Dies ermöglicht die Abbildung der Beziehung, dass ein Manager für mehrere Mitarbeiter verantwortlich sein kann.

4.4.0.3 N:M Beziehung

Beispiel: Studierende können sich für mehrere Kurse einschreiben, und jeder Kurs kann von mehreren Studierenden besucht werden.

In diesem Szenario benötigen wir drei Tabellen: eine Tabelle Studierende, eine Tabelle Kurse und eine Verknüpfungstabelle Einschreibungen, die die N:M-Beziehung zwischen Studierenden und Kursen abbildet. Jeder Eintrag in Einschreibungen verbindet genau einen Studierenden mit genau einem Kurs, was die N:M-Beziehung ermöglicht.

4.4.0.4 Warum wird bei N:M eine Verknüpfungstabelle benötigt?

In einer N:M-Beziehung kann ein Datensatz der einen Tabelle mit mehreren Datensätzen der anderen Tabelle in Verbindung stehen und umgekehrt. Da relationale Datenbanken in Tabellen organisiert sind, wo jede Zeile (oder Datensatz) eindeutig identifizierbar sein muss, ist es nicht möglich, diese vielfältigen Beziehungen direkt innerhalb einer der beiden Haupttabellen zu speichern, ohne Redundanzen und Inkonsistenzen zu erzeugen. Die Verknüpfungstabelle löst dieses Problem, indem sie für jede einzigartige Beziehung zwischen den Datensätzen der beiden Tabellen einen eigenen Datensatz anlegt.

4.5 Entitäten

Eine Entität ist ein Objekt oder Konzept, über das Daten in einer Datenbank gespeichert werden. In relationalen Datenbanken wird eine Entität oft durch eine Tabelle repräsentiert, wobei jede Zeile der Tabelle eine Instanz (oder ein Exemplar) der Entität darstellt und jede Spalte ein Attribut der Entität.

4.6 Weitere essentielle Begriffe

Attribut: Eine Eigenschaft oder ein Merkmal einer Entität. In einer Datenbanktabelle entspricht dies einer Spalte.
Primärschlüssel (Primary Key, PK): Ein einzigartiges Attribut oder eine Kombination von Attributen, die jede Zeile in einer Tabelle eindeutig identifizieren.
Fremdschlüssel (Foreign Key, FK): Ein Attribut oder eine Gruppe von Attributen in einer Tabelle, die auf den Primärschlüssel einer anderen Tabelle verweisen, um Beziehungen zwischen den Tabellen herzustellen.

Tabelle: Beispielhafte Darstellung einer 1:N-Beziehung

Entität	Attribut	Beschreibung	Typ
Kunde	KundeID	Eindeutige ID des Kunden	Primä

Diese Konzepte sind essentiell für das Verständnis und die effektive Nutzung von relationalen Datenbanken und der SQL-Sprache.