Vector Database einfach erklärt: Embeddings, semantische Suche und RAG

Warum eine normale Suche oft am richtigen Dokument vorbeiläuft

Stell dir vor, in deinem Unternehmen gibt es ein internes Support-Wiki mit FAQ-Artikeln. Ein Kollege tippt in die Suche: „Wie kann ich mein Passwort zurücksetzen?“ Die Suche liefert null Treffer. Dabei gibt es genau den passenden Artikel – er trägt nur den Titel „Zugangsdaten erneuern“. Genau an diesem Punkt setzt das Thema vector database deutsch an, denn es geht um die Frage, wie Computer Bedeutung statt nur Wörter erkennen können.

Das Problem liegt nicht am Kollegen und auch nicht am Artikel. Das Problem liegt an der Art, wie klassische Suche funktioniert. Eine normale Volltextsuche vergleicht Buchstaben und Wörter. Sie prüft, ob „Passwort“ oder „zurücksetzen“ irgendwo im Dokument vorkommt. Wenn diese exakten Wörter fehlen, bleibt der Treffer aus, selbst wenn der Inhalt inhaltlich exakt passt.

Für Menschen ist sofort klar, dass „Passwort zurücksetzen“ und „Zugangsdaten erneuern“ dasselbe meinen. Für eine klassische Suche sind das zwei völlig unterschiedliche Zeichenketten. Genau hier kommen Embeddings, semantische Suche und Vektordatenbanken ins Spiel – drei Begriffe, die du am Ende dieses Artikels klar unterscheiden kannst.

Dieses Beispiel begleitet dich durch den gesamten Artikel. Du wirst sehen, wie aus einem gescheiterten Suchversuch über mehrere Schritte eine funktionierende Lösung wird, die am Ende sogar eine fertige Antwort liefern kann.

Vector database: Was eine Vektordatenbank wirklich ist

Eine Vector Database ist im Kern eine Datenbank, die nicht nach exakten Werten sucht, sondern nach Ähnlichkeit. Das unterscheidet sie grundlegend von einer klassischen Datenbank wie MySQL oder PostgreSQL, die du wahrscheinlich schon kennst. Wenn du den Unterschied zu relationalen Datenbanken vertiefen möchtest, passt dazu der Einstieg in SQL.

In einer normalen SQL-Datenbank stellst du Anfragen wie „Finde den Kunden mit der ID 12345“ oder „Finde alle Bestellungen vom letzten Monat“. Das funktioniert hervorragend, solange du nach exakten Werten suchst: einer ID, einem Datum, einem Namen, der genau so geschrieben ist.

Eine Vector Database beantwortet eine andere Art von Frage: „Finde Inhalte, die inhaltlich zu dieser Anfrage passen.“ Dafür speichert sie nicht nur Text, sondern zu jedem Text auch einen sogenannten Vektor – eine Liste von Zahlen, die die Bedeutung des Textes beschreibt. Wie genau diese Zahlen entstehen, klärst du im nächsten Abschnitt über Embeddings.

Zurück zu deinem Support-Wiki. In der Vector Database würde jeder FAQ-Artikel als Eintrag gespeichert werden, der aus mehreren Teilen besteht:

dem Originaltext des Artikels, zum Beispiel „Zugangsdaten erneuern: Klicke auf…“
einem Vektor, der die Bedeutung dieses Textes repräsentiert
Metadaten wie Kategorie, Sprache, letztes Änderungsdatum oder Produktbereich
einer eindeutigen ID, über die der Eintrag referenziert werden kann

Das bedeutet: Eine Vector Database speichert nicht nur Vektoren, sondern ein ganzes Paket aus Text, Zahlen und zusätzlichen Informationen. Der Vektor ist der Schlüssel für die Ähnlichkeitssuche, aber die anderen Bestandteile sind genauso wichtig – dazu kommst du später im Abschnitt über Metadaten und Datenqualität.

Wichtig ist an dieser Stelle vor allem eines: Eine Vector Database ist kein Ersatz für deine bestehende Datenbank. Sie ist ein zusätzliches Werkzeug für eine bestimmte Aufgabe – nämlich das Finden von ähnlichen Inhalten basierend auf Bedeutung statt auf exakten Werten. Inhaltlich gehört das Thema damit klar in den Bereich Daten und moderne Künstliche Intelligenz.

Embeddings: Wie Bedeutung zu Zahlen wird

Um zu verstehen, wie eine Vector Database „Passwort zurücksetzen“ und „Zugangsdaten erneuern“ als ähnlich erkennen kann, musst du verstehen, was ein Embedding ist.

Ein Embedding ist eine numerische Darstellung von Text, Bildern oder Audio. Ein Embedding-Modell – das ist ein speziell trainiertes KI-Modell – nimmt einen Text als Eingabe und gibt einen Vektor zurück, also eine Liste von Zahlen, typischerweise mehrere hundert oder tausend Werte lang.

Das Entscheidende dabei: Diese Zahlen sind nicht zufällig. Texte mit ähnlicher Bedeutung erhalten ähnliche Vektoren. Das Embedding-Modell wurde so trainiert, dass es Bedeutungszusammenhänge in diese Zahlenmuster überträgt.

Eine gute Analogie dafür ist eine Landkarte der Bedeutung. Stell dir einen riesigen Raum vor, in dem jeder Text als Punkt platziert wird. Texte mit ähnlicher Bedeutung landen nah beieinander, so wie Städte, die geografisch nah beieinander liegen. Texte mit unterschiedlicher Bedeutung landen weiter voneinander entfernt.

In deinem Support-Beispiel würde das bedeuten: Der Punkt für „Passwort zurücksetzen“ und der Punkt für „Zugangsdaten erneuern“ liegen nah beieinander – fast wie zwei benachbarte Orte auf einer Karte. Ein Punkt für „Rechnung herunterladen“ liegt dagegen deutlich weiter weg, weil es inhaltlich um ein anderes Thema geht.

Wichtig ist: Der Vektor selbst ist für Menschen nicht lesbar. Du bekommst keine Übersetzung wie „Bedeutung: Account-Verwaltung“ zurück, sondern eine Liste von Zahlen wie [0.021, -0.183, 0.097, …]. Diese Zahlen ergeben für sich genommen keinen Sinn. Ihre Stärke entfaltet sich erst im Vergleich mit anderen Vektoren.

Genau das ist der Kern von Embeddings: Sie übersetzen Bedeutung in eine Form, mit der Computer rechnen können. Ein Computer kann nicht direkt vergleichen, ob zwei Sätze „ähnlich gemeint“ sind. Aber er kann sehr gut berechnen, wie nah zwei Listen von Zahlen beieinander liegen. Technisch hängt das eng mit Verfahren aus Deep Learning zusammen.

Von der Suchfrage zum Treffer: So funktioniert semantische Suche

Schritt 1: Dokumente vorbereiten und in Chunks teilen

Bevor überhaupt eine Suche stattfinden kann, müssen die Dokumente in deinem Support-Wiki vorbereitet werden. Der erste Schritt dabei heißt Chunking – das Aufteilen von Dokumenten in kleinere, sinnvolle Textabschnitte.

Warum ist das nötig? Stell dir vor, ein FAQ-Artikel zu „Zugangsdaten erneuern“ wäre Teil eines riesigen PDF-Handbuchs mit 50 Seiten zu verschiedenen Account-Themen. Wenn du dieses gesamte PDF als einen einzigen Text einbettest, bekommst du einen Vektor, der die Bedeutung von 50 Seiten gleichzeitig repräsentieren soll. Das funktioniert nicht gut – der Vektor wird zu „verwaschen“, um bei einer spezifischen Frage wie „Passwort zurücksetzen“ präzise zu treffen.

Die Lösung: Das Dokument wird in kleinere Chunks zerlegt, zum Beispiel pro Absatz oder pro Abschnitt mit eigener Überschrift. Jeder Chunk bekommt sein eigenes Embedding. So entstehen aus dem 50-Seiten-Handbuch vielleicht 80 einzelne Chunks, von denen einer genau den Abschnitt „Zugangsdaten erneuern“ enthält.

Die Chunk-Größe ist dabei eine Gratwanderung. Zu große Chunks vermischen mehrere Themen und liefern ungenaue Treffer. Zu kleine Chunks reißen den Kontext auseinander – ein Chunk könnte nur die Überschrift enthalten, der nächste nur die Anleitung, ohne erkennbaren Zusammenhang.

Eine einfache Eselsbrücke: Du suchst in einem Buch nicht das ganze Buch, sondern die passende Seite oder den passenden Absatz. Chunking sorgt dafür, dass die Vector Database genau diese „Seite“ zurückgeben kann, statt das gesamte Buch.

Schritt 2: Embeddings speichern und ähnliche Vektoren finden

Nachdem alle Chunks in Embeddings umgewandelt wurden, speichert die Vector Database diese Vektoren zusammen mit dem Originaltext, einer ID und den Metadaten. Damit ist die Wissensbasis aufgebaut – aber noch wurde nichts gesucht.

Jetzt kommt der eigentliche Suchprozess. Dein Kollege tippt seine Frage: „Wie kann ich mein Passwort zurücksetzen?“ Diese Frage wird mit demselben Embedding-Modell, das auch für die Dokumente verwendet wurde, in einen Vektor umgewandelt. Das ist wichtig: Frage und Dokumente müssen mit demselben Modell eingebettet werden, sonst landen sie auf unterschiedlichen „Landkarten“ und sind nicht vergleichbar.

Die Vector Database vergleicht diesen Anfrage-Vektor nun mit allen gespeicherten Dokument-Vektoren. Dafür wird meist die sogenannte Cosine Similarity verwendet – ein Wert, der beschreibt, wie ähnlich die Richtung zweier Vektoren ist. Ein Wert nah bei 1 bedeutet sehr ähnlich, ein Wert nah bei 0 bedeutet kaum verwandt.

Das Ergebnis ist eine Rangliste der ähnlichsten Chunks, meist als „Top-k-Treffer“ bezeichnet – also die k besten Treffer, zum Beispiel die fünf ähnlichsten Chunks. In deinem Beispiel würde der Chunk „Zugangsdaten erneuern: Klicke auf Einstellungen, dann auf Passwort ändern…“ ganz oben in dieser Liste landen, obwohl kein einziges Wort aus der Suchanfrage exakt im Dokument vorkommt.

Zusammengefasst läuft eine semantische Suche also so ab: Anfrage einbetten, mit gespeicherten Vektoren vergleichen, ähnlichste Chunks zurückgeben. Das ist die gesamte Magie – und sie basiert komplett auf Zahlenvergleichen, nicht auf einem „Verständnis“ im menschlichen Sinn.

Vector database deutsch: Semantische Suche ist nicht automatisch RAG

An diesem Punkt hat die semantische Suche ihre Aufgabe erfüllt: Sie hat den passenden Chunk gefunden. Aber dein Kollege hat noch keine Antwort – er hat nur einen Textabschnitt aus dem Wiki vor sich. Hier kommt RAG ins Spiel, kurz für Retrieval-Augmented Generation.

RAG beschreibt eine Pipeline, die semantische Suche mit einem Sprachmodell (LLM) kombiniert. Eine einfache Analogie hilft hier: Die Vector Database ist die Bibliothekarin. Sie kennt die Bibliothek genau und kann dir innerhalb von Millisekunden die drei relevantesten Bücher zu deiner Frage heraussuchen. Aber sie schreibt dir keinen Aufsatz, der deine Frage beantwortet – das macht das LLM.

Eine RAG-Pipeline läuft typischerweise so ab:

Der Nutzer stellt eine Frage („Wie kann ich mein Passwort zurücksetzen?“)
Die Frage wird eingebettet und die Vector Database sucht passende Chunks
Die relevantesten Chunks werden ausgewählt, in unserem Beispiel der „Zugangsdaten erneuern“-Abschnitt
Diese Chunks werden als Kontext in den Prompt für das LLM eingefügt
Das LLM formuliert daraus eine natürlichsprachliche Antwort, oft mit Verweis auf die Quelle
Im Idealfall wird das Ergebnis geprüft, bevor es an den Nutzer geht

Für dein Support-Beispiel würde Schritt 4 und 5 bedeuten: Das LLM bekommt den Prompt „Beantworte die Frage ‘Wie kann ich mein Passwort zurücksetzen?’ basierend auf folgendem Kontext: Zugangsdaten erneuern: Klicke auf Einstellungen, dann auf Passwort ändern…“. Das LLM generiert daraus eine Antwort wie: „Um dein Passwort zurückzusetzen, gehe zu Einstellungen und wähle dort ‘Passwort ändern’. Diese Information stammt aus dem Artikel ‘Zugangsdaten erneuern’.“

Der entscheidende Punkt: Die Vector Database hat zu keinem Zeitpunkt selbst eine Antwort formuliert. Sie hat nur den relevanten Text gefunden. Das LLM hat aus diesem Text eine Antwort gemacht. Semantische Suche ist also ein Baustein von RAG, aber nicht RAG selbst – ohne semantische Suche hätte das LLM gar nicht gewusst, welcher Wiki-Artikel relevant ist, und hätte sich die Antwort komplett ausdenken müssen.

Was Einsteiger bei Vektordatenbanken oft falsch verstehen

Der häufigste Denkfehler bei Vector Databases lautet: „Die Datenbank versteht meine Dokumente.“ Das ist nicht ganz richtig, und der Unterschied hat praktische Konsequenzen.

Eine Vector Database findet Inhalte, die semantisch ähnlich sind. Sie prüft nicht, ob ein Inhalt wahr, aktuell oder vollständig ist. Ähnlichkeit ist keine Garantie für Korrektheit – das ist der zentrale Punkt, den du dir merken solltest.

Ein konkretes Beispiel: Stell dir vor, dein Support-Wiki enthält zwei Artikel zu „Zugangsdaten erneuern“ – einen alten von 2022 für die Vorgängerversion der Software und einen neuen von 2025 für die aktuelle Version. Beide Artikel sind inhaltlich sehr ähnlich, weil sie über dasselbe Thema sprechen. Die semantische Suche kann also durchaus den veralteten Artikel von 2022 als „ähnlichsten Treffer“ zurückgeben, wenn dessen Formulierung zufällig näher an der Suchanfrage liegt.

Genau hier kommen Metadaten ins Spiel. Wenn jeder Chunk Informationen wie Erstellungsdatum, Produktversion, Sprache oder Dokumenttyp enthält, kann die Suche zusätzlich danach filtern. Eine typische Anfrage wäre dann: „Finde die ähnlichsten Chunks, aber nur aus Dokumenten mit Produktversion ‘aktuell’ und Sprache ‘Deutsch’.“

Eine weitere Falle sind Eigennamen, Produktnummern und Abkürzungen. Wenn ein Nutzer nach „Fehlercode E-4471“ sucht, ist eine rein semantische Suche oft nicht die beste Wahl – zwei Fehlercodes können semantisch „ähnlich klingen“, obwohl sie völlig unterschiedliche Probleme beschreiben. Für solche Fälle wird häufig Hybrid Search eingesetzt: eine Kombination aus klassischer Keyword-Suche für exakte Codes, Namen und IDs sowie semantischer Suche für Bedeutungsähnlichkeit.

Das solltest Du mitnehmen: Eine Vector Database ist ein mächtiges Werkzeug, um Bedeutungsähnlichkeit zu finden. Sie ersetzt aber nicht die Verantwortung, für gute Datenqualität, aktuelle Inhalte und sinnvolle Metadaten zu sorgen. Ohne diese drei Faktoren bekommst du technisch funktionierende, aber inhaltlich unzuverlässige Ergebnisse.

Mini-Codebeispiel: Semantische Suche ohne große Infrastruktur verstehen

Bisher war alles eher konzeptionell. Jetzt schaust du dir an, wie das Grundprinzip von semantischer Suche in Python aussieht – ohne Cloud-API, ohne Vector-Database-Server, ohne Account irgendwo.

Das folgende Beispiel ist keine produktive Vector Database, zeigt aber das wichtigste Prinzip: Texte werden in Zahlen umgewandelt und anschließend nach Ähnlichkeit verglichen. Wir verwenden dafür TF-IDF (Term Frequency-Inverse Document Frequency) aus scikit-learn – das ist kein modernes Embedding-Modell, aber es funktioniert nach einem ähnlichen Grundprinzip: Text wird zu einem Vektor, und Vektoren werden verglichen.

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Drei kurze FAQ-Dokumente aus dem Support-Wiki
faq_dokumente = [
    "Zugangsdaten erneuern: Klicke auf Einstellungen, dann auf Passwort ändern und folge den Schritten.",
    "Rechnung herunterladen: Gehe zu Mein Konto und wähle den Bereich Abrechnung aus.",
    "Profilbild ändern: Lade ein neues Bild in den Profileinstellungen hoch."
]

# Die Suchanfrage des Nutzers
suchanfrage = "Wie kann ich mein Passwort zurücksetzen?"

# Anfrage und Dokumente werden gemeinsam vektorisiert,
# damit sie im gleichen Vektorraum liegen und vergleichbar sind
alle_texte = faq_dokumente + [suchanfrage]
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(alle_texte)

# Der letzte Vektor gehört zur Suchanfrage, die restlichen zu den Dokumenten
anfrage_vektor = tfidf_matrix[-1]
dokument_vektoren = tfidf_matrix[:-1]

# Cosine Similarity misst, wie ähnlich die Richtung der Vektoren ist
aehnlichkeiten = cosine_similarity(anfrage_vektor, dokument_vektoren)

# Index des Dokuments mit der höchsten Ähnlichkeit finden
bester_treffer_index = aehnlichkeiten.argmax()

print(f"Beste Übereinstimmung: {faq_dokumente[bester_treffer_index]}")
print(f"Ähnlichkeitswert: {aehnlichkeiten[0][bester_treffer_index]:.3f}")

Wenn du diesen Code ausführst, wird „Zugangsdaten erneuern“ als bester Treffer zurückgegeben – obwohl der Begriff „Passwort zurücksetzen“ so im Dokument nicht steht. TF-IDF erkennt hier eine gewisse Überlappung über das gemeinsame Wort „Passwort“ beziehungsweise „Passwort ändern“.

Wichtig ist die Einschränkung: TF-IDF basiert letztlich noch auf Wortübereinstimmungen, nur statistisch gewichtet. Echte Embedding-Modelle, zum Beispiel von OpenAI oder über SentenceTransformers, gehen weiter und erkennen auch dann Ähnlichkeit, wenn überhaupt kein gemeinsames Wort vorkommt – etwa zwischen „Zugangsdaten erneuern“ und „Login-Daten zurücksetzen“. Für den Einstieg zeigt dieser Code aber genau das Prinzip, das auch hinter komplexeren Systemen steckt: Text zu Zahlen, Zahlen vergleichen, besten Treffer zurückgeben.

In einem produktiven RAG-System würdest du an dieser Stelle ein echtes Embedding-Modell und eine Vector Database wie Chroma, pgvector oder Pinecone einsetzen, die genau diesen Vergleich für tausende oder Millionen von Dokumenten effizient durchführen. Für das Codebeispiel sind vor allem die Python-Dokumentation und die Dokumentation von scikit-learn hilfreich.

Wann Du wirklich eine Vector Database brauchst

Nicht jedes Projekt mit ein paar Texten braucht sofort eine produktive Vector Database. Die Entscheidung hängt von ein paar einfachen Faktoren ab.

Wenn du nur eine Handvoll Dokumente hast – sagen wir, fünf bis zehn FAQ-Artikel – reicht oft eine einfache Keyword-Suche völlig aus. Der Aufwand für Embeddings und eine Vector Database lohnt sich hier nicht.

Für einen Prototyp oder ein kleines internes Tool kann eine lokale Lösung wie das oben gezeigte TF-IDF-Beispiel oder eine einfache In-Memory-Vektorsuche, zum Beispiel mit FAISS, ausreichen. Du brauchst keinen eigenen Datenbankserver, keine Cloud-Anbindung – nur eine Liste von Vektoren im Arbeitsspeicher.

Eine produktive Vector Database wird relevant, wenn mehrere dieser Punkte zutreffen:

Du hast hunderte oder tausende Dokumente, die sich regelmäßig ändern
Du brauchst schnelle Suchanfragen, auch unter Last
Du musst nach Metadaten filtern, zum Beispiel Sprache, Datum oder Kategorie
Du baust ein RAG-System, das produktiv genutzt wird

In deinem Support-Beispiel: Für drei FAQ-Artikel reicht der Python-Code von oben völlig aus. Für ein Wiki mit 5.000 Artikeln in mehreren Sprachen, das täglich aktualisiert wird und von einem Kundenservice-Bot genutzt werden soll, brauchst du eine echte Vector Database mit Indexierung, Metadaten-Filtern und einer Anbindung an ein Embedding-Modell.

Das solltest Du mitnehmen

Eine Vector Database ist keine geheimnisvolle KI-Komponente, sondern ein Werkzeug mit einer klaren Aufgabe: Sie speichert Embeddings und findet die ähnlichsten davon – schnell, auch bei großen Datenmengen.

Der Wert entsteht erst im Zusammenspiel: Embeddings übersetzen Bedeutung in Zahlen, semantische Suche findet damit passende Textstellen, und RAG nutzt diese Textstellen, um ein Sprachmodell eine konkrete Antwort formulieren zu lassen. Jeder dieser drei Schritte hat eine eigene Aufgabe – und keiner davon „versteht“ deine Daten im menschlichen Sinn.

Was am Ende über die Qualität entscheidet, sind nicht nur Embedding-Modell oder Vector Database, sondern auch Chunking, Metadaten und die Aktualität deiner Inhalte. Wenn du als nächsten Schritt den Python-Code aus diesem Artikel mit deinen eigenen drei bis fünf Texten ausprobierst und dabei bewusst eine Suchanfrage formulierst, die kein gemeinsames Wort mit dem richtigen Dokument hat, bekommst du ein sehr konkretes Gefühl dafür, wo die Grenzen von TF-IDF liegen – und warum echte Embedding-Modelle dafür entwickelt wurden.

Niklas Lang

Seit 2020 bin ich als Machine Learning Engineer und Softwareentwickler tätig und beschäftige mich leidenschaftlich mit der Welt der Daten, Algorithmen und Softwareentwicklung. Neben meiner Arbeit in der Praxis unterrichte ich an mehreren deutschen Hochschulen, darunter die IU International University of Applied Sciences und die Duale Hochschule Baden-Württemberg, in den Bereichen Data Science, Mathematik und Business Analytics.

Mein Ziel ist es, komplexe Themen wie Statistik und maschinelles Lernen so aufzubereiten, dass sie nicht nur verständlich, sondern auch spannend und greifbar werden. Dabei kombiniere ich praktische Erfahrungen aus der Industrie mit fundierten theoretischen Grundlagen, um meine Studierenden bestmöglich auf die Herausforderungen der Datenwelt vorzubereiten.