Skip to content

Wissensdatenbanken erstellen und verwalten

Eine Wissensdatenbank kann in Alan in den Einstellungen unter "Wissensdatenbanken" erstellt und verwaltet werden.

Dort finden Sie eine Übersicht aller bestehenden Wissensdatenbanken, die Sie erstellt haben oder bearbeiten können.

Wenn Sie auf eine Wissensdatenbank klicken, sehen Sie alle weiteren Informationen zu dieser Datenbank, z.B. eine Beschreibung sowie eine Übersicht der enthaltenen Dokumente, und können diese bearbeiten.

Erstellen

Um eine neue Wissensdatenbank zu erstellen, klicken Sie auf die Schaltfläche "Neu" und wählen Sie die Art der Wissensdatenbank, die Sie erstellen möchten. Um Dokumente hochzuladen, wählen Sie die Option "dateibasiert".

Definieren Sie einen Titel und eine Beschreibung der Datenbank. Diese beiden Felder helfen später dabei, eine passende Wissensdatenbank zum Chatten auszuwählen und Alans Quellenangaben zuzuordnen.

Außerdem können Sie hier Dateien verschiedener Dateitypen für die Wissensdatenbank auswählen. Nachdem Sie die Wissensdatenbank erstellt haben, werden diese Dokumente hochgeladen und indiziert, um das darin enthaltene Wissen Alan zur Verfügung zu stellen.

INFO

Beachten Sie, dass nicht alle Dateitypen gleich gut für die Nutzung in Alan geeignet sind. Eine Übersicht der unterstützten Dateiformate und Hinweise zu Ihrer Eignung finden Sie hier.

Zum Schluss klicken Sie auf "Speichern", um die Wissensdatenbank zu erstellen.

Bearbeiten

Nachdem Sie eine Wissensdatenbank erstellt haben können Sie diese fortlaufend bearbeiten und optimieren.

Zum Beispiel können Sie über das Upload-Feld neue Dateien hinzufügen oder bestehende Dateien über das "X"-Symbol neben dem Dateinamen entfernen.

Wenn Sie die Wissensdatenbank erstellt haben, können Sie diese außerdem freigeben.

INFO

Dateien, die Sie in geteilte Wissensdatenbanken hochladen, sind für alle Nutzer verfügbar, die Zugriff auf diese Wissensdatenbank haben. Beachten Sie die Datenschutzbestimmungen Ihrer Organisation.

Indizierungsstatus

Eine Gesamtübersicht des Indizierungsfortschritts erhalten Sie über die Status-Anzeige der Wissensdatenbank.

Den Indizierungsstatus einer spezifischen Datei können Sie in der Dateiübersicht verfolgen.

StatusBeschreibung
HochzuladenDatei ist zum Hochladen vorgemerkt und wird nach dem Speichern hochgeladen
Wird hochgeladenDatei wird derzeit hochgeladen
IndizierungDatei wird derzeit indiziert
IndiziertDatei ist bereit zum Chatten
FehlerFehler beim Indizieren der Datei, bitte erneut hochladen
LöschenDatei wird derzeit gelöscht

Indizierungspipeline

Die Indizierungspipeline ist eines der Herzstücke von Alan. Durch eine hochanspruchsvolle Verarbeitungspipeline werden hochgeladene Dateien analysiert und die darin enthaltenen Informationen für die Verwendung in Wissensdatenbanken extrahiert und aufbereitet. Dateiinhalte werden automatisch in kohärente, semantisch konsistente Blöcke zerlegt, wobei Seitenumbrüche, Textblöcke, Absätze, Listen, Tabellen, Überschriften und andere strukturierte Elemente erkannt und intelligent berücksichtigt werden. Zur Maximierung der Qualität der extrahierten Informationen werden verschiedene Machine-Learning-Techniken und -Modelle eingesetzt.

Fertig extrahierte und aufbereitete Blöcke werden als "Chunks" bezeichnet. Diese Chunks werden durch ein Embedding-Modell in einen hochdimensionalen Vektorraum eingebettet und in einer für Alan verständlichen und abrufbaren Form unter anderem in einer Vektordatenbank gespeichert. Größe und Inhalt der Chunks werden so gewählt, dass sie sowohl zum jeweils aktuell verwendeten Embedding-Modell als auch zum verwendeten Large-Language-Modell (LLM) passen.

Standardmäßig funktioniert das Chunking intelligent und zuverlässig. Für benutzerdefinierte Anwendungsfälle besteht jedoch die Möglichkeit, JSONL-Dateien zu verwenden, um Kontrolle über das Chunking zu erlangen. Details dazu werden hier erläutert.

Löschen

Um eine Wissensdatenbank in Alan zu löschen, klicken Sie auf "Wissensdatenbank löschen".

Beachten Sie, dass Sie nur Wissensdatenbanken löschen können, die Sie selbst erstellt haben, und dass gelöschte Wissensdatenbanken nicht wiederhergestellt werden können.