Wissensdatenbanken erstellen und verwalten
Eine Wissensdatenbank kann in Alan in den Einstellungen unter "Wissensdatenbanken" erstellt und verwaltet werden.
Dort finden Sie eine Übersicht aller bestehenden Wissensdatenbanken, die Sie erstellt haben oder bearbeiten können.
Wenn Sie auf eine Wissensdatenbank klicken, sehen Sie alle weiteren Informationen zu dieser Datenbank, z.B. eine Beschreibung sowie eine Übersicht der enthaltenen Dokumente, und können diese bearbeiten.
Erstellen
Um eine neue Wissensdatenbank zu erstellen, klicken Sie auf die Schaltfläche "Neu" und wählen Sie die Art der Wissensdatenbank, die Sie erstellen möchten. Um Dokumente hochzuladen, wählen Sie die Option "dateibasiert".
Definieren Sie einen Titel und eine Beschreibung der Datenbank. Diese beiden Felder helfen später dabei, eine passende Wissensdatenbank zum Chatten auszuwählen und Alans Quellenangaben zuzuordnen.
Außerdem können Sie hier Dateien verschiedener Dateitypen für die Wissensdatenbank auswählen. Nachdem Sie die Wissensdatenbank erstellt haben, werden diese Dokumente hochgeladen und indiziert, um das darin enthaltene Wissen Alan zur Verfügung zu stellen.
INFO
Beachten Sie, dass nicht alle Dateitypen gleich gut für die Nutzung in Alan geeignet sind. Eine Übersicht der unterstützten Dateiformate und Hinweise zu Ihrer Eignung finden Sie hier.
Zum Schluss klicken Sie auf "Speichern", um die Wissensdatenbank zu erstellen.
Bearbeiten
Nachdem Sie eine Wissensdatenbank erstellt haben können Sie diese fortlaufend bearbeiten und optimieren.
Zum Beispiel können Sie über das Upload-Feld neue Dateien hinzufügen oder bestehende Dateien über das "X"-Symbol neben dem Dateinamen entfernen.
Wenn Sie die Wissensdatenbank erstellt haben, können Sie diese außerdem freigeben.
INFO
Dateien, die Sie in geteilte Wissensdatenbanken hochladen, sind für alle Nutzer verfügbar, die Zugriff auf diese Wissensdatenbank haben. Beachten Sie die Datenschutzbestimmungen Ihrer Organisation.
Indizierungsstatus
Eine Gesamtübersicht des Indizierungsfortschritts erhalten Sie über die Status-Anzeige der Wissensdatenbank.
Den Indizierungsstatus einer spezifischen Datei können Sie in der Dateiübersicht verfolgen.
Status | Beschreibung |
---|---|
Hochzuladen | Datei ist zum Hochladen vorgemerkt und wird nach dem Speichern hochgeladen |
Wird hochgeladen | Datei wird derzeit hochgeladen |
Indizierung | Datei wird derzeit indiziert |
Indiziert | Datei ist bereit zum Chatten |
Fehler | Fehler beim Indizieren der Datei, bitte erneut hochladen |
Löschen | Datei wird derzeit gelöscht |
Indizierungspipeline
Die Indizierungspipeline ist eines der Herzstücke von Alan. Durch eine hochanspruchsvolle Verarbeitungspipeline werden hochgeladene Dateien analysiert und die darin enthaltenen Informationen für die Verwendung in Wissensdatenbanken extrahiert und aufbereitet. Dateiinhalte werden automatisch in kohärente, semantisch konsistente Blöcke zerlegt, wobei Seitenumbrüche, Textblöcke, Absätze, Listen, Tabellen, Überschriften und andere strukturierte Elemente erkannt und intelligent berücksichtigt werden. Zur Maximierung der Qualität der extrahierten Informationen werden verschiedene Machine-Learning-Techniken und -Modelle eingesetzt.
Fertig extrahierte und aufbereitete Blöcke werden als "Chunks" bezeichnet. Diese Chunks werden durch ein Embedding-Modell in einen hochdimensionalen Vektorraum eingebettet und in einer für Alan verständlichen und abrufbaren Form unter anderem in einer Vektordatenbank gespeichert. Größe und Inhalt der Chunks werden so gewählt, dass sie sowohl zum jeweils aktuell verwendeten Embedding-Modell als auch zum verwendeten Large-Language-Modell (LLM) passen.
Standardmäßig funktioniert das Chunking intelligent und zuverlässig. Für benutzerdefinierte Anwendungsfälle besteht jedoch die Möglichkeit, JSONL-Dateien zu verwenden, um Kontrolle über das Chunking zu erlangen. Details dazu werden hier erläutert.
Löschen
Um eine Wissensdatenbank in Alan zu löschen, klicken Sie auf "Wissensdatenbank löschen".
Beachten Sie, dass Sie nur Wissensdatenbanken löschen können, die Sie selbst erstellt haben, und dass gelöschte Wissensdatenbanken nicht wiederhergestellt werden können.