Unterstützte Dateiformate
Alan unterstützt eine Vielzahl von Dateiformaten für die Erstellung von Wissensdatenbanken. Hier finden Sie eine Übersicht über die unterstützten Formate und ihre Eignung.
Dateiformat | Eignung |
---|---|
.txt | Sehr gut geeignet |
.md | Sehr gut geeignet |
.jsonl | Sehr gut geeignet* |
.html | Gut geeignet |
.docx | Gut geeignet |
.csv | Gut geeignet |
.xlsx | Mittel |
.pptx | Mittel |
.pdf | Weniger geeignet |
* .jsonl
-Dateien erlauben fortgeschrittene Möglichkeiten. Siehe unten
Unser Support-Team (support@alan.de) steht Ihnen gerne beratend zur Seite, um Ihre Daten optimal für die Verwendung mit Alan vorzubereiten. Diese Beratungsleistung wird nach Aufwand (T&M) abgerechnet. Gerne erstellen wir Ihnen ein Angebot, sofern kein entsprechender Rahmenvertrag besteht.
Erläuterung der Eignung
- Sehr gut geeignet: Diese Formate sind ideal für die Erstellung von Wissensdatenbanken, da sie leicht verarbeitet werden können und eine hohe Textqualität bieten.
- Gut geeignet: Diese Formate sind gut geeignet, aber es kann zu leichten Einschränkungen bei der Textverarbeitung kommen.
- Mittel: Diese Formate sind mittelmäßig geeignet, aber es kann zu Einschränkungen bei der Textverarbeitung kommen.
- Weniger geeignet: Diese Formate sind weniger geeignet, da sie möglicherweise zu unpräzisen Textextraktionen oder Fehlern bei der Verarbeitung führen können.
PDF-Format
Das PDF-Format ist eines der am weitesten verbreiteten Formate für Dokumente und wird von Alan unterstützt. Es hat jedoch einige Einschränkungen, die sich auf seine Eignung für die Textextraktion und -analyse auswirken können.
Um PDF-Dateien zu verarbeiten, benötigt verwendet Alan den PDF-Text-Layer, der möglicherweise nicht immer verfügbar oder genau ist. Dadurch können Kontextinformationen verloren gehen und Fehler bei der Extraktion auftreten.
Wenn möglich, empfiehlt es sich, das Quelldokument der PDF-Datei, wie z.B. eine .docx
-Datei, hochzuladen, anstatt die PDF-Datei selbst. Dadurch wird sichergestellt, dass der Text mit höherer Genauigkeit extrahiert wird und der ursprüngliche Kontext und die Formatierung erhalten bleiben.
XLSX-Format
Das XLSX-Format wird häufig zur Speicherung tabellarischer Daten verwendet, hat jedoch einige Einschränkungen bei der Textextraktion. Alan kann XLSX-Dateien verarbeiten, dabei wird nur der Textinhalt extrahiert, während andere Informationen verloren gehen.
Insbesondere werden folgende Informationen nicht beibehalten:
- Geometrische Informationen, wie Zellenplatzierung und -layout
- Zellenverbindungs- und -zusammenführungsinformationen
- Formeln und Berechnungen
Wenn Sie tabellarische Daten hochladen, empfehlen wir die Verwendung von CSV-Dateien. CSV-Dateien sind besser für die textbasierte Analyse geeignet und können Ihnen helfen, das Beste aus den Möglichkeiten von Alan herauszuholen. Sollten Sie Unterstützung bei der Vorverarbeitung Ihrer Daten für Alan benötigen, wenden Sie sich bitte an unser Support-Team wie oben beschrieben.
JSONL-Format
.jsonl
-Dateien bieten Ihnen mehr Kontrolle über die Extraktion von Informationen aus Ihren Dokumenten. Diese .jsonl
-Dateien werden typischerweise aus Quelldokumenten generiert, um deren Informationen gezielt in einem strukturierten Format für die Verarbeitung durch Alan aufzubereiten.
Das JSONL-Format (JSON Lines) ist ein Textformat, das es ermöglicht, Daten in einer einfachen und leicht lesbaren Form zu speichern. Jede Zeile in einer JSONL-Datei enthält ein einzelnes JSON-Objekt, die jeweils durch ein Zeilenende (\n
) getrennt sind. Dies ermöglicht eine effiziente Verarbeitung auch von großen Datenmengen.
Beim Upload einer .jsonl
-Datei in Alan werden die einzelnen Zeilen separat indiziert. Der Text in einer Zeile wird somit als Ganzes in die Vektordatenbank eingebettet - es erfolgt kein weiteres Chunking der Texte. Dadurch haben Sie die Kontrolle über die Größe der Chunks und können Texte so strukturieren, wie es für Ihre Anwendung am besten geeignet ist. Weitere Details zur Indizierungspipeline finden Sie hier.
Alan erwartet, dass jedes JSON-Objekt (jede Zeile) die folgenden Felder enthält:
- title: Der Anzeigename in den Quellenangaben
- content: Der Text-Inhalt
- source: (Optional) ein absoluter http(s)-Link zur Quelle, der in den Quellenangaben angezeigt wird.
Ein Beispiel für ein JSONL-Dokument:
{"title": "Titel 1", "content": "Dies ist ein Beispiel-Text.", "source": "https://www.example.com"}
{"title": "Titel 2", "content": "Dies ist ein weiterer Beispiel-Text.", "source": "https://www.example.com/example2"}
{"title": "Titel 3", "content": "Dies ist ein dritter Beispiel-Text."}
Anwendungsbeispiele
- Textsegmentierung: Sie können die Texte in den JSONL-Dateien so strukturieren, dass sie in sinnvolle Abschnitte unterteilt sind. Dies ermöglicht eine genauere Analyse und bessere Ergebnisse.
- Import von Strukturierten Daten: Sie können strukturierte Daten in JSONL-Dateien speichern und diese in Alan importieren. Diese können beispielsweise aus Ticketsystemen (pro
.jsonl
-Zeile ein Ticket), Datenbanken oder anderen Quellen stammen.