Anmelden (DTAQ) DWDS     dlexDB     CLARIN-D

Download

Übersicht

Metadaten

DTA-Korpora

Alle zum Download bereitgestellten Texte sind im DTA-Basisformat, einem TEI/P5-XML-Subset, ausgezeichnet.

TCF-Versionen

  • TCF-Version vom 18. Oktober 2018:
  • TCF-Version vom 1. September 2017:
    • DTA-Kernkorpus (in den Formaten „TCF text annotation layer“ und „TCF tokenisiert, serialisiert, lemmatisiert, normalisiert“)
    • DTA-Kernkorpus und Ergänzungstexte (in den Formaten „TCF text annotation layer“ und „TCF tokenisiert, serialisiert, lemmatisiert, normalisiert“)
    • nach Textklassen gruppiert und im Format „TCF text annotation layer“
  • TCF-Version vom 11. Mai 2016:

Texte aus dem OCR-Workflow

In der ersten Projektphase des DTA (2007–2010) wurden 199 Texte durch OCR erfasst und anschließend nachkorrigiert. Für diese Werke liegen TEI/P5-Daten vor, die für jedes einzelne Zeichen die entsprechenden Koordinaten für die Position des Zeichens auf dem zugrundeliegenden Faksimilebild haben. Da sich herausgestellt hat, dass die Arbeit an diesen Daten sehr mühselig ist, und das DTA seinen Fokus auf die Textdaten legt, und die Verknüpfung zu den Faksimiledaten über die Seitenzuordnung ausreichend ist, werden diese Daten nicht mehr gepflegt. An dieser Stelle stellen wir diese Daten zur Verfügung.