HTR-United

HTR-United est une organisation Github sans autre forme de personnalité juridique visant à mettre en commun des jeux de données et des modèles pour l'HTR/OCR de textes de toutes périodes et de tout style, principalement en français mais de manière non restrictive. 
Elle est née du simple besoin - pour des projets - d'avoir de potentielles vérités de terrain pour entraîner des modèles rapidement sur des corpus plus petits.

Aperçu d'une page segmentée

Utiliser les données d'HTR-United

HTR-United est un catalogue de jeux de données et éventuellement de modèles pour la reconnaissance automatique d'écritures. Il prend la forme d'un fichier YAML comprenant les métadonnées essentielles pour repérer les jeux de données compatibles avec vos documents et y accéder. Vous pouvez alors directement télécharger les jeux de données ou contacter leur(s) propriétaire(s), selon les modalités de partage définies.

Outre des informations sur le mode d'accès aux données, le catalogue rassemble des métadonnées décrivant les écritures représentées dans un jeu de données (temporalité, nombre de mains, caractéristiques) et les conditions de création des données (autorité, règles d'annotation, format).

Il est aussi possible d'explorer le contenu du catalogue depuis ce site.

HTR-United. (2020-2022). HTR-United Catalog. HTR-United. Alix Chagué & Thibault Clérice (eds). URL: https://github.com/HTR-United/htr-united/blob/026e680323b47f6206a6d6007cb96d6cc756fab5/htr-united.yml

Proposer mes données avec HTR-United

Vous pouvez contribuer au projet HTR-United en référençant votre jeu de données de vérité de terrain dans le catalogue. Pas besoin de charger vos données sur Github, elles peuvent être hébergées n'importe où ! Il suffit de générer les métadonnées à l'aide de notre formulaire puis de les ajouter dans votre répertoire ou bien dans le répertoire du projet htr-united, en fonction de votre situation. Ces métadonnées permettent de décrire vos données et les conditions d'accès et de réutilisation.

Vos données peuvent avoir été générées avec n'importe quel logiciel d'HTR ou à la main et peuvent être proposées dans plusieurs formats standards (XML ALTO ou XML PAGE). Afin qu'ils puissent être utiles à d'autres projets, les jeux de données doivent rassembler à minima : des transcriptions associées à des images, un lien vers les images, et des métadonnées décrivant notamment les règles d'annotation suivies.

Pour vous aider à comprendre quelles étapes suivre pour ajouter vos métadonnées au catalogue HTR-United, consultez nos scénarios !

Extrait d'un fichier XML ALTO 4

Scénarios

Scénario 1

Vos données ne sont pas encore publiés. Vous pouvez alors rejoindre l'organisation Github HTR-United et créer un nouveau répertoire de travail dédié à vos données. Celles-ci peuvent être constituées des fichiers XML seuls si les images sont aisément accessibles par un autre moyen (via un manifeste IIIF par exemple). Ajoutez également un fichier de présentation du jeu de données (README) et une licence. Vous pouvez déclencher la modification du contenu du catalogue en ajoutant à votre répertoire un fichier htr-united.yml contenant les métadonnées générées à l'aide de notre formulaire . Un modèle de répertoire vous est proposé ici : https://github.com/HTR-United/template-htr-united-datarepo .

Illustration du scénario 1

Scénario 2

Vos données ne sont pas encore publiées et vous ne souhaitez pas les publier dans le cadre de l'organisation Github HTR-United. Aucun problème ! Il vous suffit de les publier sur la plateforme de votre souhait, par exemple Zenodo. Le dépôt peut être constitué des fichiers XML seuls si les images sont aisément accessibles par un autre moyen (par exemple via un manifeste IIIF). Pensez à associer à vos données une licence et une documentation sous la forme d'un README. Une fois le répertoire en place, pour déclencher la modification du contenu du catalogue, ajoutez un fichier YAML généré à l'aide de notre formulaire dans le dossier catalog du répertoire HTR-United. Vous pouvez vous inspirer du modèle de répertoire proposé ici : https://github.com/HTR-United/template-htr-united-datarepo .

Illustration du scénario 2

Scénario 3

Vos données sont déjà en ligne et librement accessibles. Vérifiez que le jeu de données est bien associé à une licence explicite, que le format des transcription correspond à l'un de ceux attendus (ALTO ou PAGE), que les images sont soit dans le jeu de données, soit accessile aisément (par exemple par le biais d'un manifeste IIIF) et enfin que le jeu de données est suffisamment décrit (y compris concernant les normes de transcriptions adoptées). Il vous suffit ensuite de générer une description structurée du jeu à l'aide de notre formulaire puis d'ajouter le fichier YAML obtenu dans le dossier catalog du répertoire HTR-United. Cela déclenchera la mise à jour du contenu du catalogue.

Illustration du scénario 4

Scénario 4

Vous ne pouvez pas librement partager vos données (images ou transcriptions) mais vous souhaitez tout de même contribuer à HTR-United. Vous pouvez créer un répertoire au sein de l'organisation HTR-United uniquement dédié à la documentation de vos données grâce à un fichier README. Indiquez alors comment joindre le(s) propriétaire(s) des données afin d'en demander l'accès. Une fois ce répertoire en place, vous pouvez générer une description structurée à l'aide de notre formulaire puis d'ajouter le fichier YAML obtenu dans le dossier catalog du répertoire HTR-United. Cela déclenchera la mise à jour du contenu du catalogue.

Illustration du scénario 5