HTR-United
HTR-United propose un schéma de description pour homogénéiser les signalements des jeux de données, ainsi que des recommandations pour organiser le répertoire de données, et des outils de contrôle qualité et de documentation continue.
HTR-United est un écosystème prenant la forme d’une organisation Github, transparente et ouverte à tous·tes, reposant sur des développements minimalistes afin d’en faciliter la maintenance.
HTR-United est né du simple besoin -pour des projets- d’avoir accès à diverses vérités de terrain pour entraîner rapidement des modèles de transcription sur des petits corpus.
Utiliser les données d'HTR-United
Proposer mes données avec HTR-United
Vous pouvez contribuer au projet HTR-United en référençant votre jeu de données de vérité de terrain dans le catalogue. Pas besoin de charger vos données sur Github, elles peuvent être hébergées n'importe où ! Il suffit de générer les métadonnées à l'aide de notre formulaire puis de les ajouter dans votre répertoire ou bien dans le répertoire du projet htr-united, en fonction de votre situation. Ces métadonnées permettent de décrire vos données et les conditions d'accès et de réutilisation.
Vos données peuvent avoir été générées avec n'importe quel logiciel d'HTR ou à la main et peuvent être proposées dans plusieurs formats standards (XML ALTO ou XML PAGE). Afin qu'ils puissent être utiles à d'autres projets, les jeux de données doivent rassembler à minima : des transcriptions associées à des images, un lien vers les images, et des métadonnées décrivant notamment les règles d'annotation suivies.
Pour vous aider à comprendre quelles étapes suivre pour ajouter vos métadonnées au catalogue HTR-United, consultez nos scénarios !