Projet Microformat eFlore - !BROUILLON!
Projet de récupération des textes des principales flores françaises tombées dans le domaine public et mises à disposition sur le site archive.org.Les objectifs sont :
- de collecter les textes originaux des descriptions de plante et des clés
- de pouvoir facilement et automatiquement mettre à disposition les textes dans eFlore.
- d'ajouter des méta-données aux textes via le principe des micro-formats
Étapes
Principale- Trouver un description ou une clé dans un document tombé dans le domaine public sur le site archive.org
- Créer une nouvelle page dans le Wikini avec un nom conforme au format définit ci-dessous pour indiquer la référence bibliographique de la publication. (Ex. : BibCoste1937)
- Indiquer la référence bibliographique conformément au recommandation décrite dans la page Convention bibliographique de Wikipedia
- Créer une nouvelle page dans le Wikini avec un nom conforme au format définit ci-dessous pour coller le texte de la Description ou de la Clé. (Ex. : DscCoste1937T01P0034Clematis ou CleCoste1937T01P0034Clematis)
- Trouver le texte du document s'il a déjà été passé à l'OCR ou utiliser Tesseract pour le récupérer depuis l'image.
- Copier le texte original dans la page du Wikini (A VOIR : entre deux balise div portant la classe txt-original)
- Ajouter un lien vers la page contenant l'image du texte. (A VOIR : La balise a doit porter l'attribut rel="source".)
- Corriger les erreurs de la reconnaissance de caractère
Secondaire
- Mettre en forme conformément au texte d'origine en utilisant la syntaxe :
- //italique//, **gras**, <span class="petite-majuscule">petite majuscule</span>
- Caractères spéciaux :
- Comparer le texte avec le document d'origine pour rechercher d'éventuelles erreurs.
Tertiaire
- Ajouter les méta-données via les micro-formats
Format de création des noms de pages dans ce wikini
Pour les pages faisant référence à un référentiel, il faut pouvoir principalement indiquer la référence au nom mais aussi éventuellement au taxon. Actuellement, le principe est "Code projet" en majuscule, suivi de "nn" en minuscule et du numéro nomenclatural pour les noms ou de "nt" en minuscule suivi du numéro taxonomique. Par exemple :- BDNFFnn18235 : sommaire de l'ensemble des informations pour le nom 18235 du projet BDNFF.
- BDNFFnt1325 : sommaire de l'ensemble des informations sur le taxon 1325 du projet BDNFF.
- RefBDNFFnn18235 : sommaire de l'ensemble des informations pour le nom 18235 du référentiel BDNFF.
- RefBDNFFnt1325 : sommaire de l'ensemble des informations sur le taxon 1325 du référentiel BDNFF.
Pour les textes provenant de documents scannés en ligne, nous rencontrons le plus souvent deux types de document les clés et les descriptions. Nous pourrions utiliser la syntaxe suivante :
- DscCoste1937T01P0034Clematis : Description du genre Clematis situé à la page 34 du tome 01 de la publication de 1937 de Coste.
- CleCoste1937T01P0034Clematis : Clé du genre Clematis situé à la page 34 du tome 01 de la publication de 1937 de Coste.
Pour indiquer les références bibliographique d'une publication, nous pourrions créer des pages avec la syntaxe suivante :
- BibCoste1937 : contient la référence bibliographique d'une publication. Ici celle d'une publication de Coste en 1937.
- BibCoste1937a : si un auteur à publier plusieurs document la même année, faire suivre l'année par une lettre en minuscule.
Pour lister toutes les pages liées aux référentiels :
- liées à des référentiels : tag = "Ref%"
- d'un référentiel particulier : tag = "RefBDNFF%"
- concernant les noms d'un référentiel particulier : tag = "RefBDNFF%nn%"
- concernant les taxons d'un référentiel particulier : tag = "RefBDNFF%nn%"
Pour lister toutes les pages liées aux ouvrages numérisées :
- concernant les textes d'un ouvrage numérisé : tag = "%Coste1937%"
- concernant les descriptions de taxons d'un ouvrage numérisé : tag = "DscCoste1937%"
- concernant les clés d'un ouvrage numérisé : tag = "CleCoste1937%"
- contenant des références bibliographiques : tag = "Bib%"
- concernant le nom "Clematis vitalba" : tag = "%ClematisVitalba"
Pour récupérer l'ensemble des données des ouvrages numérisés par l'entrée "nn" d'un référentiel, il suffit de lister tous les liens de la page RefBDNFFv5sv00nn86188 et de rechercher ceux qui pointent vers des pages débutant par "Cle..." ou "Dsc...".
Problèmes rencontrés
- Certaines clés sont imbriqués dans la flore avec la description des espèces. Exemple : Grenier & Godron, 1848. Comment indiquer ce genre de clé en respectant le format d'origine et l'ajout d'information dans le wikini?
Micro-formats d'eFlore
- Microformat Nom de taxon pour eFlore
- Microformat Publication pour eFlore
- Microformat Description de taxon pour eFlore
Références microformats & ontologies
Nom de taxon- http://rs.tdwg.org/ontology/voc/TaxonName
- http://rs.tdwg.org/ontology/voc/TaxonRank
- http://microformats.org/wiki/species
- http://rs.tdwg.org/ontology/voc/PublicationCitation
- http://rs.tdwg.org/ontology/voc/Person
- http://microformats.org/wiki/citation en français
- http://microformats.org/wiki/citation-strawman-00
- http://microformats.org/wiki/hcard
Références autres
Test sur descriptions et clés pour le genre Clematis
- Liens vers les descriptions et clés de Clematis : RefBDNFFnn86188
- Liens vers les descriptions de Clematis vitalba : RefBDNFFnn18235
Quelques éditeurs WYSIWYG qui pourraient servir à l'édition des métadonnées
- http://microformats.org/wiki/WYSIWYG-plugins
- WYMEditor - jQuery : Site officiel | http://files.wymeditor.org/wymeditor/trunk/src/examples/13-silver-skin.html Demo
- CLEditor - JQUery : Site officiel | Demo
Feuille de style
La feuille de style ci-dessous permet de facilement visualiser les méta-données liées aux éléments.*[lang]:after { content:" ("attr(lang)")"; color:#888; background-color:inherit; font-style:italic; size:80%;} strong[class]:hover,em[class]:hover,abr[class]:hover,span:hover{ background-color:white; display:block-inline; cursor:crosshair; font-style:normal !important;} strong[class]:hover:before,em[class]:hover:before,abr[class]:hover:before,span:hover:before{ content:"["; font-weight:bold;} strong[class]:hover:after,em[class]:hover:after,abr[class]:hover:after,span:hover:after{ content:"]->"attr(class); font-weight:bold; font-style:normal !important; color:black;} /* Mise en forme similaire au texte d'origine */ .petite-majuscule{ font-variant:small-caps;} /* Zones d'informations générales */ .txt-original{ width:350px; text-align:justify; white-space:pre-wrap; line-height:1.6em; font-size:1em;} .txt-original:before{ content:"Texte original : ";} .source:before{ content:"Source : ";} /* TODO : trouver des correspondances avec les ontologies du TDWG */ .nn{ font-weight:bold;} .nom-vernaculaire{ background-color:#d9ffb2; border:0.1em solid #d9ffb2;} .utilisation{ background-color:#d9b2ff; border:0.1em solid #d9b2ff;} .floraison{ background-color:#b2e3ff; border:0.1em solid #b2e3ff;} /* TaxonName Ontologie TDWG */ .taxonName{ background-color:#ffecb2; border:0.1em solid #ffecb2;} .uninomial, .genusPart, .infragenericEpithet, .specificEpithet, .infraspecificEpithet { font-style:italic;} .taxonName .publicationCitation{ border:0.1em dotted #ffecb2;} /* SPMInfoItems Ontologie TDWG */ .description{ background-color:#ffcfb2; border:0.1em solid #ffcfb2;} .habitat{ background-color:#f5b2ff; border:0.1em solid #f5b2ff;} .distribution{ background-color:#ccf; border:0.1em solid #ccf;} /* PublicationCitation Ontologie TDWG */ .publicationCitation{ background-color:#f6ffb2; border:0.1em solid #f6ffb2;} /* PublicationCitation : autorship */ .publicationCitation .authorship{ } /* PublicationCitation : short title */ .publicationCitation .shortTitle{ font-style:italic;} /* PublicationCitation : pages */ .publicationCitation .pages{ }