Retour à la page principale --> Etude préalable



Les métadonnées



Une métadonnée est un ensemble structuré de données servant à décrire une ressource quelconque. Les métadonnées sont des données à propos d’autres données et sont utilisées dans les systèmes de gestion de contenu pour éditer, gérer, rechercher, réutiliser, diffuser et publier de multiples contenus (textes, images, vidéo,…). Ces données à propos de données s'appliquent particulièrement bien aux pages Web. On peut ainsi vouloir coder de façon claire certains renseignements essentiels des pages : le titre, l'auteur, la date, les mots-clés, etc.…
Cependant, les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale mais peuvent aussi être des ressources physiques. Les métadonnées sont en général constituées de mots-clés ou de texte libre, évidentes ou plus complexes et moins aisément définies : les avis d'un collectif de lecture d'un article, par exemple, nécessitent une structure de métadonnées évoluée capable d'annoter des portions de l'article, et cela, de façon multiple. Elles peuvent aussi être internes ou externes à la ressource.
Avec les métadonnées, le travail des moteurs d'indexation et de recherche est grandement facilité car ils peuvent extraire automatiquement de nombreuses informations sur le document, ainsi que reconstituer les relations qui existent entre documents (par exemple, on peut savoir qu'une page est la cinquième d'un ensemble cohérent de quinze pages chaînées les unes aux autres).

  • Métadonnées internes et externes

Dans le cas des ressources non digitales, les métadonnées externes sont généralement stockées dans des bases de données. Or, les métadonnées externes ont l’inconvénient de perdre toute leur utilité si les ressources référencées sont utilisées ailleurs que dans la base de données qui les référence.
D’où la nécessité de métadonnées internes. Grâce au balisage des données, on peut inclure un ou plusieurs jeux de métadonnées dans le fichier de la ressource. Les métadonnée sont alors embarquées dans la donnée. Néanmoins, il existe quelques désavantages liés aux métadonnées internes :
- tous les programmes de manipulation d’images ne sont pas capables de lire ou même de préserver les métadonnées incluses : lors d’une rotation ou d’un recadrage de l’image, les métadonnées peuvent être supprimées.
- Les métadonnées internes ne sont aussi efficaces que celles stockées dans une base de données pour la gestion et la recherche d’images dans une grande base de données.

  • Types de métadonnées


Il existe plusieurs types de métadonnées qui peuvent être utilisés dans différents contextes.

TYPE DEFINITION
Administrative Utilisée pour la gestion de ressources, e.x copyright, informations sur l’acquisition
Descriptive Métadonnée servant à décrire ou à identifier des ressources e.x annotations
Préservation Métadonnée liée à la préservation d’une ressource e.x l’état physique de la ressource, restaurations déjà effectuées.
TechniqueMétadonnée décrivant le fonctionnement du système, ou les informations liées à la numérisation de la ressource, e.x le format et la compression
UtilisationMétadonnée associée au niveau et au type d’utilisation faite de la ressource e.x utilisation et utilisateurs



Les métadonnées sont donc utilisées par différentes communautés (bibliothécaires, documentalistes, informaticiens, …) afin de gérer de nombreux types de ressources (publications en série, articles, audio, vidéo, …).
Dans le reste du document, on ne focalisera toutefois que sur les métadonnées dans le cadre du Web sémantique.

  • Intérêt des métadonnées dans le cas du Web sémantique

Le Web sémantique est un Web intelligent où les informations ne sont plus stockées mais comprises par les ordinateurs afin d’apporter à l’utilisateur ce qu’il cherche vraiment. Actuellement les moteurs de recherche aident lors de la recherche d’informations sur le Web. Mais les deux seules questions auxquelles ils peuvent vraiment répondre sont :
  • Quelles sont les pages contenant le terme X ?
  • Quelles sont les pages les plus populaires au sujet de Y ?
Ceci démontre la restriction qui pèse en ce moment sur les recherches effectuées sur le Web. Le Web Sémantique cherche à transformer la masse ingérable de pages Web en un gigantesque index hiérarchisé. Parmi les avantages qui en découleront seront que les moteurs de recherche pourront répondre à des demandes précises et que les données seront réutilisables au travers d’applications diverses.
L’utilisation des métadonnées s’avère donc nécessaire pour le développement d’un Web sémantique car ils permettent entre autres de :
- Faciliter la recherche d'information
- décrire le contenu et les relations entre les fichiers d'un site,
- classer le contenu suivant un degré de difficulté ou un public cible,
- mieux référencer un site ou une page sur Internet.

- Faciliter l'interopérabilité
- partager et échanger des informations.

- Faciliter la gestion et l'archivage
- informer sur le cycle de vie des documents,
- gérer des collections de ressources,
- gérer des archives électroniques.

  • Gérer et protéger les droits
- les droits de propriété intellectuelle,
- les droits d'accès à des pages Web (restrictions de consultation).

- Authentifier un texte
- encoder une signature électronique pour valider un texte sur Internet

  • Métadonnées et Images

Avec l’explosion de sites Web et le progrès fait dans le domaine de l’imagerie numérique et du multimédia, le besoin d’avoir une meilleure gestion des contenus s’est fait cruellement sentir. Les métadonnées s’avèrent particulièrement importantes pour les ressources visuelles qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver. En effet, une différence majeure entre images et textes, c’est qu’il est impossible de faire une recherche « plein texte » sur l’image, d’où l’utilité des métadonnées pour retrouver des images dans des bases de données (et notamment sur Internet). Ces métadonnées aident alors les utilisateurs à découvrir l’existence de ressources, à évaluer la ressource, à porter un jugement sur celle-ci et à la comparer avec d’autres ressources.
De plus, pour être réellement utiles, les métadonnées doivent toujours être associées aux données qu’elles décrivent. Le plus simple est alors de les lier physiquement aux données en les incluant dans les données pour ne pas les égarer. Or, tous les formats d’images n’offrent pas la possibilité d’insérer directement des métadonnées et même si certains formats (JPEG, TIF, PNG et JPEG2000) permettent d’insérer les métadonnées, tous les navigateurs actuels sont incapables de lire et d’interpréter des métadonnées associées à des formats d’images.



  • Métadonnées métiers et informatiques

Comme mentionnée précédemment, les métadonnées sont utilisées par plusieurs communautés. Or on ne peut pas adopter la même description pour toutes les ressources et il existe donc plusieurs standards tels que MARC (Machine-readable cataloging pour la description des collections) et MPEG-7(Multimedia Content Description Interface pour la description des objets multimédias) qui sont orientés métiers.
Les objets informatiques contiennent quant à eux des métadonnées implicites ou explicites comme les champs <title> ou <meta> des pages HTML, les propriétés d’un document, les champs IPTC ou EXIF des images, les champs ID3 des fichiers MP3…….

On remarque bien que les métadonnées sont organisées par centres d’intérêts, par éditeurs de logiciels et systèmes et qu’il n’y a aucune interopérabilité entre les différentes métadonnées.
D’où la nécessité de normes et de standards de description de ressources à l’aide de métadonnées.