Retour à la page principale --> Etude préalable
Une métadonnée est un ensemble structuré de données servant à décrire une ressource quelconque. Les métadonnées sont des données à propos dautres données et sont utilisées dans les systèmes de gestion de contenu pour éditer, gérer, rechercher, réutiliser, diffuser et publier de multiples contenus (textes, images, vidéo, ). Ces données à propos de données s'appliquent particulièrement bien aux pages Web. On peut ainsi vouloir coder de façon claire certains renseignements essentiels des pages : le titre, l'auteur, la date, les mots-clés, etc.
Cependant, les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale mais peuvent aussi être des ressources physiques. Les métadonnées sont en général constituées de mots-clés ou de texte libre, évidentes ou plus complexes et moins aisément définies : les avis d'un collectif de lecture d'un article, par exemple, nécessitent une structure de métadonnées évoluée capable d'annoter des portions de l'article, et cela, de façon multiple. Elles peuvent aussi être internes ou externes à la ressource.
Avec les métadonnées, le travail des moteurs d'indexation et de recherche est grandement facilité car ils peuvent extraire automatiquement de nombreuses informations sur le document, ainsi que reconstituer les relations qui existent entre documents (par exemple, on peut savoir qu'une page est la cinquième d'un ensemble cohérent de quinze pages chaînées les unes aux autres).
Dans le cas des ressources non digitales, les métadonnées externes sont généralement stockées dans des bases de données. Or, les métadonnées externes ont linconvénient de perdre toute leur utilité si les ressources référencées sont utilisées ailleurs que dans la base de données qui les référence.
Doù la nécessité de métadonnées internes. Grâce au balisage des données, on peut inclure un ou plusieurs jeux de métadonnées dans le fichier de la ressource. Les métadonnée sont alors embarquées dans la donnée. Néanmoins, il existe quelques désavantages liés aux métadonnées internes :
- tous les programmes de manipulation dimages ne sont pas capables de lire ou même de préserver les métadonnées incluses : lors dune rotation ou dun recadrage de limage, les métadonnées peuvent être supprimées.
- Les métadonnées internes ne sont aussi efficaces que celles stockées dans une base de données pour la gestion et la recherche dimages dans une grande base de données.
Il existe plusieurs types de métadonnées qui peuvent être utilisés dans différents contextes.
Les métadonnées sont donc utilisées par différentes communautés (bibliothécaires, documentalistes, informaticiens, ) afin de gérer de nombreux types de ressources (publications en série, articles, audio, vidéo, ).
Dans le reste du document, on ne focalisera toutefois que sur les métadonnées dans le cadre du Web sémantique.
Le Web sémantique est un Web intelligent où les informations ne sont plus stockées mais comprises par les ordinateurs afin dapporter à lutilisateur ce quil cherche vraiment. Actuellement les moteurs de recherche aident lors de la recherche dinformations sur le Web. Mais les deux seules questions auxquelles ils peuvent vraiment répondre sont :
Lutilisation des métadonnées savère donc nécessaire pour le développement dun Web sémantique car ils permettent entre autres de :
- Faciliter la recherche d'information
- décrire le contenu et les relations entre les fichiers d'un site,
- classer le contenu suivant un degré de difficulté ou un public cible,
- mieux référencer un site ou une page sur Internet.
- Faciliter l'interopérabilité
- partager et échanger des informations.
- Faciliter la gestion et l'archivage
- informer sur le cycle de vie des documents,
- gérer des collections de ressources,
- gérer des archives électroniques.
- les droits d'accès à des pages Web (restrictions de consultation).
- Authentifier un texte
- encoder une signature électronique pour valider un texte sur Internet
Avec lexplosion de sites Web et le progrès fait dans le domaine de limagerie numérique et du multimédia, le besoin davoir une meilleure gestion des contenus sest fait cruellement sentir. Les métadonnées savèrent particulièrement importantes pour les ressources visuelles qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver. En effet, une différence majeure entre images et textes, cest quil est impossible de faire une recherche « plein texte » sur limage, doù lutilité des métadonnées pour retrouver des images dans des bases de données (et notamment sur Internet). Ces métadonnées aident alors les utilisateurs à découvrir lexistence de ressources, à évaluer la ressource, à porter un jugement sur celle-ci et à la comparer avec dautres ressources.
De plus, pour être réellement utiles, les métadonnées doivent toujours être associées aux données quelles décrivent. Le plus simple est alors de les lier physiquement aux données en les incluant dans les données pour ne pas les égarer. Or, tous les formats dimages noffrent pas la possibilité dinsérer directement des métadonnées et même si certains formats (JPEG, TIF, PNG et JPEG2000) permettent dinsérer les métadonnées, tous les navigateurs actuels sont incapables de lire et dinterpréter des métadonnées associées à des formats dimages.
Comme mentionnée précédemment, les métadonnées sont utilisées par plusieurs communautés. Or on ne peut pas adopter la même description pour toutes les ressources et il existe donc plusieurs standards tels que MARC (Machine-readable cataloging pour la description des collections) et MPEG-7(Multimedia Content Description Interface pour la description des objets multimédias) qui sont orientés métiers.
Les objets informatiques contiennent quant à eux des métadonnées implicites ou explicites comme les champs <title> ou <meta> des pages HTML, les propriétés dun document, les champs IPTC ou EXIF des images, les champs ID3 des fichiers MP3 .
On remarque bien que les métadonnées sont organisées par centres dintérêts, par éditeurs de logiciels et systèmes et quil ny a aucune interopérabilité entre les différentes métadonnées.
Doù la nécessité de normes et de standards de description de ressources à laide de métadonnées.
Les métadonnées
Une métadonnée est un ensemble structuré de données servant à décrire une ressource quelconque. Les métadonnées sont des données à propos dautres données et sont utilisées dans les systèmes de gestion de contenu pour éditer, gérer, rechercher, réutiliser, diffuser et publier de multiples contenus (textes, images, vidéo, ). Ces données à propos de données s'appliquent particulièrement bien aux pages Web. On peut ainsi vouloir coder de façon claire certains renseignements essentiels des pages : le titre, l'auteur, la date, les mots-clés, etc.
Cependant, les ressources décrites par des métadonnées ne sont pas nécessairement sous forme digitale mais peuvent aussi être des ressources physiques. Les métadonnées sont en général constituées de mots-clés ou de texte libre, évidentes ou plus complexes et moins aisément définies : les avis d'un collectif de lecture d'un article, par exemple, nécessitent une structure de métadonnées évoluée capable d'annoter des portions de l'article, et cela, de façon multiple. Elles peuvent aussi être internes ou externes à la ressource.
Avec les métadonnées, le travail des moteurs d'indexation et de recherche est grandement facilité car ils peuvent extraire automatiquement de nombreuses informations sur le document, ainsi que reconstituer les relations qui existent entre documents (par exemple, on peut savoir qu'une page est la cinquième d'un ensemble cohérent de quinze pages chaînées les unes aux autres).
Métadonnées internes et externes
Dans le cas des ressources non digitales, les métadonnées externes sont généralement stockées dans des bases de données. Or, les métadonnées externes ont linconvénient de perdre toute leur utilité si les ressources référencées sont utilisées ailleurs que dans la base de données qui les référence.
Doù la nécessité de métadonnées internes. Grâce au balisage des données, on peut inclure un ou plusieurs jeux de métadonnées dans le fichier de la ressource. Les métadonnée sont alors embarquées dans la donnée. Néanmoins, il existe quelques désavantages liés aux métadonnées internes :
- tous les programmes de manipulation dimages ne sont pas capables de lire ou même de préserver les métadonnées incluses : lors dune rotation ou dun recadrage de limage, les métadonnées peuvent être supprimées.
- Les métadonnées internes ne sont aussi efficaces que celles stockées dans une base de données pour la gestion et la recherche dimages dans une grande base de données.
Types de métadonnées
Il existe plusieurs types de métadonnées qui peuvent être utilisés dans différents contextes.
TYPE | DEFINITION |
Administrative | Utilisée pour la gestion de ressources, e.x copyright, informations sur lacquisition |
Descriptive | Métadonnée servant à décrire ou à identifier des ressources e.x annotations |
Préservation | Métadonnée liée à la préservation dune ressource e.x létat physique de la ressource, restaurations déjà effectuées. |
Technique | Métadonnée décrivant le fonctionnement du système, ou les informations liées à la numérisation de la ressource, e.x le format et la compression |
Utilisation | Métadonnée associée au niveau et au type dutilisation faite de la ressource e.x utilisation et utilisateurs |
Les métadonnées sont donc utilisées par différentes communautés (bibliothécaires, documentalistes, informaticiens, ) afin de gérer de nombreux types de ressources (publications en série, articles, audio, vidéo, ).
Dans le reste du document, on ne focalisera toutefois que sur les métadonnées dans le cadre du Web sémantique.
Intérêt des métadonnées dans le cas du Web sémantique
Le Web sémantique est un Web intelligent où les informations ne sont plus stockées mais comprises par les ordinateurs afin dapporter à lutilisateur ce quil cherche vraiment. Actuellement les moteurs de recherche aident lors de la recherche dinformations sur le Web. Mais les deux seules questions auxquelles ils peuvent vraiment répondre sont :
- Quelles sont les pages contenant le terme X ?
- Quelles sont les pages les plus populaires au sujet de Y ?
Lutilisation des métadonnées savère donc nécessaire pour le développement dun Web sémantique car ils permettent entre autres de :
- Faciliter la recherche d'information
- décrire le contenu et les relations entre les fichiers d'un site,
- classer le contenu suivant un degré de difficulté ou un public cible,
- mieux référencer un site ou une page sur Internet.
- Faciliter l'interopérabilité
- partager et échanger des informations.
- Faciliter la gestion et l'archivage
- informer sur le cycle de vie des documents,
- gérer des collections de ressources,
- gérer des archives électroniques.
- Gérer et protéger les droits
- les droits d'accès à des pages Web (restrictions de consultation).
- Authentifier un texte
- encoder une signature électronique pour valider un texte sur Internet
Métadonnées et Images
Avec lexplosion de sites Web et le progrès fait dans le domaine de limagerie numérique et du multimédia, le besoin davoir une meilleure gestion des contenus sest fait cruellement sentir. Les métadonnées savèrent particulièrement importantes pour les ressources visuelles qui, sans elles, peuvent demeurer pratiquement inexploitables et impossibles à retrouver. En effet, une différence majeure entre images et textes, cest quil est impossible de faire une recherche « plein texte » sur limage, doù lutilité des métadonnées pour retrouver des images dans des bases de données (et notamment sur Internet). Ces métadonnées aident alors les utilisateurs à découvrir lexistence de ressources, à évaluer la ressource, à porter un jugement sur celle-ci et à la comparer avec dautres ressources.
De plus, pour être réellement utiles, les métadonnées doivent toujours être associées aux données quelles décrivent. Le plus simple est alors de les lier physiquement aux données en les incluant dans les données pour ne pas les égarer. Or, tous les formats dimages noffrent pas la possibilité dinsérer directement des métadonnées et même si certains formats (JPEG, TIF, PNG et JPEG2000) permettent dinsérer les métadonnées, tous les navigateurs actuels sont incapables de lire et dinterpréter des métadonnées associées à des formats dimages.
Métadonnées métiers et informatiques
Comme mentionnée précédemment, les métadonnées sont utilisées par plusieurs communautés. Or on ne peut pas adopter la même description pour toutes les ressources et il existe donc plusieurs standards tels que MARC (Machine-readable cataloging pour la description des collections) et MPEG-7(Multimedia Content Description Interface pour la description des objets multimédias) qui sont orientés métiers.
Les objets informatiques contiennent quant à eux des métadonnées implicites ou explicites comme les champs <title> ou <meta> des pages HTML, les propriétés dun document, les champs IPTC ou EXIF des images, les champs ID3 des fichiers MP3 .
On remarque bien que les métadonnées sont organisées par centres dintérêts, par éditeurs de logiciels et systèmes et quil ny a aucune interopérabilité entre les différentes métadonnées.
Doù la nécessité de normes et de standards de description de ressources à laide de métadonnées.