Les propositions de solution
Tela Botanica utilise une base de données d’environ 80 000 taxons (noms scientifiques des plantes). L’application d’indexation des plantes existante a été développée en PHP version 4 et repose sur une base de données
MySQL?. Le serveur employé est Apache.
1. Description des différentes solutions
1.1. Les architectures possibles
1.1.1. Solution centralisée
-
Principe
Cette solution repose sur un serveur centralisé de Tela Botanica. Toutes les images sont directement stockées sur ce serveur et la base de données contiendra l’adresse d’accès à ces images. Un utilisateur du site Tela Botanica souhaitant consulter des photos d’une plante soumet une demande de page au serveur. Puis celui-ci recherche les images concernées, avant de transmettre le résultat de la requête au client.
En terme dÂ’ordre de grandeur, cela ferait environ 20 Go Ă 200 Go pour le stockage des images sur le serveur en comptant environ entre 50 Ko et 500 Ko par image et 5 photos par taxon.
1.1.2. Solution décentralisée : « réseau »
-
Principe
Dans cette solution, les images sont stockées sur les serveurs des membres du réseau Tela Botanica. La base de données de Tela Botanica contiendra uniquement l’URL d’accès à ces images. Quand un utilisateur veut consulter les images d’une plante, une requête est envoyée au serveur de Tela Botanica. Puis le serveur recherche les URL correspondantes avant de récupérer ces photos sur les sites des membres de Tela Botanica. Une fois ces images trouvées, le serveur renvoie le résultat au client sous forme de page HTML contenant un panel d’images en miniature.
Cette solution présente l’avantage de ne prendre aucune place supplémentaire pour stocker les images sur le serveur, mais cela ne change pas la taille de la base de données pour les références vers ces photos et le stockage des métadonnées. Cependant, le temps de réponse peut être plus important qu’une solution centralisée, étant donné qu’il faut rechercher les images sur les serveurs de plusieurs membres du réseau Tela Botanica.
-
Evolutions par rapport Ă la situation actuelle
1.1.3. Solution mixte
-
Principe
Cette solution repose sur le principe des deux premières. Elle permet d’équilibrer les inconvénients et les avantages des deux solutions de base en répartissant la charge de stockage des images entre le serveur de Tela Botanica et les serveurs des membres de l’association. Ce principe permet aussi bien aux gens ayant leur propre site Web, que ceux n’en possédant pas de publier des images via le réseau de Tela Botanica. De plus, cela laisse la possibilité aux membres de choisir le lieu de stockage des images, s’ils possèdent leurs propres sites Web.
En terme d’ordre de grandeur, cela ferait environ de 10 Go à 100 Go pour le stockage des images sur le serveur de Tela Botanica sachant qu’approximativement la moitié des images sera stockée sur ce serveur.
1.2. Les techniques possibles
a) Des métadonnées internes : l’IPTC
L’IPTC est une norme permettant d’intégrer directement des métadonnées à l’intérieur même d’une image. Cette technique a l’avantage de ne pas séparer les informations de l’image. Ainsi, si un utilisateur télécharge une image, son origine sera toujours connue ; puisque Tela Botanica stockera dans les champs IPTC ses propres données récoltées. Cependant, cette méthode est non extensible, puisqu’elle s’applique uniquement aux images au format JPEG ou TIFF, et non à d’autres types de supports médiatiques tels que des documents textes. Les membres devront obligatoirement soumettre des images au format JPEG ou TIFF pour éviter un retraitement manuel par Tela Botanica. Les champs IPTC seront rajoutés ou modifiés à l’aide d’un script PHP.
Par ailleurs, l’IPTC peut s’appliquer aussi bien à une solution centralisée, réseau ou mixte.
Dans le cas d’une solution centralisée, l’image proposée par un membre du réseau Tela Botanica sera retraitée par le serveur pour y ajouter ou modifier des champs IPTC. Cette image retravaillée sera directement stockée sur le serveur de Tela Botanica.
Pour la solution réseau, l’image soumise par un membre du réseau Tela Botanica sera transmise sur le serveur pour un retraitement. Une fois cette opération effectuée, l’image contenant les champs IPTC de Tela Botanica sera renvoyée au client pour qu’il la mette à jour sur son propre site Internet. Cet échange d’images entre client et serveur est indispensable, car nous n’avons aucun droit d’accès en écriture sur le serveur du membre du réseau Tela Botanica. D’autre part, bien qu’il existe des logiciels permettant à l’utilisateur de rajouter ses propres champs IPTC, il est préférable que le retraitement soit effectué par Tela Botanica pour avoir un meilleur contrôle sur les champs renseignés et pour faciliter la saisie au client. De plus, les logiciels libres multiplates-formes de gestion d’images (comme Mapivi) ne sont pas encore finalisés et simples d’installation pour un non-informaticien.
Quant à la solution mixte, elle combine les techniques applicables aux deux premières solutions.
b) Des métadonnées externes : le RDF en vue du Web sémantique
Le RDF est un cadre de description de ressources permettant de rajouter des métadonnées à n’importe quel type de document : texte, image, audio… L’extensibilité présente un atout. Cependant, cette technique de référencement n’est pas encore prise en charge par les moteurs de recherche actuels tels que Google. L’utilisation de RDF constituerait une anticipation des méthodes de référencement futures du Web sémantique, étant donné que le RDF a reçu une recommandation du W3C en février 2004. Actuellement, seul un logiciel au stade expérimental (RDFPic) permet d’intégrer les métadonnées RDF directement dans une image et aucune API (Application Programming Interface) n’est disponible pour effectuer cette opération. La dernière version de RDFPic est multiplate-forme du fait qu’elle est écrite en Java, mais elle n’est pas simple d’installation pour un non-informaticien. De plus, l’emploi de ce logiciel, même s’il était finalisé, nécessiterait une intervention manuelle de la part d’un utilisateur. C’est pourquoi, nous pensons que même dans le futur cette solution ne sera pas envisageable. La description RDF sera donc mise dans un fichier « .rdf » externe à l’image et un lien vers ce fichier sera inséré dans la page HTML générée par le serveur de Tela Botanica.
D’autre part, se pose le problème du référencement des informations dans des pages dynamiques. En effet, le système de Tela Botanica est composé entièrement de page dynamique généré par PHP et les moteurs ne recensent que les pages statiques. D’où la nécessité d’utiliser la technique de l’URL Rewriting pour que celles-ci soient référencées. Il s’agit de définir des règles de réécriture d’adresse des pages, afin qu’elles soient détectées comme des pages statiques. Cette technique est encore aujourd’hui assez lourde à manipuler, mais tout à fait envisageable dans le cas du développement du Web sémantique.
Le RDF comme l’IPTC peut s’appliquer aux différentes solutions.
Pour chaque solution, les informations concernant les images sont stockés dans la base de données de Tela Botanica. Les fichiers RDF correspondant sont générés à la volée et un lien vers ces fichiers est incorporé dans la page de visualisation des images lors de chaque demande de l’utilisateur.
2. Evaluation globale des solutions
-
Problèmes résolus
· Consultation possible d’images de plantes fiables pour certain taxon (toutes les images concernent la botanique).
· Classement des images d’après des critères botaniques ce qui permet d’affiner la recherche.
· Une photo incorrecte peut être facilement déréférencée : meilleure contrôle des images.
· Les informations recueillies lors de la soumission de photos évitent d’avoir des doublons non pertinents.
-
Problèmes non résolus
· Aucune garantie quant à l’origine des images soumises par les membres de Tela Botanica.
· L’exhaustivité de la base de données est non assurée, car elle est soumise à la bonne volonté et à la participation des membres du réseau Tela Botanica.
· Problème de la protection des droits d’auteur.
-
Faisabilité technique
Tela Botanica disposant déjà de toute l’architecture et des installations nécessaires, toutes les solutions proposées sont tout à fait faisables d’un point de vue technique.
-
Sécurité
- Aucune modification par rapport au système existant en terme de sécurité.
- Une fois qu’une image a été soumise, les informations relatives à cette image ne peuvent être changées que par l’administrateur de la base de données.
3. Les différences
3.1. Entre les architectures
Plus une solution est décentralisée, plus elle est dépendante des serveurs extérieurs au site de Tela Botanica. Le moindre problème sur un site partenaire se répercute sur le site de Tela Botanica (panne de serveur, image indisponible, problème d’hébergement…) : l’image est non consultable. De plus, les changements d’images ne sont pas entièrement contrôlés. Quant à la solution centralisée, elle est soumise uniquement à la responsabilité de Tela Botanica.
3.2. Entre les techniques possibles
L’IPTC présente l’avantage de rendre inséparable les métadonnées et l’image. Dans le cas d’une solution, plus ou moins décentralisée, cette technique permettrait donc une pseudo-authentification de l’image et un contrôle accru quant aux changements qu’elle pourrait subir. Cependant, ce marquage est fragile, puisqu’à n’importe quel moment les champs IPTC peuvent être modifiés par un utilisateur à l’aide d’un logiciel de retraitement d’images. L’IPTC contrairement au RDF nécessite un échange d’image : l’image est envoyée à Tela Botanica, marquée et remplacée sur le serveur partenaire.
La solution retenue basée sur le RDF en revanche ne permet pas d’intégrer les métadonnées au sein même de l’image. Mais cette technique est extensible à tout type de document. Aucune redondance d’informations n’apparaît, puisque les données ne sont pas également stockées à l’intérieur de l’image, mais uniquement chez Tela Botanica. De plus, avec cette méthode, les images soumises par l’utilisateur ne doivent pas obligatoirement être en JPEG ou en TIFF comme dans le cas de l’IPTC.
4. Avis motivé
La solution conseillée est celle combinant du RDF avec une architecture mixte. En effet, le RDF évite une manipulation d’image qui peut s’avérer lourde : cela évite de devoir réenregistrer les images chez l’hébergeur après retraitement. De plus, cela nous permettra d’étendre le mécanisme de codage des métadonnées à tout type de document dans l’optique du développement du Web sémantique. Cette solution ne restreint pas le type d’utilisateurs pouvant proposer des images. En effet, elle permet de garder la philosophie « réseau »de Tela Botanica tout en n’excluant pas les personnes qui ne peuvent pas publier de photos sur un site Internet. De plus, cette solution permet de répartir la charge de stockage entre le serveur de Tela Botanica et les serveurs Web des membres du réseau.
Par ailleurs, une telle solution, basée sur une action volontaire de la part des membres du réseau Tela Botanica pour la soumission d’images, nécessitera une certaine motivation des membres. La base de données d’images mettra un délai assez long pour être aussi complète que celle de Google et pour qu’à chaque plante corresponde une image référencée par Tela Botanica. Au départ le nombre d’images référencées dans la base sera relativement faible. C’est pourquoi, nous préconisons de conserver les deux systèmes de recherche d’images en parallèle pour palier un manque éventuel en attendant que la base soit entièrement exhaustive.