Retour à la page principale --> Etude préalable
Tela Botanica utilise une base de données denviron 80 000 taxons (noms scientifiques des plantes). Lapplication dindexation des plantes existante a été développée en PHP version 4 et repose sur une base de données MySQL. Le serveur employé est Apache.
- Principe
Cette solution repose sur un serveur centralisé de Tela Botanica. Toutes les images sont directement stockées sur ce serveur et la base de données contiendra ladresse daccès à ces images. Un utilisateur du site Tela Botanica souhaitant consulter des photos dune plante soumet une demande de page au serveur. Puis celui-ci recherche les images concernées, avant de transmettre le résultat de la requête au client.
En terme dordre de grandeur, cela ferait environ 20 Go à 200 Go pour le stockage des images sur le serveur en comptant environ entre 50 Ko et 500 Ko par image et 5 photos par taxon.

- Principe
Dans cette solution, les images sont stockées sur les serveurs des membres du réseau Tela Botanica. La base de données de Tela Botanica contiendra uniquement lURL daccès à ces images. Quand un utilisateur veut consulter les images dune plante, une requête est envoyée au serveur de Tela Botanica. Puis le serveur recherche les URL correspondantes avant de récupérer ces photos sur les sites des membres de Tela Botanica. Une fois ces images trouvées, le serveur renvoie le résultat au client sous forme de page HTML contenant un panel dimages en miniature.
Cette solution présente lavantage de ne prendre aucune place supplémentaire pour stocker les images sur le serveur, mais cela ne change pas la taille de la base de données pour les références vers ces photos et le stockage des métadonnées. Cependant, le temps de réponse peut être plus important quune solution centralisée, étant donné quil faut rechercher les images sur les serveurs de plusieurs membres du réseau Tela Botanica.

- Evolutions par rapport à la situation actuelle
- Principe
Cette solution repose sur le principe des deux premières. Elle permet déquilibrer les inconvénients et les avantages des deux solutions de base en répartissant la charge de stockage des images entre le serveur de Tela Botanica et les serveurs des membres de lassociation. Ce principe permet aussi bien aux gens ayant leur propre site Web, que ceux nen possédant pas de publier des images via le réseau de Tela Botanica. De plus, cela laisse la possibilité aux membres de choisir le lieu de stockage des images, sils possèdent leurs propres sites Web.
En terme dordre de grandeur, cela ferait environ de 10 Go à 100 Go pour le stockage des images sur le serveur de Tela Botanica sachant quapproximativement la moitié des images sera stockée sur ce serveur.

LIPTC est une norme permettant dintégrer directement des métadonnées à lintérieur même dune image. Cette technique a lavantage de ne pas séparer les informations de limage. Ainsi, si un utilisateur télécharge une image, son origine sera toujours connue ; puisque Tela Botanica stockera dans les champs IPTC ses propres données récoltées. Cependant, cette méthode est non extensible, puisquelle sapplique uniquement aux images au format JPEG ou TIFF, et non à dautres types de supports médiatiques tels que des documents textes. Les membres devront obligatoirement soumettre des images au format JPEG ou TIFF pour éviter un retraitement manuel par Tela Botanica. Les champs IPTC seront rajoutés ou modifiés à laide dun script PHP.
Par ailleurs, lIPTC peut sappliquer aussi bien à une solution centralisée, réseau ou mixte.
Dans le cas dune solution centralisée, limage proposée par un membre du réseau Tela Botanica sera retraitée par le serveur pour y ajouter ou modifier des champs IPTC. Cette image retravaillée sera directement stockée sur le serveur de Tela Botanica.
Pour la solution réseau, limage soumise par un membre du réseau Tela Botanica sera transmise sur le serveur pour un retraitement. Une fois cette opération effectuée, limage contenant les champs IPTC de Tela Botanica sera renvoyée au client pour quil la mette à jour sur son propre site Internet. Cet échange dimages entre client et serveur est indispensable, car nous navons aucun droit daccès en écriture sur le serveur du membre du réseau Tela Botanica. Dautre part, bien quil existe des logiciels permettant à lutilisateur de rajouter ses propres champs IPTC, il est préférable que le retraitement soit effectué par Tela Botanica pour avoir un meilleur contrôle sur les champs renseignés et pour faciliter la saisie au client. De plus, les logiciels libres multiplates-formes de gestion dimages (comme Mapivi) ne sont pas encore finalisés et simples dinstallation pour un non-informaticien.
Quant à la solution mixte, elle combine les techniques applicables aux deux premières solutions.
Le RDF est un cadre de description de ressources permettant de rajouter des métadonnées à nimporte quel type de document : texte, image, audio Lextensibilité présente un atout. Cependant, cette technique de référencement nest pas encore prise en charge par les moteurs de recherche actuels tels que Google. Lutilisation de RDF constituerait une anticipation des méthodes de référencement futures du Web sémantique, étant donné que le RDF a reçu une recommandation du W3C en février 2004. Actuellement, seul un logiciel au stade expérimental (RDFPic) permet dintégrer les métadonnées RDF directement dans une image et aucune API (Application Programming Interface) nest disponible pour effectuer cette opération. La dernière version de RDFPic est multiplate-forme du fait quelle est écrite en Java, mais elle nest pas simple dinstallation pour un non-informaticien. De plus, lemploi de ce logiciel, même sil était finalisé, nécessiterait une intervention manuelle de la part dun utilisateur. Cest pourquoi, nous pensons que même dans le futur cette solution ne sera pas envisageable. La description RDF sera donc mise dans un fichier « .rdf » externe à limage et un lien vers ce fichier sera inséré dans la page HTML générée par le serveur de Tela Botanica.
Dautre part, se pose le problème du référencement des informations dans des pages dynamiques. En effet, le système de Tela Botanica est composé entièrement de page dynamique généré par PHP et les moteurs ne recensent que les pages statiques. Doù la nécessité dutiliser la technique de lURL Rewriting pour que celles-ci soient référencées. Il sagit de définir des règles de réécriture dadresse des pages, afin quelles soient détectées comme des pages statiques. Cette technique est encore aujourdhui assez lourde à manipuler, mais tout à fait envisageable dans le cas du développement du Web sémantique.
Le RDF comme lIPTC peut sappliquer aux différentes solutions.
Pour chaque solution, les informations concernant les images sont stockés dans la base de données de Tela Botanica. Les fichiers RDF correspondant sont générés à la volée et un lien vers ces fichiers est incorporé dans la page de visualisation des images lors de chaque demande de lutilisateur.
- Problèmes résolus
· Consultation possible dimages de plantes fiables pour certain taxon (toutes les images concernent la botanique).
· Classement des images daprès des critères botaniques ce qui permet daffiner la recherche.
· Une photo incorrecte peut être facilement déréférencée : meilleure contrôle des images.
· Les informations recueillies lors de la soumission de photos évitent davoir des doublons non pertinents.
- Problèmes non résolus
· Aucune garantie quant à lorigine des images soumises par les membres de Tela Botanica.
· Lexhaustivité de la base de données est non assurée, car elle est soumise à la bonne volonté et à la participation des membres du réseau Tela Botanica.
· Problème de la protection des droits dauteur.
- Faisabilité technique
Tela Botanica disposant déjà de toute larchitecture et des installations nécessaires, toutes les solutions proposées sont tout à fait faisables dun point de vue technique.
- Sécurité
- Aucune modification par rapport au système existant en terme de sécurité.
- Une fois quune image a été soumise, les informations relatives à cette image ne peuvent être changées que par ladministrateur de la base de données.
Plus une solution est décentralisée, plus elle est dépendante des serveurs extérieurs au site de Tela Botanica. Le moindre problème sur un site partenaire se répercute sur le site de Tela Botanica (panne de serveur, image indisponible, problème dhébergement ) : limage est non consultable. De plus, les changements dimages ne sont pas entièrement contrôlés. Quant à la solution centralisée, elle est soumise uniquement à la responsabilité de Tela Botanica.
LIPTC présente lavantage de rendre inséparable les métadonnées et limage. Dans le cas dune solution, plus ou moins décentralisée, cette technique permettrait donc une pseudo-authentification de limage et un contrôle accru quant aux changements quelle pourrait subir. Cependant, ce marquage est fragile, puisquà nimporte quel moment les champs IPTC peuvent être modifiés par un utilisateur à laide dun logiciel de retraitement dimages. LIPTC contrairement au RDF nécessite un échange dimage : limage est envoyée à Tela Botanica, marquée et remplacée sur le serveur partenaire.
La solution retenue basée sur le RDF en revanche ne permet pas dintégrer les métadonnées au sein même de limage. Mais cette technique est extensible à tout type de document. Aucune redondance dinformations napparaît, puisque les données ne sont pas également stockées à lintérieur de limage, mais uniquement chez Tela Botanica. De plus, avec cette méthode, les images soumises par lutilisateur ne doivent pas obligatoirement être en JPEG ou en TIFF comme dans le cas de lIPTC.
La solution conseillée est celle combinant du RDF avec une architecture mixte. En effet, le RDF évite une manipulation dimage qui peut savérer lourde : cela évite de devoir réenregistrer les images chez lhébergeur après retraitement. De plus, cela nous permettra détendre le mécanisme de codage des métadonnées à tout type de document dans loptique du développement du Web sémantique. Cette solution ne restreint pas le type dutilisateurs pouvant proposer des images. En effet, elle permet de garder la philosophie « réseau »de Tela Botanica tout en nexcluant pas les personnes qui ne peuvent pas publier de photos sur un site Internet. De plus, cette solution permet de répartir la charge de stockage entre le serveur de Tela Botanica et les serveurs Web des membres du réseau.
Par ailleurs, une telle solution, basée sur une action volontaire de la part des membres du réseau Tela Botanica pour la soumission dimages, nécessitera une certaine motivation des membres. La base de données dimages mettra un délai assez long pour être aussi complète que celle de Google et pour quà chaque plante corresponde une image référencée par Tela Botanica. Au départ le nombre dimages référencées dans la base sera relativement faible. Cest pourquoi, nous préconisons de conserver les deux systèmes de recherche dimages en parallèle pour palier un manque éventuel en attendant que la base soit entièrement exhaustive.
Les propositions de solution
Tela Botanica utilise une base de données denviron 80 000 taxons (noms scientifiques des plantes). Lapplication dindexation des plantes existante a été développée en PHP version 4 et repose sur une base de données MySQL. Le serveur employé est Apache.
1. Description des différentes solutions
1.1. Les architectures possibles
1.1.1. Solution centralisée
- Principe
Cette solution repose sur un serveur centralisé de Tela Botanica. Toutes les images sont directement stockées sur ce serveur et la base de données contiendra ladresse daccès à ces images. Un utilisateur du site Tela Botanica souhaitant consulter des photos dune plante soumet une demande de page au serveur. Puis celui-ci recherche les images concernées, avant de transmettre le résultat de la requête au client.
En terme dordre de grandeur, cela ferait environ 20 Go à 200 Go pour le stockage des images sur le serveur en comptant environ entre 50 Ko et 500 Ko par image et 5 photos par taxon.

1.1.2. Solution décentralisée : « réseau »
- Principe
Dans cette solution, les images sont stockées sur les serveurs des membres du réseau Tela Botanica. La base de données de Tela Botanica contiendra uniquement lURL daccès à ces images. Quand un utilisateur veut consulter les images dune plante, une requête est envoyée au serveur de Tela Botanica. Puis le serveur recherche les URL correspondantes avant de récupérer ces photos sur les sites des membres de Tela Botanica. Une fois ces images trouvées, le serveur renvoie le résultat au client sous forme de page HTML contenant un panel dimages en miniature.
Cette solution présente lavantage de ne prendre aucune place supplémentaire pour stocker les images sur le serveur, mais cela ne change pas la taille de la base de données pour les références vers ces photos et le stockage des métadonnées. Cependant, le temps de réponse peut être plus important quune solution centralisée, étant donné quil faut rechercher les images sur les serveurs de plusieurs membres du réseau Tela Botanica.

- Evolutions par rapport à la situation actuelle
1.1.3. Solution mixte
- Principe
Cette solution repose sur le principe des deux premières. Elle permet déquilibrer les inconvénients et les avantages des deux solutions de base en répartissant la charge de stockage des images entre le serveur de Tela Botanica et les serveurs des membres de lassociation. Ce principe permet aussi bien aux gens ayant leur propre site Web, que ceux nen possédant pas de publier des images via le réseau de Tela Botanica. De plus, cela laisse la possibilité aux membres de choisir le lieu de stockage des images, sils possèdent leurs propres sites Web.
En terme dordre de grandeur, cela ferait environ de 10 Go à 100 Go pour le stockage des images sur le serveur de Tela Botanica sachant quapproximativement la moitié des images sera stockée sur ce serveur.

1.2. Les techniques possibles
a) Des métadonnées internes : lIPTC
LIPTC est une norme permettant dintégrer directement des métadonnées à lintérieur même dune image. Cette technique a lavantage de ne pas séparer les informations de limage. Ainsi, si un utilisateur télécharge une image, son origine sera toujours connue ; puisque Tela Botanica stockera dans les champs IPTC ses propres données récoltées. Cependant, cette méthode est non extensible, puisquelle sapplique uniquement aux images au format JPEG ou TIFF, et non à dautres types de supports médiatiques tels que des documents textes. Les membres devront obligatoirement soumettre des images au format JPEG ou TIFF pour éviter un retraitement manuel par Tela Botanica. Les champs IPTC seront rajoutés ou modifiés à laide dun script PHP.
Par ailleurs, lIPTC peut sappliquer aussi bien à une solution centralisée, réseau ou mixte.
Dans le cas dune solution centralisée, limage proposée par un membre du réseau Tela Botanica sera retraitée par le serveur pour y ajouter ou modifier des champs IPTC. Cette image retravaillée sera directement stockée sur le serveur de Tela Botanica.
Pour la solution réseau, limage soumise par un membre du réseau Tela Botanica sera transmise sur le serveur pour un retraitement. Une fois cette opération effectuée, limage contenant les champs IPTC de Tela Botanica sera renvoyée au client pour quil la mette à jour sur son propre site Internet. Cet échange dimages entre client et serveur est indispensable, car nous navons aucun droit daccès en écriture sur le serveur du membre du réseau Tela Botanica. Dautre part, bien quil existe des logiciels permettant à lutilisateur de rajouter ses propres champs IPTC, il est préférable que le retraitement soit effectué par Tela Botanica pour avoir un meilleur contrôle sur les champs renseignés et pour faciliter la saisie au client. De plus, les logiciels libres multiplates-formes de gestion dimages (comme Mapivi) ne sont pas encore finalisés et simples dinstallation pour un non-informaticien.
Quant à la solution mixte, elle combine les techniques applicables aux deux premières solutions.
b) Des métadonnées externes : le RDF en vue du Web sémantique
Le RDF est un cadre de description de ressources permettant de rajouter des métadonnées à nimporte quel type de document : texte, image, audio Lextensibilité présente un atout. Cependant, cette technique de référencement nest pas encore prise en charge par les moteurs de recherche actuels tels que Google. Lutilisation de RDF constituerait une anticipation des méthodes de référencement futures du Web sémantique, étant donné que le RDF a reçu une recommandation du W3C en février 2004. Actuellement, seul un logiciel au stade expérimental (RDFPic) permet dintégrer les métadonnées RDF directement dans une image et aucune API (Application Programming Interface) nest disponible pour effectuer cette opération. La dernière version de RDFPic est multiplate-forme du fait quelle est écrite en Java, mais elle nest pas simple dinstallation pour un non-informaticien. De plus, lemploi de ce logiciel, même sil était finalisé, nécessiterait une intervention manuelle de la part dun utilisateur. Cest pourquoi, nous pensons que même dans le futur cette solution ne sera pas envisageable. La description RDF sera donc mise dans un fichier « .rdf » externe à limage et un lien vers ce fichier sera inséré dans la page HTML générée par le serveur de Tela Botanica.
Dautre part, se pose le problème du référencement des informations dans des pages dynamiques. En effet, le système de Tela Botanica est composé entièrement de page dynamique généré par PHP et les moteurs ne recensent que les pages statiques. Doù la nécessité dutiliser la technique de lURL Rewriting pour que celles-ci soient référencées. Il sagit de définir des règles de réécriture dadresse des pages, afin quelles soient détectées comme des pages statiques. Cette technique est encore aujourdhui assez lourde à manipuler, mais tout à fait envisageable dans le cas du développement du Web sémantique.
Le RDF comme lIPTC peut sappliquer aux différentes solutions.
Pour chaque solution, les informations concernant les images sont stockés dans la base de données de Tela Botanica. Les fichiers RDF correspondant sont générés à la volée et un lien vers ces fichiers est incorporé dans la page de visualisation des images lors de chaque demande de lutilisateur.
2. Evaluation globale des solutions
- Problèmes résolus
· Consultation possible dimages de plantes fiables pour certain taxon (toutes les images concernent la botanique).
· Classement des images daprès des critères botaniques ce qui permet daffiner la recherche.
· Une photo incorrecte peut être facilement déréférencée : meilleure contrôle des images.
· Les informations recueillies lors de la soumission de photos évitent davoir des doublons non pertinents.
- Problèmes non résolus
· Aucune garantie quant à lorigine des images soumises par les membres de Tela Botanica.
· Lexhaustivité de la base de données est non assurée, car elle est soumise à la bonne volonté et à la participation des membres du réseau Tela Botanica.
· Problème de la protection des droits dauteur.
- Faisabilité technique
Tela Botanica disposant déjà de toute larchitecture et des installations nécessaires, toutes les solutions proposées sont tout à fait faisables dun point de vue technique.
- Sécurité
- Aucune modification par rapport au système existant en terme de sécurité.
- Une fois quune image a été soumise, les informations relatives à cette image ne peuvent être changées que par ladministrateur de la base de données.
3. Les différences
3.1. Entre les architectures
Plus une solution est décentralisée, plus elle est dépendante des serveurs extérieurs au site de Tela Botanica. Le moindre problème sur un site partenaire se répercute sur le site de Tela Botanica (panne de serveur, image indisponible, problème dhébergement ) : limage est non consultable. De plus, les changements dimages ne sont pas entièrement contrôlés. Quant à la solution centralisée, elle est soumise uniquement à la responsabilité de Tela Botanica.
3.2. Entre les techniques possibles
LIPTC présente lavantage de rendre inséparable les métadonnées et limage. Dans le cas dune solution, plus ou moins décentralisée, cette technique permettrait donc une pseudo-authentification de limage et un contrôle accru quant aux changements quelle pourrait subir. Cependant, ce marquage est fragile, puisquà nimporte quel moment les champs IPTC peuvent être modifiés par un utilisateur à laide dun logiciel de retraitement dimages. LIPTC contrairement au RDF nécessite un échange dimage : limage est envoyée à Tela Botanica, marquée et remplacée sur le serveur partenaire.
La solution retenue basée sur le RDF en revanche ne permet pas dintégrer les métadonnées au sein même de limage. Mais cette technique est extensible à tout type de document. Aucune redondance dinformations napparaît, puisque les données ne sont pas également stockées à lintérieur de limage, mais uniquement chez Tela Botanica. De plus, avec cette méthode, les images soumises par lutilisateur ne doivent pas obligatoirement être en JPEG ou en TIFF comme dans le cas de lIPTC.
4. Avis motivé
La solution conseillée est celle combinant du RDF avec une architecture mixte. En effet, le RDF évite une manipulation dimage qui peut savérer lourde : cela évite de devoir réenregistrer les images chez lhébergeur après retraitement. De plus, cela nous permettra détendre le mécanisme de codage des métadonnées à tout type de document dans loptique du développement du Web sémantique. Cette solution ne restreint pas le type dutilisateurs pouvant proposer des images. En effet, elle permet de garder la philosophie « réseau »de Tela Botanica tout en nexcluant pas les personnes qui ne peuvent pas publier de photos sur un site Internet. De plus, cette solution permet de répartir la charge de stockage entre le serveur de Tela Botanica et les serveurs Web des membres du réseau.
Par ailleurs, une telle solution, basée sur une action volontaire de la part des membres du réseau Tela Botanica pour la soumission dimages, nécessitera une certaine motivation des membres. La base de données dimages mettra un délai assez long pour être aussi complète que celle de Google et pour quà chaque plante corresponde une image référencée par Tela Botanica. Au départ le nombre dimages référencées dans la base sera relativement faible. Cest pourquoi, nous préconisons de conserver les deux systèmes de recherche dimages en parallèle pour palier un manque éventuel en attendant que la base soit entièrement exhaustive.