Retour

Compte-rendu des Ă©changes


Jennifer et Aurélien (équipe Tela) le 15/10/2014

Bonjour Ă  tous,

Nous travaillons actuellement sur une de vos demandes à savoir donner un statut particulier à certains telabotanistes afin qu’ils puissent valider les observations orphelines. Les observations orphelines sont les observations ayant une détermination probable mais qui ne sont pas validées par les auteurs (il existe 2500 observations de ce type dans la base). Les telabotanistes « avancés» pourront donc valider une proposition à la place des auteurs de l’observation.

Dans un premier temps seul les observations des personnes non inscrites à Tela pourront être validées.

Nous avons besoin de votre aide pour évaluer les critères qui nous permettrons de définir une liste des telabotanistes qui auront la possibilité de valider ces observations.

Voici les critères que nous avons défini qu'en pensez-vous ? Lesquels sont les plus pertinents ?

(1) Utilisateurs ayant proposé le plus grand nombre de propositions ayant été validées
(2) Utilisateurs ayant proposé le plus grand nombre de propositions ayant été validées qui n'étaient pas la proposition initiale
(3) Utilisateurs ayant proposé le plus grand nombre de propositions ayant été validées qui étaient la proposition initiale
(4) Utilisateur ayant déposé le plus grand nombre de commentaires
(5) Utilisateur ayant voté pour le plus grand nombre de propositions retenues

Merci pour votre aide,
Amicalement,
Jennifer et Aurélien

Florent Beck, le 16/10/2014

Bonjour Jennifer, bonjour Aurélien,

Merci de continuer le travail Ă  ce niveau.

Je ne comprends pas bien comment vous envisager les critères présentés. Je veux dire : je les comprends individuellement, mais je ne saisi pas la stratégie d'élection des telabotanistes validateurs.
Est-ce que leur numéro suppose d'une hiérarchisation de ces critères ? Auquel cas je ne saisis pas bien le fonctionnement global.
S'il s'agit de critères non hiérarchisés, voici mes commentaires :

- de manière générale, je vois mal l'intérêt de retenir les personnes ayant le plus proposé, cela se base d'abord de la quantité avant la qualité (même si cette seconde est inclue). J'envisageais plutôt les choses sous un angle de seuils à atteindre : par exemple donner la possibilité de valider des déterminations à ceux qui ont proposé au moins 100 déterminations retenues (indépendamment du fait qu'il s'agisse des participants les plus actifs). Mais peut-être que la solution est un mélange des deux approches.

- concernant la distinction des propositions selon qu'il s'agit des proposition initiale ou non, au premier abord, je n'y vois pas d'intérêt : l'important est que les déterminations proposées soient correctes, indépendamment de savoir s'il s'agit de première proposition ou non.
Cependant si l'on considère que les "premières propositions correctes" permettent de détecter un meilleur niveau de précision du telabotaniste, c'est vrai que ça prend du sens.
On considère alors que ce n'est pas la même chose de faire une proposition correcte en partant des seules infos de bases que de faire une proposition correcte en se basant sur un ensemble d'échanges et d'approximations préalables qui facilitent le choix.

le critère (4) me paraît un très mauvais critère : il dénote uniquement les utilisateurs loquaces, voire même, bavards, mais ne permet pas de juger de la capacité du telabotaniste a déterminer correctement une espèce.

le critère (5) est intéressant car il permet d'éviter l'effet "premier arrivé". cependant il est plus facile de "suivre" que de "proposer", donc je suggère d'utiliser ici des seuils de participation élevés.

Afin de nous aider Ă  y voir plus clair, pourriez vous nous donner les indications suivantes :

- nombre d'utilisateurs ayant fait au moins une proposition de détermination (qu'importe qu'elle soit retenue ou non, c'est juste pour avoir une idée du nombre de personnes participant)
- nombre d'utilisateurs ayant fait au moins une proposition de détermination retenue
- nombre d'utilisateurs ayant fait au moins 10 propositions retenues
- idem au moins 50 prop' retenues
- idem au moins 100 prop' retenues
(voir plus s'il y a beaucoup de participations ? je ne me rends pas du tout compte).


Deux propositions de critères :
- se baser sur le ratio propositions retenues / propositions non retenues en fixant un seuil, par exemple, il faudrait que ce ratio soit au moins supérieur à disons 5 (voir 10)
si ce critère n'est pas clair on peut l'exprimer autrement : le pourcentage de propositions retenues par rapport à l'ensemble des propositions faites par un même utilisateur : par exemple au moins 75% de propositions retenues, ou au moins 80 / 90 / 95 % de propositions retenues, en fonction du niveau d'exigence qu'on veut se fixer.

- se baser sur le ratio votes corrects VS votes incorrects qui permet de mesurer l'importance de la cohésion entre un utilisateur et l'ensemble des participants. un vote correct est un vote positif sur une proposition retenue ou un vote négatif sur une propositions rejetée (dont le score est négatif). un vote "incorrect" est un vote positif sur une proposition rejetée (dont le score est négatif) ou un vote négatif sur une proposition retenue.

voilà pour mes premières réflexions :-)
@ très vite :-)
Florent

Florent Beck, le 16/10/2014

Pour info, quelle est le nombre de situations suivantes ?

- propositions probables orphelines (2500, ok)
- propositions probables non orphelines (?)
- propositions probables non orphelines et datant de plus de 6 mois (?)
- propositions probables non orphelines et datant de plus de 2 mois (?)
- propositions probables non orphelines et datant de plus de 2 semaines (?)

2500 ça fait un sacré paquet, et ça reste relativement "faible" (5%) par rapport à la somme des observations accumulées par le réseau 76430 obs liées à une ou des images à l'heure actuelle (-> http://www.tela-botanica.org/widget:cel:stats ), mais enfin ce n'est pas négligeable.

Est-il possible de connaître le nombre total d'observations liées à un taxon qui n'est pas celui dont la proposition a le plus de vote ?
Et parmi celles-lĂ , le nombre d'obs' orphelines ?

En effet, c'est une chose d'avoir des observations non nommées (p.ex. lorsque l'utilisateur écrit "Plante inconnue" puis qu'il y a des propositions de faites), c'en est une autre d'avoir des observations mal nommées : quand l'utilisateur a sélectionné un nom dans un référentiel et que ce nom ne correspond pas au taxon dont la proposition de détermination est la plus votée.

cette fois ci, Ă  demain :-)
Florent

Jennifer (Ă©quipe Tela), le 16/10/2014

Merci Florent nous allons analyser tes propositions et ensuite revenir avec une autre suggestion de critères.
Nous pensons en effet choisir plusieurs critères.

Bonne journée,
Jennifer

David Mercier, le 16/10/2014

Bonjour,

OK sur la démarche et le critère n°1 me semble bien.
je pense qu'il s'agirait en effet d'approndir la réflexion avec des données chiffrées comme le suggère Florent.

David

Daniel Mathieu (président de Tela), le 16/10/2014

Identiplante Ă  deux objectifs :

  • aider les gens Ă  dĂ©terminer leurs plantes => aspect pĂ©dagogique et rĂ©seau
  • collecter des images de qualitĂ© pour eFlore => volet documentation botanique


Passer du temps à déterminer des “images orpheline”, a t il un intérêt pédagogique ? Peut-on impliquer celui qui a mis la photo en ligne pour qu’il apprenne quelque chose ?

Concernant le volet illustratif d’eFlore, tout dépend de la rareté et de l’intérêt botanique des images. Si un taxon est déjà bien illustré, passer du temps à identifier avec des risques d’erreur une photo de plus ou de moins, n’a pratiquement aucun intérêt. S’il s’agit d’un taxon peu représenté, alors là oui, ça vaut le coup de regarder de plus près, mais il faut être bien sûr du résultat pour éviter de donner de fausses identifications sur un nombre restreint d’images proposées dans eFlore

j’ai oublié un intérêt dérivé : “amuser” ceux qui s’exerce à déterminer les plantes et qui constitue le “moteur” du dispositif. Sans ce “challenge” positif, pas de contributeurs... Ce point est très important

Daniel

David Mercier, le 16/10/2014

Si j'ai bien compris, ces données orphelines ont déjà reçu un certain nombre d'avis de détermination, mais comme celui qui a posté ces images n'a pas validé, ces images restent sans détermination apparente, pour eFlore notamment.

Il s'agit donc de définir une liste des déterminateurs fiables et suffisamment actifs pour avoir déjà participés aux déterminations de ces 2500 données, afin de valider automatiquement leur proposition, si j'ai bien compris.

David

Jennifer et Aurélien (équipe Tela), le 24/10/2014

Bonjour Ă  tous,

Suite de la réflexion sur le choix des "telabotanistes avancés" pour la validation des observations orphelines, voici quelques statistiques que Florent a demandé :
- Nombre d'utilisateurs ayant fait au moins une proposition de détermination retenue : 320
- Nombre d'utilisateurs ayant fait au moins 10 propositions de détermination retenues : 51
- Nombre d'utilisateurs ayant fait au moins 50 propositions de détermination retenues : 16
- Nombre d'utilisateurs ayant fait au moins 100 propositions de détermination retenues : 8

Pour les autres statistiques concernant le ratio "propositions retenues / propositions non retenues" critère qui nous semble être le plus pertinent, nous n'avons en réalité pas assez de données validées pour que cela soit un critère valide pour le moment.

Nous avons donc choisi d'établir une première liste de "telabotanistes avancés" à partir du critère suivant : "Les utilisateurs ayant fait au moins 50 propositions de détermination et qui ont par la suite été validées".

NB : La liste sera ensuite affinée en fonction de statistiques que nous recalculerons quand il y aura plus de données validées.

Les telabotanistes avancés sont :
BOTTI ,Geneviève
MERCIER, David
GOËAU, Hervé
HOUDRE, Jean-Jacques
ROUBAUDI, Liliane
CHOUILLOU, Marc
BARTHELEMY, Daniel
FABRE, Paul
ECHARDOUR, Jean-Claude
BONNET, Pierre
TINGUY, Hugues
BECK , Florent
LARBOUILLAT , Annick
CALAIS, Jean-Claude
CARLE, Françoise

Nous enverrons un mail explicatif à chaque "telabotaniste avancé" pour lui expliquer le fonctionnement de la validation et également lui donner le choix. Oui vous pouvez refuser d'avoir un statut plus avancé évidemment.

Bonne journée,
Amicalement,

Jennifer et Aurélien

David Mercier, le 24/10/2014

Bonjour,

même si c'est une opération manuelle dans l'immédiat, est-ce qu'on pourrait avoir le ratio "propositions retenues / propositions non retenues" pour cette liste des 16 participants les plus actifs ?

Ceci afin de savoir quand même si ce critère a un sens ou non.

Amitiés
David


Florent Beck, le 24/10/2014

Juste pour considération, 15 personnes parmi 320 cela fait 5%
et 15 personnes j'imagine que cela fait un nombre d'interlocuteurs gérable à accompagner par l'équipe salariée si besoin est.

ça me semble pas mal.

l'indicateur demandé par David me semble également pertinent. Mais si jamais on veut en faire un critère d'affinement de la sélection, quelle valeur seuil retenir ? 100%, 95%, 90%, 80%, 75%, 66% de propositions retenues ? A priori je serai pour retenir un seuil exigent (90% min.). Mais je ne me rends pas bien compte ni de la pertinence absolue de ce critère : la diversité des cas de figure possible fait qu'il est difficile de penser à tout et que ce chiffre peut ne pas être si significatif que ce qu'on peut imaginer. Pas exemple une proposition au niveau de la famille ou du genre peut être correcte et apporter une aide significative à la personne demandant l'identification. Pour autant de telles propositions sont régulièrement votée négativement afin de faire passer devant une autre proposition plus précise.

Voilà, c'est juste des réflexions comme ça, je n'ai pas vraiment d'idée sur ce qui est le plus pertinent et ce qui ne l'est pas.

Florent

Jennifer (Ă©quipe Tela), le 24/10/2014

Re-bonjour David et Florent,

Alors, les participants avec un ratio de 90% ont en réalité proposé très peu de déterminations. Les plus importants contributeurs n'ont pas un bon ratio car les données ne sont pas validées par les autres utilisateurs. C'est pourquoi ce critère n'est pas pertinent pour le moment.

En PJ le tableau avec le ratio, le nombre de proposition et le nombre de proposition retenue par utilisateur pour vous faire une idée. Je n'ai envoyé le tableau à toute la liste car il y a le nom des personnes et je ne sais pas si cela sera bien perçu sur la liste (Votre avis ?).

Jennifer

Florent Beck, le 24/10/2014

Parmi les 15 utilisateurs retenus initialement il y a en 4 qui sortent leur épingle du jeu avec un ratio de propositions retenues supérieur à 50% : Geneviève Botti, Jean-Jaques Houdré, Hugues Tinguy et Annick Larbouillat. Si on repêche Marc Chouillou qui est à 48% ça nous fait 5 personnes parmi les plus actives sur l'interface.

Peut-être peut-on faire le test et accorder d'abord à celles-là la possibilité de valider les observations orphelines afin de voir comment elles s'en sortent.
Si cela fait trop d'observations pour pas assez de validateurs, il sera toujours temps de chercher du renfort auprès des autres, en priorité Daniel Barthélémy et Pierre Bonnet.

J'assume tout à fait mon score médiocre à 16% : ce n'est pas facile de faire de bonnes propositions d'après photo : autant que les personnes chargés de la validation soient les plus fiables possibles.

Par ailleurs je remarque que parmi les utilisateurs qui entreront "bientĂ´t" dans la catĂ©gorie des + de 50 propositions validĂ©es, on a une moyenne de relativement bons scores depuis Dominique Remaud jusqu'Ă  Jean-Claude Bouzat : la plupart Ă  au moins 1/3 de propositions validĂ©es avec quelques jolies pointures comme les discrets Jatowt-Lombaert et Sinet, que je n'avais pas repĂ©rĂ© parmi les noms "rĂ©currents" sur  IdentiPlante mais pour qui les chiffres parlent positivement.

Il vaut sans-doute mieux avoir pour validateur des personnes prudentes qui ne font que des propositions dont ils sont relativement sûr, plutôt que des optimistes qui proposent souvent "trop rapidement" et du coup "se trompent".
Bien sûr, il est impossible d'évaluer s'il s'agit réellement d'erreurs ou de situations particulières, mais on peut supposer qu'ils ont une plus grande marge d'erreur, et je dis ça en prenant mon propre cas comme référence ;-)

Ă€ combien estimez-vous le besoin en terme de "validateurs" ?

Florent

Jennifer (Ă©quipe Tela), le 24/10/2014

Je pense que 8 personnes c'est trop peu. 15 personnes cela est pas mal mais nous pouvons aller jusqu'à 20 sans problème.

Donc on garde la liste de ce matin et nous y ajoutons
Jatowt-Lombaert, Sinet, Dominique Remaud et Jean-Claude Bouzat

Qu'en pensez-vous ?
Si cela vous semble trop nous gardons que les gens que Florent Ă©voque dans son mail ?

Jennifer

David Mercier, le 24/10/2014

Re-bonjour,

en fait, il faudrait faire le ratio entre le nb de propositions proposées retenues ou non contredites (sans autres avis) et le nb de proposition proposées contredites par la majorité (qui n'a pas toujours raison !)

David

Jennifer (Ă©quipe Tela), le 24/10/2014


Si nous croisons les deux critères :
- Nombre de proposition retenue (au moins 50).
- et ration proche de 50% des propositions faites sont retenues.

Les utilisateurs qui croisent les deux critères sont :
Botti, Houdré, Tinguy, Larbouillat, Chouillou, Barhélémy et Bonnet

Ce qui ne fait plus que 7 personnes, peut être que pour un début ?

Jennifer


Florent Beck, le 24/10/2014

Juste une remarque : j'ai cité D. Remaud et JC Bouzat comme le 1er et le dernier d'un groupe d'utilisateurs ayant le plus de propositions retenues juste derrière les 15 premiers. Pas forcément comme les deux premiers à retenir après les 15, même si effectivement je leur apporterai ma confiance (vu leur ratio).

En fait si une proposition non votée compte comme une proposition non retenue, alors je crois qu'on est parti sur le mauvais ratio ou en tout cas sur un critère insuffisant : il faudrait (peut-être mieux ?) calculer le ratio nbre de votes positifs / votes négatifs ? Ou en tout cas croiser les deux ratios afin d'avoir une meilleure estimation ?

pas d'autres Ă©changes jusqu'au 21/01/2015