Depuis le 18 août 2010, vous devez être identifié pour éditer des pages dans Rodovid (excepté Rodovid Engine).

Gedbot

Un article de Rodovid FR.

Jump to: navigation, search
Première tentative du Gedbot pour écrire une fiche dans Rodovid.
Première tentative du Gedbot pour écrire une fiche dans Rodovid.

Sommaire

[modifier] Presqu'import Gedcom

Discussion intéressante sur Engine:

L'idée vient d'une discussion à plusieurs. Là je parle sous le contrôle de Pierre Frappé qui se propose d'écrire le Bot.

Un Bot est un logiciel qu'on peut faire tourner sur sa propre machine et qui intervient sur le contenu de Rodovid. Il ne tourne pas sur le serveur.

L'idée est de faire tourner un Bot pour faciliter la copie du contenu d'un Gedcom dans Rodovid, automatiquement, tout en évitant la création massive de doublons et de fiches isolées.

Le fonctionnement envisagé est:

  1. Ouvrir le Gedcom chez soi
  2. le bot interroge RD sur les similitudes personne par personne (pour chaque personne dans le Gedcom, il cherche s'il y a déjà quelqu'un d'équivalent dans RD)
    1. soit l'utilisateur accepte la similitude et alors la comparaison reprend en considérant que cette personne est déjà dans RD. La création d'une nouvelle fiche est abandonnée, la suite sera raccordée, à la fiche existante.)
    2. soit il constate que la similitude n'est que d'aspect, alors une nouvelle fiche est créée dans RD

Configuration requise: Python installé sur le poste client (l'ordinateur de l'utilisateur)

La difficulté est évidemment d'évaluer un taux de similitude entre deux fiches.

--Christophe Tesson - talk. 20 juillet 2011 à 23:30 (EEST)

super bonne nouvelle ! --Jean-Sébastien Chorin (d) 21 juillet 2011 à 14:15 (EEST)

[modifier] Problèmes de traduction et de doublons

Il ne faudrait pas que cette histoire de doublon bloque le système. A mon avis 98/100 des arbres n'ont pas de fiches traduites dans d'autres langues. Le risque se situe principalement sur les arbres des familles royales ou nobles d'Europe, il suffirait donc d'interdire l'import de ce type d'arbre.--alain 22 juillet 2011 à 12:32 (EEST)

Tout à fait d'accord avec Alain sur l'analyse des fichiers multi-langues. S'il est important de pouvoir importer un GEDCOM, il est necessaire d'avancer à petits pas ... (voir Géni qui lui aussi à supprimé son importation)
s'il est necessaire de passer par les administrateurs pour faire cet import - je serai pour IMPOSER dans un premier temps, que les fichiers proposés aux administrateurs, NE COMPORTENT AUCUN DOUBLON - quite pour ceux qui proposent ces fichiers gedcom de les fragmenter, et de faire la liaison manuellement. --Domdeluc 22 juillet 2011 à 13:13 (EEST)

Voilà, je crois que le secret de la réussite c'est la fragmentation. On prend ainsi un minimum de risque--alain 22 juillet 2011 à 14:10 (EEST)

J'ai l'impression d'avoir sauté sur le clavier un peu rapidement - si l'idée de fragmentation parait une bonne idée, sa mise en oeuvre reste complexe : certains logiciels ne permettent pas cet export - d'autres (Geneanet) permettent d'exporter une branche (ascendance / descendance) dans cet export il peut y avoir des doublons ....
c'est en essayant que l'on s'apercevra au fur et à mesure des difficultés ... --Domdeluc 22 juillet 2011 à 14:57 (EEST)
C'est l'impression que j'ai. Il me semble que Baya, en fixant la barre très haut, dès le début, risque de décourager les (la?) bonne volonté. --Christophe Tesson - talk. 23 juillet 2011 à 11:09 (EEST)
La solution la plus simple est à mon avis de faire vérifier les gedcoms par les administrateurs intéressés. C'est à dire passer les Gedcoms à la moulinette d'un logiciel genre PAF pour vérifier la standardisation des lieux et autres puis de contrôler s'il n'y a pas de doublon dans le Gedcom ni de doublons à venir avant intégration dans Rodo. Puis de faire des intégrations progressives à Rodovid en vérifiant à chaque fois qu'il n'y a pas de Pb.--alain 24 juillet 2011 à 00:34 (EEST)
Alain, tu vas rire, j'ai jamais utilisé de logiciel de généalogie.
Bon, imaginons, Pierre Frappé t'envoie son Gedcom. 23.000 fiches. Ça te prend combien de temps? --Christophe Tesson - talk. 24 juillet 2011 à 01:10 (EEST)
La chasse au doublon avec PAF ne prend que peu de temps, une dizaine de minutes peut-être. Pour standardiser les lieux c'est sans doute plus long, il faut prendre chaque nom de lieu et indiquer le nouveau à inscrire dans la base, disons 1 minute par lieu. Je pense qu'il faudra aussi supprimer à l'exportation les notes et sources car je ne sais pas ce que ça donnerait dans Rodo. En gros en 2 heures max je pense que l'on peut préparer et effectuer le transfert. On peut faire un essai j'ai des Gedcoms récupérés ça et là et voir exactement ce que ça donne.--alain 24 juillet 2011 à 11:47 (EEST)
le problème avec Paf, c'est qu'il ne comparera pas automatiquement un gedcom à Rodo pour identifier des doublons. Si tu dois le faire manuellement sur 23000 fiches c'est un peu dur. --Jean-Sébastien Chorin (d) 24 juillet 2011 à 13:35 (EEST)
Ah oui ça ce n'est pas envisageable! Mais on peut se simplifier la vie en saucissonnant le Gedcom par patronyme et en vérifiant déjà si le patronyme existe ou non dans Rd. S'il existe je pense qu'il y aura peu de fiches à contrôler. S'il n'existe pas le Pb est réglé.L'idée est d'exporter vers Rodo par lignée --alain 26 juillet 2011 à 16:25 (EEST)
Évidemment le bot de Pierre pourra à la fin vérifier l'ensemble de la base pour un contrôle final.--alain 26 juillet 2011 à 16:29 (EEST)

Hum, j'ai l'impression

  1. que tu mésestime le temps à passer
  2. que tu oublies la volonté du concepteur de Rodovid d'avoir un truc qui marche, sans avoir à compter (trop) sur la bonne volonté des utilisateurs. (Chercher les doublons entre un ensemble de 23.000 personnes et un autre de 500.000 personnes?)
  3. que tu sous-estime les capacités du truc envisagé.

Mais bon, je peux me tromper... Attendons de voir! --Christophe Tesson - talk. 26 juillet 2011 à 17:19 (EEST)

[modifier] Résumé 2

Nos compères informaticiens sont vite arrivés au problème des doublons.

Pour repérer les variantes d'écriture locale, il existe des algorithmes, plus ou moins efficaces. Un genre de tronçon de logiciel (déjà existant) qui permet de repérer la non-différence entre Bertault/Bertaut, Delaunay/Delauney, Desquesne/Dequesnes/Desquenes etc.

Ça se gâte entre deux langues. Les mêmes lettres n'y ont pas la même valeur.

Il semble que ça n’existe pas encore ou partiellement d'un alphabet à l'autre, i.e. Latin/Cyrillique. On voit là que c'est un problème qui peut questionner Baya sur l'avenir de son bébé.

Alain et Dominique ont raison, faut pas que ça empêche de lancer des imports Gedcom locaux. C'est vrai que je vois pas très bien qui pourrait dans le gedcom de Pierre, être déjà enregistré dans Rd en cyrillique.

Ce dont Baya convient aujourd'hui. Mieux: il nous signale qu'un Bot simple permettrait de sauvegarder depuis Rd vers notre disque dur et vice versa.

Ecco, et c'est nouveau, on comprend que Rd peut être très amélioré avec des logiciels externes, sans remettre en cause la propriété intellectuelle de Engine. (Qui est sans discussion possible, une création de Baya). Autrement dit, y'a pas besoin de lui demander de renoncer à ses droits pour améliorer le site. Bref, un moyen de pérenniser Rd, sans attendre les disponnibilités de notre Ukrainien de génie. Ce qui va dans l’intérêt de tout le monde. --Christophe Tesson - talk. 25 juillet 2011 à 14:35 (EEST)

[modifier] Résumé 3

Pierre Frappé nous tiens au courant de ses avancées. Il va apprendre Python pendant ses vacances (un langage de programmation).

Ça laisse rêveur...

Bref, il se risque même à formuler un planning. Si tout va bien: septembre. La rentrée va être chaude. --Christophe Tesson - talk. 26 juillet 2011 à 15:18 (EEST)

Et si je comprend bien, on a là:
la première fiche écrite par un Bot dans Rodovid.engine. Je me trompe? --Christophe Tesson - talk.
Récupérée de « http://fr.rodovid.org/wk/Gedbot »