Geneanet to gedcom scraping

C’est un projet de 2ème année à l’IUT, nous avons donc un client et 2 professeurs tuteurs, travaillons en commun à l’aide de git et en utilisant la méthode agile (nous faisons donc plusieurs rendus au client jusqu’au rendu final). Geneanet est un site qui contient les arbres génealogiques déposés par 4 millions d’utilisateurs, cependant même si on peut les consulter (lorsqu’ils sont publics) pour notre client amateur de Genealogie et souhaitant agrandir son arbre génealogique, il est pénible de réecrire dans son logiciel Heredis, chaque individus. Notre rôle est donc de concevoir une application qui n’a besoin que de l’url du profil souhaité et d’un clic pour récupérer l’ensemble de l’arbre Genealogique dans un fichier Gedcom que le client peut ensuite importer avec son logiciel.

Les étapes importantes de développement sont donc :

  • réaliser un programme capable de scraper un profil, c’est à dire récupérer les informations de la page web du profil grace à son DOM
  • s’adapter selon les variations de html-css entre certaines pages (certains profils n’ont pas certaines informations par exemple)
  • effectuer le scraping de manière récursive sur l’ensemble des individus de l’arbre et les enregistrer
  • nettoyer les informations récupérées (dates incorrectes, nom mauvais format…)
  • ecrire ces informations sous le format Gedcom 5.5 (un format bien particulié pour les fichiers de Genealogie )
  • concevoir une application proposant à l’utilisateur d’entrer l’URL et effectuant toutes les actions en un clic

Exemple de profil :

(ce projet est encore en cours de développement)

Cliquez ici pour voir le code.

Arnaud GODET
Arnaud GODET
Etudiant d’informatique en 2ème année

Sur le même sujet