Profil

Je travaille en bibliothèque depuis 1997, avec une forte spécialisation depuis 2011 en traitement de données et ingénierie documentaire (Machine Learning y compris). Je suis de près les avancées de l'IA génératives en partageant mes idées sur iaetbibliotheques.fr et me suis lancée en 2024 dans l'entrepreunariat afin d'accompagner les bibliothèques dans l'implémentation de solutions d'IA.

2024-... Création de SmartBibl.IA

Conseils et prestations de service d’ingénierie documentaire à destination d’établissements documentaires de type bibliothèques ou centre d’archives, avec une expertise spécifique pour l’implémentation de solutions d’IA dans les systèmes d’information des établissements

2023-2024 Spécialiste d'ingénierie documentaire

Ecole Polytechnique Fédérale de Lausanne, Bibliothèque
  • Développements applicatifs en lien avec l’évolution du système d’information documentaire, la démarche d’interopérabilité des données et la qualité des métadonnées
  • Développement et déploiement de workflows et d'outils liés à la dissémination des outputs de la recherche (publications, research data) et au monitoring de l'Open Access (notamment exploration d'OpenAlex)
  • Administration informatique, gestion de l'infrastructure logicielle et développements applicatifs associés

2021-2023 Responsable du service d'ingénierie logicielle & données

Université Côte d'Azur, Bibliothèque, Département SIDOC (Système d'Information DOCumentaire)
  • Conception/modélisation/réalisation du SI du SCD qui déploie via le développement d’applications d’ingénierie documentaire en réponse à des besoins métiers spécifiques (barometre Open Access des publications UCA, applications de gestion de la documentation électronique, d’automatisation de production d’inventaire de manuscrits en EAD-XML, etc…)
  • Participation à des projets de recherche dans le cadre de la mission des services aux chercheurs de la bibliothèque
  • Usage de techniques de Data Science pour la production d'indicateurs de pilotage (taux d'Open Access, taux de couverture Orcid, dépenses d'APC,...) et appropriation d'outils bibliométriques

2011-2021 Chargé d'ingénierie documentaire

Université Côte d'Azur, Bibliothèque, Département SIDOC (Système d'Information DOCumentaire)
  • Administration des logiciels métiers de la bibliothèque SIGB et Opac (Alma et Primo, société Exlibris)
  • Signalement de la documentation électronique
  • Appui technique (infrastructure et modélisation) au projet de création de la bibliothèque numérique Humazur

Compétences

Bibliothéconomie et logiciels métiers

  • Administration de SIGB et Opac (Aleph 500 et Primo, société Exlibris)
  • Intégration SIGB Koha et outil de découverte Primo
  • Gestion documentation électronique : suivi des négociations, suivi budgétaire, statistiques d’usages (norme Counter), gestion des accès proxifiés
  • Administration d’Omeka et Omeka S (bibliothèque numérique)
  • Formats Marc, EAD, RDF
  • Services aux chercheurs
    • Manipulation (extraction, traitement, reporting..) de métadonnées issues des bases Scopus, Wos, OpenAlex
    • Consolidation de données pour le monitoring de l'OA et des dépenses APC
    • Certifications Scopus et SciVal

Ingénierie et informatique documentaire

  • Format de données : XML, JSON, RDF, JSON-LD
  • Traitement de données : XSLT, Python, R
  • Accès aux données et protocoles d’échanges : API REST et SOAP, SRU, Z39-50, OAI-PMH, Sparql Endpoint, GraphQL
  • Systèmes de gestion de bases de données : bases de données relationnelles (MySQl, PostgreeSQL, Oracle, SQLite) et NoSQL (MongoDB, Neo4j), langage SQL

Data Science & IA

  • Eco-systèmes des IA génératives (LLMs, VLMs, modèles multimodaux) : inférence et fine-tuning, RAG, génération de datasets synthétiques, standard OpenAI API, frameworks Langchain et LlamaIndex...
  • Implémentation d'algorithmes de Machine Learning (scikit-learn)
  • Notebooks Jupyter et application Jupyter Lab
  • Modélisation, automatisation et orchestration de flux de données : Dagster, Prefect
  • Visualisation de données : developpements ad hoc en Python ou JS, logiciels de dataviz (Apache Superset, Redash, Tableau, ...)

Environnement Web

  • Front End : HTML, JS, CSS
  • Développement web côté client (AngularJS, Angular 2, React) et serveur (environnement Node.js, environnement Python, PHP)
  • Développement d’applications mobiles (environnement Cordova) pour Android
  • Développement d’extensions pour navigateurs (Firefox)

Divers

  • Architecture de conteneurs Docker
  • Administration serveur Linux (distributions Centos et Ubuntu)
  • Serveur d’applications Tomcat
  • Moteurs d’indexation : ElasticSearch (suite ELK), Solr
  • Modélisation RDF, technologies du Linked Open Data

Les plus

  • Modélisation en graphe et analyse de réseaux
  • Réalité virtuelle, réalité augmentée

Participation à des projets de recherche

ANR PORTs et Technologies de l’information et la Communication (Projet-ANR-18-CE38-0010)

UCA CMMC, Université de La Rochelle LIENSs, Medialalb & CHSP , 2018-2023
Data Visualisation, analyse de réseau appliquée aux flux de commerce maritime du XVIIIè.

IDEX NAVI-GO

UcA, CMMC – Centre de la Méditerranée Moderne et Contemporaine - EA1193, 2017-2018
Développement d'un prototype de visualisation des trajets de navigation à partir des de données du commerce maritime

Etudes autour d’AirBnB

UCA, GREDEG – Groupe de recherche en Droit, Economie et Gestion - CNRS UMR 7321, 2016-2017
Extraction de données par web scrapping (avec utilitaire Python/PostgreeSQL) et visualisation cartographique

GIS Etudes africaines en France

UNS, URMIS - Unité de recherches Migrations et société – CNRS UMR 8245, 2015
Moissonnage des entrepôts OAI-PMH de Revues.org, Persée et Cairn, traitement, nettoyage et normalisation des données

Formations / Pédagogie

Formatrice Ecole Nationale Supérieure des Sciences de l'Information et des Bibliothèques

Enssib - 2020 - ...

Chargée de cours Master 2 Mondes du document (supports, contenus, médiations)

Université Côte d'Azur - 2020 - 2023
Cours sur la "Culture de la donnée en bibliothèque" : panorama des différents aspects des activités et problématiques documentaires actuelles des bibliothèques vues au prisme des métadonnées (workflows, manipulation, stockage, structuration, signalement, liage, ouverture...)

Formation continue du SCD

Université Côte d'Azur - 2011 - 2023
Interventions régulières sur le web sémantique, Omeka S, ISTEX, Ie SI du SCD...)

Réalisations

Fine-Tuning de LLMs - Modèle FineLlama-3.2-3B-Instruct-ead pour la génération d'inventaires encodés en EAD/XML, modèle d'embeddings msmarco-distilbert-base-v4-ead pour la tokenisation et la vectorisation de données en EAD/XML, modèle scibert-finetuned-bso-publications-indexation pour la classification de publications
Dépôts et documentation : https://huggingface.co/Geraldine
Baromètre de la qualité des signatures des publications Université Côte d'Azur - Basé sur l’application de méthodes de NLP pour l’analyse des mentions d’affiliation des publiants Université Côte d’Azur
Baromètre Science Ouverte Université Côte d'Azur - Application web de visualisation de l'ouverture des publications UCA adossée à un référentiel des structures et basée sur un workflow automatisé de moissonnage des données Scopus, HAL, Thèses.fr et Unpaywall
Aurehal Network - UI développée sur l'API HAL pour la visualisation des structures du référentiel Aurehal en graphe interactif (http://azur-scd.com/apps/aurehal-network) Applications en lien : Aurehal 3D Network (http://azur-scd.com/apps/aurehal-3d-network)
Pybso : package Python accélérateur de Baromètre Science Ouverte - Automatisation du requêtage des données Unpaywall et de la production des indicateurs et graphiques nécessaires pour monitorer le degré d'ouverture de sets de publications Applications en lien : Quelques applications web pour illustrer des usages possibles du package pybso : self-oa-barometre (https://github.com/gegedenice/self-oa-barometre), pybso-embedded (https://github.com/gegedenice/pybso-embedded)
Interface interactive d'exploration graphique de jeux de données - Application web basée sur d3.js pour uploader un dataset et représenter graphiquement les distributions conditionnelles de ses variables Applications en lien : Visualisation développée dans le cadre du projet ANR Portic (accessible ici : http://explore1.portic.fr/)
Prototype de moteur de recommandation pour l'Opac du SCD - Application web Python basée sur des algorithmes de calcul de proximité
Interface de visualisation des unicas et de la presse locale ancienne pour le Centre Régional (CR) Sudoc-PS PACA/Nice - Application web Angular/Node.js basée sur une modélisation type propriété de graphe (base de donnée orientée graphe Neo4j)
SudocToolkit - Application de bureau Electron pour un usage user-friendly des web services de l'Abes
CheckCB - Application mobile (Android) pour la gestion des exemplaires du SCD
BU Autour - Application mobile (Android) de géolocalisation de documents en réalité augmentée
ItemCopy - Module pour Omeja S - Duplication de contenu dans le BO d'Omeka S
Direct2OA - Extension Firefox pour faciliter l’accès aux contenus en OA
SudocFiliation - Extension Firefox qui insère dans l’interface publique du Sudoc le graphe des filiations des revues

Publications, communications, billets

  • L’ingénierie documentaire en France et en Suisse : retour d’expérience
  • Geoffroy, G.
    Arabesques (n°116, Janvier-Février-Mars 2025). ISSN 1269-0589
  • HAL, Journées des partenaires
  • Enssib, Villeurbane, 21-21 novembre 2024
    Présentation : Indexation disciplinaire automatisée de publications : de l'entraînement local d'un modèle de Machine Learning au Modèle de langage pré-entraîné
  • ENSSIB, Biennale du numérique
  • Participation à une table ronde sur les usages professionnels de l'IA, Enssib, Villeurbane, 14 novembre 2023
  • Create an GPT-based Chatbot on Exlibris Knowledge Center
  • Ex Libris Tech Blog [en ligne]. 4 juillet 2023
  • GPT, le Game changer
  • Doc d'Azur - Atelier des bibliothèques de l'Université Côte d'Azur [en ligne]. 11 jion 20230
  • Pour une approche décomplexée de l'IA
  • Geoffroy, G.
    Arabesques (n°107, Octobre-Novembre-Décembre 2022). ISSN 1269-0589
  • New stepfamily in maritime history research: the Portic truple of historians, informaticans and geomaticians tu query and visualize 18th century shipping and trade
  • Marzagalli, S., Geoffroy, G., Plumejeaud, C.
    8th IMHA International Congress of Maritime History « Old and new uses of the oceans », University of Porto, Jun 28 - July 02 2022, Porto, Portugal
    Communication : Representing shipping in 3D-graphs, or how to help historians to understand their data
  • Commerce multi-échelles autour du port de La Rochelle au XVIIIe siècle
  • Publication web associant textes et visualisations issue d'un datasprint réalisé dans le cadre du projet ANR Portic, 2021
    Participation au développement de composants React
  • Une interface web pour explorer la bibliothèque personnelle d'Henri Bosco (et pourquoi s'intéresser à la bibliothèque d'un écrivain)
  • Maffre, Angela, Geoffroy, Géraldine - Carnet de recherche Gradiva [en ligne]. 2 avril 2020
  • Intelligence artificielle et métiers du livre et des archives
  • Table ronde professionelle, Journées d'études du DDAME (Département Documentation, Archives, Médiathèque et Édition, Université toulouse Jean Jaurès), Toulouse, 12 mars 2020
  • L’indexation comme outil de politique documentaire. In : L’indexation matière en transition : de la réforme Rameau à l'indexation
  • Cavalié, Etienne (Éditeur scientifique)
    ISBN 978-2-7654-1623-4. Paris : Electre, 2019. Collection Bibliothèques
  • IA et opac : mettre en place un moteur de recommandation dans un opac - Série de 4 bilets
  • Bibliothèques [reloaded] [en ligne]. Novembre-décembre 2019
  • SudocToolkit, une application pour faciliter l’utilisation des web services de l’Abes
  • PUNKTOKOMO Le blog technique de l'Abes [en ligne]. 8 octobre 2019
  • Enrichir et faire parler les données du CR (4/5) : passage par la case modélisation
  • Blog du Centre du Réseau Sudoc-PS PACA/Nice [en ligne]. 28 juin 2019
  • How to embed HAL documents List in the Primo new UI Homepage ?
  • Ex Libris Tech Blog [en ligne]. 20 décembre 2018
  • 3/5 : Enrichir et faire parler les données du CR, la première brique est posée !
  • Blog du Centre du Réseau Sudoc-PS PACA/Nice [en ligne]. 21 novembre 2018
  • Simply add a Google Map to the Item View in Primo new UI
  • Ex Libris Tech Blog [en ligne]. 5 mai 2018
  • La réalité augmentée en bibliothèque, quelques applications
  • HTTBU Le blog des BU sur les publications électroniques et les données de la recherche [en ligne]. 22 mai 2018
  • Enrichir et faire parler les données du CR (2/5) : focus sur les unicas
  • Blog du Centre du Réseau Sudoc-PS PACA/Nice [en ligne]. 30 avril 2018
  • Mission enrichir et faire parler les données du CR (1/5)
  • Blog du Centre du Réseau Sudoc-PS PACA/Nice [en ligne]. 28 février 2018
  • Platforms and tourism The impact of Airbnb on travelling and residential tourism in Nice and the French Riviera
  • Geoffroy, G., Longhi, C., Rocchia, S.
    International Conference « Knowledge Based Society as a Strategy for Faster Economic Growth » University of Prishtina « HasanPrishtina », 16-17 November 2017, Prishtina, Kosovo
  • Les études africaines en France, un état des lieux
  • GIS Etudes africaines en France (2016).
  • Transformer les collections en information grâce aux technologies du web sémantique
  • Cavalié, E., Geoffroy, G.
    Arabesques (n°80, Décembre 2015). ISSN 1269-0589
  • Le web de données, Isidore adore !
  • HTTBU Le blog des BU sur les publications électroniques et les données de la recherche [en ligne]. 24 février 2015"
  • Happy Isidore ! (Prononcer A-P-I Isidore)
  • HTTBU Le blog des BU sur les publications électroniques et les données de la recherche [en ligne]. 5 janvier 2015