Profil
Je travaille en bibliothèque depuis 1997, avec une forte spécialisation depuis 2011 en traitement de données et ingénierie documentaire (Machine Learning y compris). Je suis de près les avancées de l'IA génératives en partageant mes idées sur iaetbibliotheques.fr et me suis lancée en 2024 dans l'entrepreunariat afin d'accompagner les bibliothèques dans l'implémentation de solutions d'IA.
Conseils et prestations de service d’ingénierie documentaire à destination d’établissements documentaires de type bibliothèques ou centre d’archives, avec une expertise spécifique pour l’implémentation de solutions d’IA dans les systèmes d’information des établissements
- Développements applicatifs en lien avec l’évolution du système d’information documentaire, la démarche d’interopérabilité des données et la qualité des métadonnées
- Développement et déploiement de workflows et d'outils liés à la dissémination des outputs de la recherche (publications, research data) et au monitoring de l'Open Access (notamment exploration d'OpenAlex)
- Administration informatique, gestion de l'infrastructure logicielle et développements applicatifs associés
- Conception/modélisation/réalisation du SI du SCD qui déploie via le développement d’applications d’ingénierie documentaire en réponse à des besoins métiers spécifiques (barometre Open Access des publications UCA, applications de gestion de la documentation électronique, d’automatisation de production d’inventaire de manuscrits en EAD-XML, etc…)
- Participation à des projets de recherche dans le cadre de la mission des services aux chercheurs de la bibliothèque
- Usage de techniques de Data Science pour la production d'indicateurs de pilotage (taux d'Open Access, taux de couverture Orcid, dépenses d'APC,...) et appropriation d'outils bibliométriques
- Administration des logiciels métiers de la bibliothèque SIGB et Opac (Alma et Primo, société Exlibris)
- Signalement de la documentation électronique
- Appui technique (infrastructure et modélisation) au projet de création de la bibliothèque numérique Humazur
Compétences
- Administration de SIGB et Opac (Aleph 500 et Primo, société Exlibris)
- Intégration SIGB Koha et outil de découverte Primo
- Gestion documentation électronique : suivi des négociations, suivi budgétaire, statistiques d’usages (norme Counter), gestion des accès proxifiés
- Administration d’Omeka et Omeka S (bibliothèque numérique)
- Formats Marc, EAD, RDF
- Services aux chercheurs
- Manipulation (extraction, traitement, reporting..) de métadonnées issues des bases Scopus, Wos, OpenAlex
- Consolidation de données pour le monitoring de l'OA et des dépenses APC
- Certifications Scopus et SciVal
- Format de données : XML, JSON, RDF, JSON-LD
- Traitement de données : XSLT, Python, R
- Accès aux données et protocoles d’échanges : API REST et SOAP, SRU, Z39-50, OAI-PMH, Sparql Endpoint, GraphQL
- Systèmes de gestion de bases de données : bases de données relationnelles (MySQl, PostgreeSQL, Oracle, SQLite) et NoSQL (MongoDB, Neo4j), langage SQL
- Eco-systèmes des IA génératives (LLMs, VLMs, modèles multimodaux) : inférence et fine-tuning, RAG, génération de datasets synthétiques, standard OpenAI API, frameworks Langchain et LlamaIndex...
- Implémentation d'algorithmes de Machine Learning (scikit-learn)
- Notebooks Jupyter et application Jupyter Lab
- Modélisation, automatisation et orchestration de flux de données : Dagster, Prefect
- Visualisation de données : developpements ad hoc en Python ou JS, logiciels de dataviz (Apache Superset, Redash, Tableau, ...)
- Front End : HTML, JS, CSS
- Développement web côté client (AngularJS, Angular 2, React) et serveur (environnement Node.js, environnement Python, PHP)
- Développement d’applications mobiles (environnement Cordova) pour Android
- Développement d’extensions pour navigateurs (Firefox)
- Architecture de conteneurs Docker
- Administration serveur Linux (distributions Centos et Ubuntu)
- Serveur d’applications Tomcat
- Moteurs d’indexation : ElasticSearch (suite ELK), Solr
- Modélisation RDF, technologies du Linked Open Data
- Modélisation en graphe et analyse de réseaux
- Réalité virtuelle, réalité augmentée
Participation à des projets de recherche
ANR PORTs et Technologies de l’information et la Communication (Projet-ANR-18-CE38-0010)
Data Visualisation, analyse de réseau appliquée aux flux de commerce maritime du XVIIIè.
IDEX NAVI-GO
Développement d'un prototype de visualisation des trajets de navigation à partir des de données du commerce maritime
Etudes autour d’AirBnB
Extraction de données par web scrapping (avec utilitaire Python/PostgreeSQL) et visualisation cartographique
GIS Etudes africaines en France
Moissonnage des entrepôts OAI-PMH de Revues.org, Persée et Cairn, traitement, nettoyage et normalisation des données
Formations / Pédagogie
Formatrice Ecole Nationale Supérieure des Sciences de l'Information et des Bibliothèques
Chargée de cours Master 2 Mondes du document (supports, contenus, médiations)
Cours sur la "Culture de la donnée en bibliothèque" : panorama des différents aspects des activités et problématiques documentaires actuelles des bibliothèques vues au prisme des métadonnées (workflows, manipulation, stockage, structuration, signalement, liage, ouverture...)
Formation continue du SCD
Interventions régulières sur le web sémantique, Omeka S, ISTEX, Ie SI du SCD...)
Réalisations
Fine-Tuning de LLMs
-
Modèle FineLlama-3.2-3B-Instruct-ead pour la génération d'inventaires encodés en EAD/XML, modèle d'embeddings msmarco-distilbert-base-v4-ead pour la tokenisation et la vectorisation de données en EAD/XML, modèle scibert-finetuned-bso-publications-indexation pour la classification de publications
Dépôts et documentation :
https://huggingface.co/Geraldine
Baromètre de la qualité des signatures des publications Université Côte d'Azur
-
Basé sur l’application de méthodes de NLP pour l’analyse des mentions d’affiliation des publiants Université Côte d’Azur
Baromètre Science Ouverte Université Côte d'Azur
-
Application web de visualisation de l'ouverture des publications UCA adossée à un référentiel des structures et basée sur un workflow automatisé de moissonnage des données Scopus, HAL, Thèses.fr et Unpaywall
Aurehal Network
-
UI développée sur l'API HAL pour la visualisation des structures du référentiel Aurehal en graphe interactif (http://azur-scd.com/apps/aurehal-network)
Code source :
https://github.com/azur-scd/AurehalNetwork
Applications en lien :
Aurehal 3D Network (http://azur-scd.com/apps/aurehal-3d-network)
Pybso : package Python accélérateur de Baromètre Science Ouverte
-
Automatisation du requêtage des données Unpaywall et de la production des indicateurs et graphiques nécessaires pour monitorer le degré d'ouverture de sets de publications
Code source :
https://github.com/gegedenice/pybso
Applications en lien :
Quelques applications web pour illustrer des usages possibles du package pybso : self-oa-barometre (https://github.com/gegedenice/self-oa-barometre), pybso-embedded (https://github.com/gegedenice/pybso-embedded)
Interface interactive d'exploration graphique de jeux de données
-
Application web basée sur d3.js pour uploader un dataset et représenter graphiquement les distributions conditionnelles de ses variables
Applications en lien :
Visualisation développée dans le cadre du projet ANR Portic (accessible ici : http://explore1.portic.fr/)
Prototype de moteur de recommandation pour l'Opac du SCD
-
Application web Python basée sur des algorithmes de calcul de proximité
Code source :
https://github.com/gegedenice/primo-recommender-system
Interface de visualisation des unicas et de la presse locale ancienne pour le Centre Régional (CR) Sudoc-PS PACA/Nice
-
Application web Angular/Node.js basée sur une modélisation type propriété de graphe (base de donnée orientée graphe Neo4j)
SudocToolkit
-
Application de bureau Electron pour un usage user-friendly des web services de l'Abes
Code source :
https://github.com/abes-esr/SudocToolkit
CheckCB
-
Application mobile (Android) pour la gestion des exemplaires du SCD
Code source :
https://github.com/gegedenice/CheckCB-demo
BU Autour
-
Application mobile (Android) de géolocalisation de documents en réalité augmentée
Code source :
https://github.com/gegedenice/buautour
ItemCopy - Module pour Omeja S
-
Duplication de contenu dans le BO d'Omeka S
Code source :
https://github.com/gegedenice/ItemCopy
Direct2OA
-
Extension Firefox pour faciliter l’accès aux contenus en OA
Code source :
https://github.com/gegedenice/Direct2OA
SudocFiliation
-
Extension Firefox qui insère dans l’interface publique du Sudoc le graphe des filiations des revues
Code source :
https://github.com/gegedenice/SudocFiliation
Publications, communications, billets
Arabesques (n°116, Janvier-Février-Mars 2025). ISSN 1269-0589
Présentation : Indexation disciplinaire automatisée de publications : de l'entraînement local d'un modèle de Machine Learning au Modèle de langage pré-entraîné
Participation à une table ronde sur les usages professionnels de l'IA, Enssib, Villeurbane, 14 novembre 2023
Arabesques (n°107, Octobre-Novembre-Décembre 2022). ISSN 1269-0589
8th IMHA International Congress of Maritime History « Old and new uses of the oceans », University of Porto, Jun 28 - July 02 2022, Porto, Portugal
Publication web associant textes et visualisations issue d'un datasprint réalisé dans le cadre du projet ANR Portic, 2021
Table ronde professionelle, Journées d'études du DDAME (Département Documentation, Archives, Médiathèque et Édition, Université toulouse Jean Jaurès), Toulouse, 12 mars 2020
ISBN 978-2-7654-1623-4. Paris : Electre, 2019. Collection Bibliothèques
International Conference « Knowledge Based Society as a Strategy for Faster Economic Growth » University of Prishtina « HasanPrishtina », 16-17 November 2017, Prishtina, Kosovo
Arabesques (n°80, Décembre 2015). ISSN 1269-0589