La numérisation du corpus

Ci-après, il s'agit de fournir quelques éléments de contexte qui ont permis la numérisation et la mise à disposition du corpus ICB.
Elle est le fruit de l'association de deux équipes :
la numérisation par le service de la Bibliothèque numérique de la BU et
la mise en ligne par l'équipe de la MSH.

La chaîne de numérisation

La numérisation du corpus s'est faîte en interne par le service de la Bibliothèque numérique de la Bibliothèque Universitaire service commun de l'UCA.

Ce service de numérisation compte dans ses effectifs deux agents (1,5 ETP) :

  • l'opératrice de numérisation se consacre à mi-temps aux tâches de dématérialisation.
  • la technicienne assure l'ensemble des missions : la numérisation des documents complexes, le contrôle qualité des fichiers numérisés, ainsi que le traitement des fichiers (stockage, OCRisation, conversion dans différents formats) puis la mise en ligne des fichiers numérisés et la valorisation des collections via la bibliothèque numérique de l'UCA.
    Pour le projet ICB, c'est un site à part et la mise en ligne a été assurée par l'équipe de la MSH principalement.

L'équipe possède une grande maîtrise dans la numérisation des différentes typologies de documents papier (imprimé relié, document patrimonial,  granf format, etc.)

Elle dispose de deux bancs de numérisation  :

  • Zeutschel OS 12000 HQ
  • Suprascan Quartz A1

Ces deux scanners ont chacun leur spécificité qui sont mobilisés en fonction des pièces numérisées.

Les documents sont numérisés en mode image TIFF, avec une correction à l’aide du logiciel XN View (recadrage, rotation, etc.) ainsi qu’une conversion des fichiers TIFF en JPEG.
Puis création du fichier PDF à l'aide du logiciel ABBYY FineReader. Ce fichier PDF intègre également la reconnaissance optique de caractères (OCR), ce qui permet l'activation de la recherche plein texte.

Les imprimés et les archives ont été numérisés en couleur, en 300 DPI.

Les fichiers numériques ainsi réalisés sont conservés en interne (fichiers TIFF), déposés dans l'entrepôt de données Nakala (fichiers JPEG, PDF et Txt) et exposés via l'outil Omeka S grâce au protocole 3if.

 

Le chantier s'est écoulé d'octobre 2022 à juin 2024. C'est quelques 800 titres ou documents d'archives, 1000 volumes, fascicules ou dossiers qui ont été numérisés et  44000 fichiers jpeg, 1000 pdf et 750 .txt qui ont été produits, soit 97 Go de données déposés dans l'entrepôt Nakala.

Ce volume de numérisation équivaut à 3% des cotes de monographies et 2% des titres de périodiques du fonds. Pour les archives cela représente 50 % des composants numérisés (archives d'enfance et archives scolaires).

L'équipe est aguerrie à la numérisation des imprimés quant aux archives cela était une première.
Les règles de prises de vues rodées au sein du service ont été appliquées et certaines ont été adaptées notamment pour les archives.

Le fil conducteur de la numérisation est de rendre compte de la matérialité des documents.
Par exemple, pour les monographies les couvertures sont numérisées. Dans le cas des recueils factices (cf définition), les plats et contre-plat ne sont pas numérisés.

Le prise de vue pour les imprimés se fait à la page. Pour les documents d'achives, la prise de vue se fait sur l'ensemble (ex. double page en vis à vis dans le cas d'un cahier).

Il a été parfois nécessaire de procéder à une numérisaton partielle. Dans ces cas-là, une étiquette-encart papier placée à la numérisation signale la particularité ou dans le PDF a été introduit une page mentionnant les manques.
Ce choix de matérialiser l'absence a été librement inspiré par les recommandations et norme (iso 700) appliquées aux microfilms.

A noter qu'en cas de présence de monographie éditée dans les archives, il a été parfois décidé de ne pas numériser l'ouvrage ne répondant pas à la problématique du corpus (ex. Archives Le Livre unique de français Cote : A1.0909).

  • Pour les les collections,  numérisation partielle du document en raison :
    • du manque des pages et/ou couverture (cas pour certaines revues / livres)
      Cette absence est signalée dans le fichier .pdf par l'insertion d'une phrase-type : « Numérisation fonds Bastaire. Collection Document incomplet (couverture et/ou pages manquantes) »
  • Pour les archives, numérisation partielle du document en raison :
    • de sa fragilité ou
    • d’un trop grand nombre de pages blanches
    • de présence de négatifs
      Cette absence est signalée par l'insertion d'une étiquette-encart placée sur le document au moment de la prise de vue.

Exposition des données  et moissonnage OAI

Ce site est l'intermédiaire qui permet de valoriser les données déposées dans l'entrepôt Nakala. Le protocole 3if est utilisé.
L'ensemble des données (= les fichiers) y est disponible et conservé.

Nakala dispose de son propre entrepôt OAI-PMH dont l’adresse Web est : https://api.nakala.fr/oai2. Toute collection publique constitue un set OAI dans l’entrepôt OAI-PMH de Nakala.

Deux grandes collections (des sous-collection sont également disponibles) :

Pour en savoir plus, consultez la page :

Lectures

Ci-après vous sont proposés quelques documents utilisés par l'équipe dans le cadre du projet.

Ces référentiels ont été réalisés par le service Numérisation dans le but de définir les règles et les recommandations préconisées par la BnF, pour l’ensemble des opérations liées au processus de numérisation : Enrichissement des métadonnées, Format de fichier, Numérisation des documents opaques, OCR, ect.   

"Guide destiné aux professionnels en documentation visant à faciliter le travail de numérisation. Il expose les normes et décrit les opérations de numérisation des journaux, cartes et plans, manuscrits, négatifs photo, diapositives, microformes et objets en 3D.  Ce recueil a pour but d’harmoniser les pratiques de numérisation des centres d’archives, musées et des bibliothèques. Il propose des fiches organisées par types de document et illustrées par des exemples réels. Les fiches expliquent de façon détaillée les spécifications techniques, procédures et consignes pour numériser de façon optimale les documents sur différents types de support. La publication du Recueil de règles de numérisation est le résultat d’une collaboration entre Bibliothèque et Archives nationales du Québec (BAnQ), la Bibliothèque nationale de France (BnF) et le Musée canadien de l’histoire".

Vous y trouverez notamment les documents utiles pour effectuer les contrôles qualités des données numérisées.

Créé 30 août 2023
Modifié 18 juin 2024