samedi 2 juin 2018

Recension : Jean Guy Meunier, Le texte numérique : enjeux herméneutiques, Revue Digital Humanities Quarterly. Lu par Valérie Marchand

Jean Guy Meunier, Le texte numérique : enjeux herméneutiques, Revue Digital Humanities Quarterly :

Lu  par Valérie Marchand

A noter : le premier numéro non anglophone de la revue DHQ est en ligne (lien vers le sommaire complet). 


On assiste aujourd’hui à une numérisation massive de documents textuels et au projet de construction d’une bibliothèque numérique universelle permettant un partage des connaissances et l’accès, où qu’on se trouve, à un patrimoine textuel de plus en plus riche. Jean Guy Meunier (Université du Québec à Montréal) montre dans cette contribution que la numérisation ne consiste pas en une simple modification du support matériel et qu’elle n’est pas neutre. L’article dégage les enjeux herméneutiques du texte numérique et décrit les différentes étapes qui mènent d’un texte source écrit sur un support traditionnel (parchemin, article de journal, livre, manuscrit …) au texte numérisé donné en lecture et offert à l’analyse. A chacune de ces étapes sont prises des "décisions interprétatives" qui ont des incidences sur le texte offert au lecteur. La numérisation ne produit donc pas une simple copie "numérique" du texte : il s'agit davantage d'une traduction. 




La numérisation comme technologie et comme herméneutique 


Avant de dégager les enjeux herméneutiques de la numérisation, l’auteur précise que le terme numérisation a une double signification.


1. la numérisation est d’abord "une technologie qui convertit un signal physique (sonore, lumineux, mécanique, etc.) en un signal dit numérique qu’un ordinateur peut traiter". C’est cette opération qu’effectue un scanneur.


2. "La numérisation est un ensemble d’opérations de transformations qui, appliquées à des symboles ou signes linguistiques déposés sur un support physique (papier, microfiches, etc.), le transforment en un autre type de symboles ou signes qu’un programme peut traiter. Comprise ainsi, la numérisation produit un texte dit numérisé". Si l’encodage est binaire, on a affaire à un texte numérique. Un texte numérisé n’est pas nécessairement uniquement un texte numérique.

Le terme texte a également plusieurs significations.


1. Le mot texte peut d’abord désigner un objet physique, c’est-à-dire ce qui sert « de support aux inscriptions scripturales (effectuées au moyen de crayons, d’encre, etc.), et constituant, une fois relié, un document textuel à part entière » (ex : livre, brochure …). Avec l’informatique, le support n’est plus le même (clé USB, disque dur etc…, écran), mais le texte demeure un objet physique, un "contenant".


2. Le mot texte renvoie aussi au "contenu proprement dit, c’est-à-dire à un ensemble organisé de signes linguistiques". 

L’auteur pose ensuite deux questions : 1) Quelles sont les grands types d’opérations physiques et algorithmiques que la numérisation des textes met en œuvre ? 2) Quels effets ces opérations ont - elles sur la lecture et l’analyse des textes ?



Les opérations et produits de la numérisation



Le processus de numérisation de texte est bien plus complexe qu’il n’y paraît et il existe "plusieurs types de textes numérisés, chacun étant le résultat d’un type spécifique d’opération". L’auteur illustre ses propos par un schéma.





L’identification de ces diverses opérations s’avère utile pour dégager les enjeux herméneutiques de la numérisation des documents.



La collection des textes et le corpus textuel 


Il faut distinguer dans un projet de numérisation entre la constitution d’une collection de textes sources disponibles et la constitution d’un corpus.

Exemple : "la collection Tc des œuvres écrites de Jean -Paul Sartre pourrait contenir uniquement les œuvres publiées, délaissant la correspondance, les manuscrits, les cahiers de notes, etc. Et un projet de recherche pourrait ne retenir comme corpus Tp que les textes qui sont de nature philosophique. "

L’auteur insiste sur le fait qu’aucun corpus n’est neutre : toute sélection de textes est déterminée par une pratique ou une théorie. Le corpus différera selon que l’équipe d’un projet de recherche est composée de littéraires, d’archivistes, de linguistes etc..
Ces collections ou corpus ne sont pas sans effets sur "le sens des autres textes avec lesquels ils sont réunis".
En outre, l’état physique des textes doit être également pris en compte. (textes anciens délicats à numériser, ou bien si un texte contient des commentaires, le choix doit être fait de les conserver ou non….)

Tout corpus met en relation des textes avec d’autres textes : par conséquent, il sera interprété d’une autre façon que s’il s’agissait d’un texte isolé.


La transduction : le texte électronique (Te)



Il s’agit ici des opérations qui précédent l’encodage binaire, et qui sont une suite "d’inscriptions électroniques".


Durant cette opération, certaines informations du texte original peuvent être perdues. "Une numérisation de papyrus ou de vieux codex est particulièrement sensible à ce type de traitement : qu’il s’agisse d’un manuscrit médiéval ou d’un parchemin retrouvé dans une ancienne mosquée, l’omission d’une marque ou d’un signe particulier peut donner lieu à des interprétations radicalement différentes" ; C’est pourquoi il est nécessaire que des experts vérifient qu’il n’y a pas eu ajout ou perte d’informations cruciales.



L’encodage : le texte numérique (Tn)



Pour que le texte électronique soit un texte numérique, il faut un encodage binaire. Il s’agit du seul format qui peut être pris en charge par un ordinateur. Là encore cette étape peut donner lieu à des modifications (ajouts, pertes). 


L’affichage : le texte image (Ti)



"Ce dernier document textuel numérique n’est normalement pas « lisible » (en tant que chiffres) par des humains." Il faut donc le convertir  en un format lisible. Ce document textuel image est "comme une photographie du document textuel original".
Cependant, ce document peut n’être pas fidèle à l’original ; "Dans un projet paléographique, un petit trou dans le manuscrit original peut apparaitre comme une marque sémio-linguistique importante (exemple : dans les documents textes anciens)". 
Chacune des étapes peut modifier le texte source et ajouter ou enlever une information. 


La reconnaissance linguistique : le texte dynamique (Td)

Le texte-image est figé, statique. Pour des finalités de lectures, d’analyse, d’édition, le texte-image doit donc être transformé en "texte dynamique (Td)".

"Des algorithmes complexes, basés sur des modèles mathématiques de reconnaissance ou de classification de formes, permettent dans les configurations de pixels des textes-images, notamment par le truchement de différentes opérations de translation, de rotation, de compression et de réduction ou d’agrandissement d’échelle, d’identifier des signes linguistiques et d’éliminer les effets dus au bruit ou aux imperfections. Ces opérations de reconnaissance utilisent parfois des dictionnaires ou des outils linguistiques. Il est évident que le document textuel dynamique Td est distinct du texte-image, tout comme du texte numérique avec lequel il est souvent confondu".

Le texte peut alors être enregistré sous des formats comme TXT, RTF, ou encore Word, Open-office etc…Le texte peut alors être corrigé, annoté, commenté etc…

Ici encore la lecture et l’analyse seront affectées… Des modifications importantes auront lieu "Par exemple, de multiples informations textuelles, tels le soulignement, le surlignage, les polices de caractères, la mise en italique, en gras ou en page, la pagination, les notes et commentaires peuvent être conservées ou éliminées.". Des erreurs de reconnaissance peuvent encore avoir lieu lors de cette transformation.



L’annotation : le texte annoté (Ta)


Il existe plusieurs types d’annotations, l’auteur en présente quelques unes : 

- Le "péritexte"  : Ce terme renvoie "à l’ensemble des signes qui, sous la responsabilité de l’auteur jouent un rôle externe, mais immédiat relativement au contenu du texte. Par exemple, sont dits membres du péritexte tous les mots ou passages référant à l’un des éléments ou dimensions textuels suivants : le titre, l’auteur, la date de publication, la référence, la pagination, les chapitres et sections, les épigraphes, la dédicace, la table des matières, les index et la couverture. Ce type d’annotations s’avère essentiel à la manipulation informatique du texte numérique. Par exemple, les marqueurs indiquant le numéro des pages ou des sections et des titres seront d’une importance cruciale pour le rappel, le résumé, la classification comme d’un point de vue rhétorique ou argumentatif. "


- Les annotations intratextuelles peuvent marquer le statut linguistique des signes, les citations, le genre du texte etc… Seront aussi inclus des commentaires, remarques etc..








Les opérations d’annotation peuvent avoir des effets importants sur l’interprétation du contenu du texte, sur son sens. Il est difficile par ailleurs de proposer des types universels d’annotations, car chaque projet de recherche s’inscrit dans un domaine spécifique. En fait, l'annotation est  "une forme déguisée d’interprétation".

Autre difficulté : sur un support papier, les annotations sont visibles, ce qui n’est pas toujours le cas dans le cadre numérique…




L’édition : le texte édité (Ts)



Les éditions électroniques créent des textes en ligne à partir de lignes de textes.
Le texte édité invente de nouvelles formes de présentation, qui diffèrent de celles du livre. Par exemple, dans des textes édités pour des sites web (voir les sites web consacrés à de grands auteurs), on retrouve certes des lignes de textes similaires à celles qui existent dans l’édition papier, mais « on trouve aussi des textes décomposés en de multiples sous-textes qui deviennent tabulaires, réticulaires, empilés, gigognes, juxtaposés, hypertextualisés, navigables, etc. Dans ses formes fragmentées, le parcours du texte n’est plus uniquement linéaire, mais multidirectionnel »

Le texte édité peut être aussi une "agrégation de segments de textes autonomes, qui, par exemple dans Wikipédia, peuvent provenir d’auteurs et de sources diverses". Il peut être à tout moment modifié.


Ici se pose le problème de la qualité du travail éditorial : est-il fait par des experts ? Sinon, il y a le risque que les ressources proposées au lecteur soient de piètre qualité, voire inauthentiques.

La lecture et l’analyse : le texte à lire analyser et interpréter (Tl)


Seuls les textes-images, les textes annotés, les textes dynamiques et les texte édités sont des textes à lire , analyser et interpréter.


Or des études ont montré que selon qu’un texte est lu sur le moniteur d’un ordinateur de bureau, sur une tablette ou sur un portable, le lecteur vit « des expériences textuelles différentes. ». Certes la lecture sur papier est la plupart du temps encore préférée à la lecture sur écran, mais en l’absence d’équivalents papier, le texte numérisé gagne du terrain, surtout qu’il offre une très grande "flexibilité". On peut y opérer des transformations, on peut y pratiquer une lecture gigogne, on peut adopter des stratégies de lecture différentes etc…

On peut penser que ce nouveau format textuel numérisé finira par être préféré. 


L'auteur s'appuie sur l'édition en ligne de l'ouvrage l’Origine des espèces de Darwin. "Par les annotations et surtout l’hypertextualisation, le lecteur peut accéder tout au long de sa lecture à un corpus paratextuel et épitextuel formé de plus de 63 éditions différentes de l’ouvrage et de plus de 1500 sources secondaires. La lecture classique est ainsi rompue au profit de parcours de textes multiples, diversifiés et participant à interconnexion textuelle véritablement révolutionnaire."
Par ailleurs, le texte numérisé permet d’effectuer un plus grand nombre d’approches analytiques (stylistiques, concetuelles ) réalisées par l’ordinateur. 

Enfin, la numérisation des textes a un impact sur la diffusion et le partage du savoir.


Conclusion : 


"Ainsi, partant d’un texte source sélectionné parmi une collection de textes, la numérisation produit non pas une copie unique dite numérique du texte, mais bien une véritable galaxie de textes numérisés" qui sont reliés les uns et autres et permettent plusieurs parcours de lecture.


Il s’avère alors important d'avoir conscience que des choix , plus ou moins conscients, et qui ne sont pas neutres ont été opérés dans les différentes transformations du texte source et que c'est bien une conversion-traduction  - et non une copie- qui à chaque étape a lieu. L'intérêt de cet article est aussi de donner des définitions très utiles qui permettent de savoir de quoi on parle lorsqu'on utilise les termes numérisation, numérisé, numérique.






                                              Source : http://www.digitalhumanities.org/dhq/vol/12/1/000362/resources/images/figure06.png