Introduction

À l'origine du projet d'informatiser le Dictionaire critique de la langue française (désormais D.C.) de l'abbé Jean-François Féraud (Féraud 1787) se trouvent, en France comme à Montréal, des équipes qui ont travaillé sur cette oeuvre majeure de la lexicographie du français post-classique (Dagenais, 1988, 1989, 1990, 1991; Féraud, 1987; GEHLF, 1986, 1987; Seguin et al., 1990). L'informatisation complète du D.C. que nous souhaitons réaliser vient donc au terme d'une longue fréquentation qui nous a permis d'en mesurer l'intérêt dans l'histoire de la dictionnairique française et comme témoignage sur la langue de son temps.

Si l'on regarde avec un oeil historique le D.C., on y trouvera en effet deux grandes originalités à l'intérieur de la tradition lexicographique proprement française, originalités qui sont à l'actif de Féraud:

  1. Le projet de faire un dictionnaire:
    • exclusivement de langue;
    • portatif;
    • à la fois compilatoire et critique;
    • consciencieusement mis à jour.
  2. La généralisation d'un constituant phonético-graphique nettement distingué des autres prédicats métalinguistiques par des crochets droits, avec un jeu intelligemment complémentaire de la transcription figurée et des remarques phonétiques. C'est notamment à partir de ces informations -- et de celles du Dictionnaire grammatical (Féraud, 1761) -- que L. Dagenais, de l'équipe de Montréal, documente régulièrement son enquête sur la phonologie du français post-classique.

Ces objectifs sont tenus dans l'ensemble du D.C., même si l'auteur évolue à mesure que le dictionnaire avance, délaissant de plus en plus le travail de transcription figurée, le plus souvent redondante, de l'orthographe réformée dont il use. En outre, on ne soulignera jamais assez combien le souci de vérifier la permanence de l'usage avant de recopier aveuglément un devancier est à l'honneur de Féraud, lui conférant sur ses contemporains en lexicographie un réel avantage. On est loin en son temps d'avoir le sens de l'évolution de la langue aussi averti et on trouve rarement un dictionnaire qui vérifie aussi soigneusement les répertoires antérieurs avant d'en reproduire la teneur.

Le projet clairement défini et mené à terme par Féraud en fait, pour le français de son temps, un document unique. Quant aux critiques dont il a été l'objet dans les journaux lors de la parution en 1787, elles révèlent davantage la division du monde grammatical contemporain que de réelles carences.

Notre Groupe de Recherche (le G.E.H.L.F., implanté à l'École Normale Supérieure, Paris) souhaite actuellement ouvrir la description du français post-classique à une lecture variationniste. Dans cette perspective, Féraud, avec le large spectre de textes qu'il a dépouillés, citant par ailleurs le "bon" et les "mauvais" usages dans une perspective normative assez souple, est un réservoir d'hypothèses intéressantes qu'il nous appartiendra de confirmer par des lectures extensives.

Une connaissance exhaustive des sources, genres et auteurs cités nous permettra notamment de prendre la mesure de l'état de langue qu'il décrit.

1. Caractéristiques matérielles du D.C.

Quelque intérêt que puisse susciter le document, il faut tout de même admettre qu'il présente une structuration encore hésitante, intermédiaire dans l'histoire de la lexicographie française: certes, le développement lexicographique s'enfle et se structure, l'appareillage graphique se diversifie et se stabilise, mais il n'a évidemment pas toute la régularité qu'on aimerait lui trouver, si bien que le découpage du texte aux fins de son informatisation se heurte à différents problèmes.

Parmi les caractéristiques principales de ce répertoire, mentionnons un jeu assez sophistiqué d'auxiliaires graphiques de lecture qui balisent d'une manière efficace la chaîne des prédicats de l'article: outre le système de repérage numérique et deux signes de disjonction majeurs (le trait horizontal simple et le double trait horizontal), on trouve couramment les crochets droits -- ils encadrent les remarques phonético-graphiques -- et des passages à la ligne. S'ajoutent de plus trois corps typographiques, deux polices de caractères, et le jeu habituel des majuscules et des minuscules. (Cf. Figure 1 où sont reproduites les pages 96-7 du D.C.)

Féraud recourt aussi à l'astérisque pour signaler les mots ou tournures irrecevables dans le bon usage (Figure 1a).

Notons aussi que les exemples sont régulièrement introduits par des guillemets ouvrants qui ne sont jamais clos (Figure 1b); cette pratique crée parfois un réel embarras, la juxtaposition des instances énonciatives donnant lieu à des hésitations.

2. La représentation informatique de l'original

Nous évoquerons successivement:

  • l'élaboration d'un système de référence;
  • la représentation des auxiliaires typographiques;
  • le codage de certaines chaînes de caractères dès la préédition;
  • l'hypothèse d'un codage plus général des marques d'usage en post-édition.

2.1. Le système de référence

Nous pouvons évidemment penser pour les références à un système qui s'appuie exclusivement sur la disposition matérielle, typographique de l'original: l'article, la page, la colonne, la ligne. Mais il nous semble que, l'ordre alphabétique du dictionnaire étant pratiquement autoréférentiel, il y a là une sorte de redondance et que nous pouvons chercher à motiver davantage le système de référence en tentant de discerner à l'intérieur de l'article une syntaxe des composants ou chaînes de prédicats.

L'avantage de cette option tient à ce qu'on peut savoir instantanément dans lequel des composants se trouve la chaîne de caractères recherchée et travailler par exemple sur un seul des composants. La dernière édition 4.4 de WordCruncher rend désormais possible cette opération, comme le fait TACT.

Pour les besoins de WordCruncher, que nous utilisons actuellement, nous avons donc provisoirement défini pour chacun de nos fichiers un premier niveau de référence constitué par la lettre de l'alphabet à laquelle correspond la lettre initiale de la première adresse du fichier. Ce choix provisoire laisse le premier niveau disponible; dans l'éventualité d'un thesaurus généralisé de dictionnaires, il deviendra le niveau D.C.

Le deuxième niveau s'impose de lui-même: il s'agit de l'article qui, à de rares exemples près dans le D.C., circonscrit un lieu de référence indiscutable.

Pour le troisième niveau, la question s'est posée de savoir si une syntaxe de l'article autorisait la délimitation de composants récurrents à propriétés constantes, faute de quoi le repérage matériel par article, page, colonne et ligne devenait par défaut préférable. Ces composants devaient ainsi:

  • être composés d'unités de contenu similaire,
  • être prédictibles d'un article à l'autre,
  • n'admettre pour variante que l'opposition composant plein/composant vide,

propriétés largement vérifiées sur un échantillon important du D.C.

À l'usage, la structure suivante paraît constante:

-- Niveau 1: lettre de l'alphabet et numéro d'ordre du fichier (remplacement ultérieur possible par D.C.)

-- Niveau 2: article dont le nom correspond à la vedette inscrite dans le D.C. en grandes capitales, romaines ou italiques.

-- Niveau 3: composants d'articles:

3.1. composant Adresse, soit le(s) mot(s) en adresse accompagné(s) des indications facultatives de partie du discours et de propriétés distributionnelles secondaires;
3.2. composant Phonético-graphique comprenant facultativement les transcriptions figurées, les remarques prosodiques et/ou graphiques; le plus souvent, Féraud isole ce composant à l'aide de crochets droits ([...]);
3.3. composant Définitionnel, des limites duquel il sera question ci-après;
3.4. composant Renvoi, dont nous traitons plus loin.

Attardons-nous sur ce troisième niveau de structuration, et d'abord sur les bornes de ses différents composants car, si les composants 3.1 et 3.2 sont bien circonscrits, les frontières des composants 3.3 et 3.4 sont discutables.

Le composant définitionnel commence le plus souvent après la fermeture du crochet droit (qui clôt le composant phonético-graphique) ou, par défaut, lorsque cesse le discours phonético-graphique, mais où s'arrête-t-il? Et notamment ne faut-il pas envisager un composant Remarque facultatif qui correspondrait aux fréquents marqueurs "Rem." dans les articles? (Figure 1c.)

On peut répondre à cette proposition:

  • qu'il y a une réelle homogénéité de contenu dans le discours qui suit le composant phonético-graphique, les informations apportées après un marqueur "Rem." n'étant pas, analyse faite, substantiellement différentes de ce qui se trouve en deçà de lui;
  • qu'il n'a pas été possible de fragmenter le composant définitionnel en composants à syntaxe récurrente d'autant plus que les fragments de discours lexicographiques annoncés par le label "Rem." ou "Remarque" n'occupent pas forcément la dernière place dans le déroulement syntagmatique de l'article. (Figure 1d.)

Bref, il n'y a pas de syntaxe constante à partir du moment où l'on quitte le composant phonético-graphique. Il faut donc considérer qu'hormis pour le composant Renvoi dont nous parlerons plus loin, les prédicats métalinguistiques qui suivent le composant phonético-graphique ne constituent qu'un seul composant que nous appelons définitionnel au sens étymologique du terme, en ce sens qu'il énonce, outre les divers interprétants possibles du mot, des restrictions d'usage (fréquence, distributions préconisées ou proscrites, niveau de langue, genre, situation de communication) dotées de leurs exemples.

Le découpage plus fin du composant définitionnel se heurte aussi à des complications supplémentaires parce que le D.C. présente des articles à plusieurs adresses dont les prédicats ne sont pas ordonnés: le premier mot en adresse n'est pas forcément le premier traité (Figure 1e).

Féraud peut également créer un tronc commun prédicatif en donnant ou non ensuite les traits distinctifs des adresses ainsi regroupées ou même de mots absents de la liste d'adresses; par ex.:[1]

    ÉCHAUFAISON , ÉCHAUFÛRE , s. f.
[ Echofézon , fûre ; Ire é fer. 3e è moy. au
Ier , lon. au 2d. ] La Touche remarque qu'ils
se disent également bien , suivant l'Acad.
Il croit pourtant le Ier plus usité. Dans sa
dern. édit. l'Acad. paraît y mettre quelque
diférence. Elle dit le Ier , d'un mal causé
par une chaleur excessive , et qui parait par
une ébullition ; et le 2d , d'une petite rou-
geur , d'une petite élevûre qui vient sur la
peau dans une échaufaison. Mais les exem-
ples qu'elle done paraissent les confondre.
» Ce n'est qu'une échaufaison ; ce n'est qu'une
échaufûre.

    ENCÂVEMENT , s. m. ENCAVER , v. a.
[ Ankâveman , : 3e e muet au Ier , é fer.
au 2d. ] Ils expriment l'action de mettre en
câve du vin , ou d'aûtres boissons. -- On dit
aussi encaveur , celui qui encâve.

Ces caractéristiques interdisent un découpage plus fin du composant définitionnel.

Reste à évoquer le composant renvoi dont la caractéristique est la suivante: il y a composant Renvoi lorsque l'article est pratiquement vide aux trois premiers composants du niveau 3 et qu'il se borne à renvoyer à un autre article; par ex.:[2]

    EMPYRIQUE , EMPYRISME. Voy. EM-
PIRIQUE , EMPIRISME.

    ÉMULE. Voy. ÉMULATEUR.

Nous avons donc adopté le protocole de saisie suivant: séparer chaque article à l'aide d'un triple retour-chariot puis chaque composant d'article par un double retour chariot. Lorsqu'un composant est vide, nous procédons de la même façon mais en y inscrivant le signe @. Les retours-chariot permettent ensuite, par une recherche-remplacement sous WordPerfect, l'ajout des balises de référence reconnues par WordCruncher, qui incrémente ensuite chacun des composants de niveau 3.

2.2. Le traitement des auxiliaires typographiques

Pour le traitement des auxiliaires typographiques, notre équipe s'est trouvée placée devant des choix assez délicats. L'ouvrage de Féraud présente en effet un appareillage typographique dont nous avons déjà parlé et que nous rappelons pour mémoire:

1. Un système complexe de marques disjonctives:

  • repérage numérique incluant jusqu'à deux numérotations, romaine et arabe;
  • trois auxiliaires graphiques de disjonction (les crochets droits, le trait horizontal et le double trait horizontal);
  • passages à la ligne;
  • retraits.

2. Un jeu complexe de caractères:

  • trois corps typographiques: grand, moyen et petit;
  • deux polices de caractères: romain et italique;
  • deux variantes: majuscule et minuscule.

Parmi ces auxiliaires graphiques, certains peuvent passer tels quels dans le texte sans transposition; par ex., le système numérique ou le crochet droit, qui existent dans la table ASCII. En revanche la barre horizontale simple ou double nécessite un transcodage: nous les transcrivons respectivement par un trait de soulignement et un signe égal, tous deux précédés et suivis d'un espace. Nous tenons également compte des paragraphes et des retraits du D.C. dans le fichier WordPerfect.

Restent les corps et les polices. Sur ce point nous avons adopté une position intermédiaire qui essaye de sauvegarder toute l'information de l'original sans trop surcharger la saisie:

1. Ne pas en tenir compte chaque fois que l'information apportée par l'auxiliaire typographique est prise en charge par un autre support (système de référence ou codage):

  • c'est par exemple le cas des grandes capitales d'imprimerie de la vedette, dont l'information est récupérée par le système de référence (soit |P);
  • c'est le cas de l'italique dans les indications de source et dans les transcriptions figurées, qui sont par ailleurs codées (soit £Source -- ex. £Racine -- et /Transcription figurée -- ex. /anlâceman, /enla-cé).

2. Négliger les variantes typographiques non pertinentes:

  • c'est le cas du petit corps typographique des vers que nous ne codons pas.

3. Conserver l'opposition de police italique/romain dans le corps de l'article parce qu'elle nous paraît incontournable. Les italiques balisent en effet un mot ou un syntagme parfois discontinu afin de le matérialiser:

  • soit comme support ou thème du discours métalinguistique;
  • soit comme motif de l'exemple allégué.

Ce n'est malheureusement pas la seule fonction de l'italique dans le composant définitionnel, puisque certains des interprétants sont également en italique; il nous est cependant apparu impossible d'entrer dans une opération de désambiguïsation qui risquait fort d'être périlleuse. Nous codons donc systématiquement l'italique dans tous les cas où un autre codage ne récupère pas l'information.

En outre, le rappel de l'adresse dans le corps d'un article est typographiquement matérialisé de façons variées, tantôt par l'italique, tantôt par la majuscule romaine de corps moyen (Figure 1f). Il était impossible de conserver cette diversité et nous avons décidé de ramener ces deux variantes typographiques à une variante unique: l'italique.

Les codes d'italique, après avoir été transférés dans le texte machine en balises ASCII et traités comme délimiteurs, seront ultérieurement transcodés de façon à restituer les italiques à l'écran.

2.3. Les autres codages

À la première couche de codages référentiels et typographiques s'ajoutent deux autres systèmes de balises:

1. Des balises d'ouverture et de fermeture:

  • les crochets droits [...] en début et en fin du composant phonético-graphique;
  • les crochets brisés <...> de part et d'autre des exemples (référencés ou non).

2. Des balises placées immédiatement avant des chaînes spécifiques de caractères et indiquant que celles-ci présentent une propriété commune assez intéressante pour qu'on veuille les retrouver groupées et les constituer en glossaires. Ce marquage informatique crée dans l'indexation des mots artificiels, par ex.:

  • %Anglais, %Arabie, où % code les anthroponymes et toponymes;
  • $fém., où $ signale une abréviation;
  • £Rousseau, où £ précède immédiatement une indication de source;
  • £$Rouss., où la combinaison £$ note une source abrégée.

Ces séquences sont donc de type Xxxxx, la balise de fin étant l'espace. Ceci implique que, dans les cas où la chaîne de caractères forme un syntagme graphique et non un mot graphique, il faut artificiellement regrouper ses composants de manière à éviter que l'espace ne joue le rôle de délimiteur; ex. $v_a. pour "v. a." (verbe actif), £$gasc_corr. pour "gasc. corr." (gasconisme corrigé), etc. (Figure 2 et Figure 3.

Une informatisation ne saurait évidemment être mise en oeuvre sans une vision relativement claire des attentes possibles du public savant. Trois grandes attentes nous semblent devoir être satisfaites (la première l'est déjà par le travail effectué à Montréal):

1. Questionner la transcription figurée pour étudier les grandes régularités de la phonologie du français enregistré par Féraud.
2. Se faire une idée précise de la littérature compilée ou dépouillée par lui, c'est-à- dire de l'étendue du français décrit.

Ces deux attentes peuvent être assez aisément satisfaites. Il faut en outre pouvoir:

3. Interroger le lexique et la phraséologie dans une perspective variationniste en exploitant le riche marquage d'usage noté par Féraud. À cette dernière attente, nous essaierons de montrer qu'il n'est pas facile de répondre par un codage.

Nous avons pour l'instant décidé de coder systématiquement:

  1. la transcription figurée, en prenant soin de ne pas restituer les séquences tronquées. La barre oblique précède chacune de ces transcriptions, tronquées ou non -- ex. /anluminé, /neur, /neû-ze, /nûre;
  2. les sources, que nous précédons de la livre sterling; dans tous les cas où la source, auteur ou titre, correspond à un syntagme, le trait de soulignement en lie les éléments -- ex. £Dithyrambe_aux_mânes_de_Voltaire;
  3. les abréviations, pour deux raisons: d'une part pour en connaître l'étendue et le rôle comme descripteurs métalinguistiques; d'autre part pour pouvoir les évacuer d'un index en cas de besoin. Nous les précédons du signe du dollar -- ex. $etc., $Rem.;
  4. les références anaphoriques (le même, idem) pour lesquelles nous restituons la référence complète immédiatement suivie du signe µ, qui indique ainsi une restitution conjecturale -- ex. £Dithyrambe_aux_mânes_de_Voltaireµ;
  5. les anthroponymes et toponymes, que l'on trouvera ici précédés du signe %; ex. %Pyrrhus.

Dans la version portée à la Figure 2, et que nous venons de modifier en fonction de la nouvelle configuration du logiciel WordCruncher, il reste encore la trace d'une hésitation sur laquelle nous n'avons pas encore pris parti: il s'agit du sort à réserver aux chaînes de caractères de statut mixte phonético-graphique que l'on trouve dans le composant du même nom; ex. "3e e muet". Un essai est en cours dans le fichier en démonstration, qui code différemment la transcription figurée (avec la barre oblique) et les chaînes de caractères phonético-graphiques (avec la perluette; ex. 3e &e muet). Il nous est apparu qu'étant donné les risques d'erreur occasionnés par la préédition et la saisie, il était hors de question de surcharger davantage cette première saisie. On trouvera également le signe # dans le texte machine: il s'agit d'un signe de perplexité qui permet de localiser immédiatement les passages à revoir.

3. À la recherche des informations sur les marques d'usage

Le D.C. est un ouvrage particulièrement intéressant pour tout ce qui concerne les marques d'usage. Leur nomenclature souffre toutefois de multiples variations et se prête ainsi mal à un codage:

  1. La synonymie est constante. Pour une même marque, "archaïsme" par exemple, les marqueurs peuvent être: vieux, ne se dit plus (que), n'est plus en usage, hors d'usage, il a vieilli, il se disait autrefois, etc.
  2. Certains marqueurs amalgament plusieurs informations; ainsi, st(yle) prov(erbial) veut dire 'expression figée et familière', de sorte que le registre familier se trouve tant sous cette mention que sous les mentions fam., famil., familier, on dit familièrement, etc.
  3. Les marqueurs peuvent être discontinus: on ne le dit plus, il n'est plus en usage.

Devant la diversité des motifs porteurs de ces marques, il est absolument impossible d'en contraindre artificiellement la recherche par un quelconque codage-machine. Il nous paraît plus adéquat d'opter pour un fichier d'aide à la recherche: y seront inscrits pour chacune des catégories générales recensées (archaïsme, familier, etc.) la liste des dénominations les plus fréquentes.

Au terme de cette présentation, il convient de souligner l'esprit de notre entreprise: offrir un texte électronique interrogeable par logiciel et non l'édition critique du D.C. Bien qu'animés d'un souci philologique légitime, nous nous devrons de consentir à certaines libertés: les 2 700 pages du D.C. l'exigent. Dans cette perspective, la réimpression du D.C. nous paraît des plus souhaitables.


Notes

[1] NDLR: La distinction grandes capitales ("ÉCHAUFAISON", "ENCÂVEMENT", puis plus loin "EMPYRIQUE", "ÉMULE") vs. petites capitales ("ÉCHAUFÛRE", "ENCAVER", puis plus loin "EMPYRISME", "EMPIRIQUE", "EMPIRISME", "ÉMULATEUR") est faite par certains navigateurs, neutralisée par d'autres.

[2] NDLR: La distinction grandes capitales ("EMPYRIQUE", "ÉMULE") vs. petites capitales ("EMPYRISME", "EMPIRIQUE", "EMPIRISME", "ÉMULATEUR") est faite par certains navigateurs, neutralisée par d'autres.


Bibliographie

  • DAGENAIS, Louise (1988). "Amorce de la neutralisation des O à la finale absolue et produit de la monophtongaison d'(E)AU", Proceedings of the Fourteenth Lacus Forum 1987. Lake Bluff: Linguistic Association of Canada and the United States: 364-72.
  • DAGENAIS, Louise (1989). "Loss of word quality distinction between [oe] and [ø] in French: An ongoing change at the end of the 18th century", Proceedings of the Fifteenth Lacus Forum 1988. Lake Bluff: Linguistic Association of Canada and the United States: 367-82.
  • DAGENAIS, Louise (1990). "De la fermeture des [oe] à la finale absolue en français général aux 18e et 19e siècles", Neophilologus, 74: 330-52.
  • DAGENAIS, Louise (1991). "Évolution du vocalisme en français moderne: la place de Féraud (fin du XVIIIe siècle", Actes du XVIIIe Congrès international de linguistique et philologie romanes. Tübingen: Max Niemeyer, vol. 3: 222-31.
  • FÉRAUD, Jean-François (1761). Dictionnaire grammatical de la langue françoise. Avignon: Veuve Girard; nouvelle éd., Paris: Vincent, 1768, 3 vols; microrééd., Archives de la linguistique française, n° 156, Paris: France-Expansion, 1973.
  • FÉRAUD, Jean-François (1787). Dictionaire critique de la langue française. Marseille: Jean Mossy & fils; microrééd., Archives de la linguistique française, n° 155, Paris: France- Expansion, 1972.
  • FÉRAUD, Jean-François (1987). Suplement au Dictionaire critique. Paris: Presses de l'École Normale Supérieure de Jeunes Filles, 3 vols.
  • GEHLF (Groupe d'Études en Histoire de la Langue Française) (1986). Autour de Féraud: la lexicographie en France de 1762 à 1835. Paris: Presses de l'École Normale Supérieure de Jeunes Filles.
  • GEHLF (1987). Études critiques sur Féraud lexicographe. Paris: Presses de l'École Normale Supérieure de Jeunes Filles.
  • SEGUIN, Jean-Pierre, D. BOUVEROT, P. CARON, N. FOURNIER & I. LANDY-HOUILLON (1990). "Les marqueurs du mauvais usage dans le Dictionaire critique de la langue française de l'abbé Jean-François Féraud", Lexique, 9: 129-51.