Vous trouverez dans la partie Corpus de ce site Web plusieurs procédures d’interrogation des données.

L’interrogation en mode « simple »

Il s’agit d’une recherche par mot, par troncatures. Ici, on recherche les différentes occurrences du mot « monachi » partout dans le corpus du cartulaire blanc de Saint-Denis.

Copie d'écran

Voici la page des résultats pour la requête précédente :

Copie d'écran

Dans cette feuille de résultats, chaque mot se trouve mis en contexte, avec un lien au texte où il se trouve. On peut éventuellement l’obtenir en format PDF destiné à l’impression et à l’enregistrement :

Copie d'écran

La  recherche avancée pour une seule forme

Il s’agit toujours de recherche par mot(s) dans tout le corpus, mais dans des contextes et avec des objectifs spécifiques.

Ainsi la recherche sur «une seule forme », avec une recherche sur le mot, ou avec des « jokers » (troncatures), ou encore « floue ».

Copie d'écran

Plusieurs options sont disponibles, dès cet écran :

On peut augmenter la taille du contexte, soit le nombre de caractères entourant le mot, afin de lui donner un contexte. Il est possible de moduler le nombre de résultats par page, comme dans toute recherche sur un moteur de recherche web traditionnel.

Copie d'écran

Il est également possible de choisir une partie du corpus, afin de limiter l’interrogation à celle-ci, tout comme il est possible d’ajouter d’autres corpus pour les interroger de concert.

Copie d'écran

Ainsi, une requête sur « monach » et ses dérivés : monachi, monachorum…

Copie d'écran

La feuille de réponse offrira une liste des mots remis en contexte, avec référence au texte à visualiser éventuellement :

Copie d'écran

La recherche sur plusieurs formes

On peut envisager des recherches sur plusieurs formes, plusieurs mots, associés

Copie d'écran

On notera l’opérateur booléen ET liant les deux termes. On remarquera également des options d’affichage identifiques à la recherche sur une seule forme.

Copie d'écran

Remarquons que des « jokers » et des opérateurs booléens peuvent être utilisés conjointement. Cependant on notera que chaque * (signifiant « n’importe quelle chaîne de caractère ») est précédée ou suivie d’un point . qui la sépare du mot. On cherche ici tous les textes qui comprennent le mot abb et toutes les formes qui en dérivent (abbas, abbatia, abbatem…) OU le mot mil et toutes les formes qui en dérivent (miles, militia, militis…)

Copie d'écran

La feuille de résultat, ici, donne l’analyse de l’acte ainsi que sa date, et renvoie au texte lui-même : « voir le document ».

Recherche par co-coccurence

Copie d'écran

La recherche par co-occurrence est assez semblable pour la méthode à la recherche par plusieurs formes : la distinction essentielle est que l’on peut choisir le degré de proximité spatiale (en terme de nombre de mots) qui sépare les deux formes. Dans le cas de cette interrogation, les formes peuvent être accompagnées de « jokers » ( * ) permettant de multiplier les formes interrogées, mais ici AUCUN point ne se trouve entre les formes ord  et bened, ni aucun opérateur booléen de type ET ou OU. On fait suivre simplement en un seul champ les deux formes dont on recherche les co-occurrences, on précise la distance maximale de séparation, on précise éventuellement les options d’affichages, on lance la recherche et on obtient le formulaire de résultats, similaire, pour l’apparence, à celui des recherches pour plusieurs formes :

Copie d'écran

La recherche par critères

Chaque corpus est doté de modules d’interrogations particuliers, propres aux données qui le composent. Ces modules sont accessibles par l'onglet  « recherches par critères ». Pour le Cartulaire blanc de Saint-Denis, deux types de critères sont possibles, comme présenté ci-dessous : par intervalle de datation des actes du cartulaire blanc (terminus post quemet terminus antequem) et/ou une interrogation par auteur de ces actes.

Copie d'écran

Copie d'écran

Index de formes

Un petit programme de traitement des formes des corpus permet de proposer à l’utilisateur des index de formes, soit des listes de tous les mots (sous toutes leurs formes) utilisés dans chacun de ces corpus. On donne la possibilité de choisir éventuellement une partie du corpus dont on désire tout particulièrement obtenir un index des formes.

Copie d'écran

Une fois la requête lancée, la liste apparaît invariablement classée par ordre alphabétique des mots. Le nombre d’occurrences de ces mots (non lemmatisés, évidemment) est donné à côté du mot, dans la seconde colonne, ainsi que le rang de ce mot, du point de vue quantitatif.

Copie d'écran

On peut demander un classement de ces mots par fréquence en cliquant sur l’en-tête de la seconde colonne « fréquence », ce qui permet de voir que, dans le cas du chapitre de Rueil-Malmaison du cartulaire blanc de Saint-Denis, c’est la conjonction « et » qui apparait le plus souvent, se plaçant ainsi au premier rang, avec 1414 occurrences.

Il faut néanmoins être prudent avec cet instrument, qui ne dispense pas de travaux de comptage et de lemmatisation plus précis. En effet, un certain « bruit » perturbe naturellement ces ensembles de données : par exemple, pour les mots en ancien français séparés par une apostrophe, comme aujourd et hui qui sont un exemple typique, puisque l’index de formes distingue ici deux mots.

Cet instrument reste éminemment utilisable, mais pas avec une précision extrême. On s’en servira pour des ordres de grandeur, en gardant à l’esprit les précautions critiques déjà énoncées.

Copie d'écran