A l’heure que l’on parle de plus en plus de recherche augmentée par l’IA générative, je voulais revenir sur quelques fondamentaux de la recherche sur internet. J’ai le sentiment que si l’on ne maîtrise pas les fondamentaux, on ne peut pas évoluer vers d’autres types de recherche.

La recherche booléenne

La recherche booléenne, c’est la base.

En ce qui me concerne, je l’ai apprise en classe de CP. Je visualise encore très bien les stencils avec les ensembles dessinés et leur logique implacable. J’ai aussi l’odeur qui accompagnait ce support (si toi aussi tu visualises c’est que tu es de la même génération !).

Je ne mesurais pas à l’époque l’importance qu’aurait cette logique sur ma carrière.

Rappel sur la logique booléenne

Les opérateurs sont : ET, OU, SAUF (AND, OR, NOT)

Ce sont des opérateurs logiques permettant de lier entre eux des mots clés selon une logique mathématique.

Les opérateurs booléens. Source : Université des Antilles

ET/AND = intersection, sert à indiquer la présence simultanée de plusieurs mot clés; tous les mots doivent figurer dans les réponses; permet de préciser la recherche et d’éviter un trop grand nombre de résultats, restreint la recherche. Souvent implicite donc pas besoin de le saisir.
exemple : « taxe professionnelle » ET exonération, responsabilité (ET implicite) contractuelle

OU/OR = union, indique au serveur que l’on cherche des renseignements se rapportant à plusieurs sujets; permet la gestion des pseudo-synonymies ou des variantes d’un mot, non prises en charge, permet d’élargir la recherche et d’éviter de passer à côté de certains résultats. A utiliser aussi pour une recherche sur des personnes «prénom nom» OR «nom prénom»
Exemples: «licenciement OR congédiement», «partenaire social OR partenaires sociaux», résultats OR «chiffres d’affaires» OR bénéfices, époux OR conjoint OR concubin; au moins un des mots doit figurer dans les réponses, [nom du secteur] association OR fédération OR syndicat, responsabilité contractuelle OU délictuelle

SAUF/NOT = exclusion, sert à éliminer les documents incluant un mot clé, à utiliser avec précaution, permet d’éviter un trop grand nombre de résultats. Fonction de filtre lorsqu’un même mot ou une même expression renvoie à plusieurs contextes juridiques ou factuels
A éviter sur Google, lui préférer le -.
Exemples : prime -ancienneté, Safran –épices –épices, permet de concentrer la recherche sur l’entreprise Safran et non l’épice, responsabilité contractuelle SAUF délictuelle

Un bon exemple du mauvais usage des opérateurs booléens en période COVID-19

La recherche avancée sur Google

Mode recherche avancée sur Google

Également très peu connue de la jeune génération qui pourtant ne jure que par Google ! Etonnant ! J’ai coutume de dire, puisque l’on ne peut pas empêcher les jeunes juristes de faire leurs recherches juridiques sur Google, autant les faire de manière professionnelle.

Il est utile de connaître certaines fonctionnalités par cœur mais on peut aussi se laisser guider par cette grille de recherche.

https://www.google.fr/advanced_search

Le mode recherche avancée sur les bases de données

La recherche avancée a toujours existé sur les bases de données juridiques mais lorsque la barre de recherche « à la Google » est devenue la norme, les éditeurs juridiques ont eu tendance à la supprimer au grand dam des documentalistes. C’est en partie, je pense, grâce à ces mêmes documentalistes, que certains éditeurs y sont revenus sur le tard. Je pense notamment à l’éditeur Lexis Nexis qui a réintroduit dans sa version récente Lexis360 les opérateurs booléens, l’expression exacte, les opérateurs de proximité, les opérateurs qui permettent de cibler un terme uniquement dans le titre ou dans le texte du document. A chaque refonte de base de données juridique la communauté des documentalistes juridiques se tourne (avec fébrilité) vers l’éditeur pour vérifier que le mode recherche avancée existe bien car nous tenons beaucoup à ce mode de recherche.

Mode recherche avancée sur Lexis

Mode recherche avancée sur Lexis

C’est aussi la méconnaissance de ce mode de recherche qui conduit à ne pas trouver la réponse à une recherche.

Un exemple frappant qui revient souvent c’est la méconnaissance du mode recherche avancée dans Légifrance qui conduit à ne pas trouver un arrêt publié au Bulletin Civil.
Voir mon article sur ce point : https://www.serendipidoc.fr/tuto-rechercher-arret-publie-bull-civ-legifrance/

Les opérateurs de recherche

Ci-dessous quelques opérateurs de recherche que l’on peut utiliser sur quasiment toutes les bases. Liste non exhaustive.

Expression exacte. Les guillemets : pour spécifier que les termes saisis entre guillemets sont considérés comme une expression (exemple : « développement durable »)

Sert aussi à imposer l’orthographe d’un mot ou à chercher de noms de personne « prénom nom ». Exemple « marché » pour obtenir le mot marché et non marche, « Total » pour obtenir l’entreprise et non le total.

« bail commercial ». Cette requête ramènera uniquement des documents contenant l’expression exacte. En aucun cas, un document ne contenant que bail ou que commercial ou encore baux commerciauxbauxcommerciaux ne pourra remonter dans la liste de résultats.

Attention Google ne comprend pas les parenthèses.

Proximité. ADJ, NEAR, ADJ/n, NEAR/n, AROUND/n ou AROUND(n), with, followed by : opérateurs de proximité, règlent la distance entre deux mots, leur ordre, leur présence dans un même paragraphe

Certaines bases de données permettent de demander à ce que les mots se trouvent dans la même phrase ou le même paragraphe : fonctionnalité très pratique mais en voie de disparation malheureusement. Pour Google utiliser AROUND.

Troncature *, ? : permettent de remplacer un ou plusieurs caractères, peut être situé au début, au milieu ou à la fin d’un terme (exemple : telephon* pour téléphone, téléphonie) ; pas comprise par tous les moteurs de recherche, pas chez Google.

Opérateurs numériques =, >,<, until, since, utiles pour la recherche dans les champs numériques (dates). Pour Google, voir la recherche avancée (pas d’opérateur).

Voir aussi sur ce sujet le long billet détaillé d’Emmanuel Barthe : https://www.precisement.org/blog/Utiliser-Google-pour-des-recherches-juridiques.html

Le classement par pertinence

C’est un facteur à vérifier lors une recherche (cocher ou décocher), ce classement peut impacter vos résultats. Ne laissez pas dire à une machine que le document A est plus pertinent pour vous que le B. C’est à vous de décider de la pertinence d’une information.

Les filtres, la recherche sémantique, l’auto-complétion

Ces modes de recherche dépendent beaucoup de la qualité du thésaurus de l’éditeur. Plus le thésaurus est riche, plus l’auto-complétion sera utile. Attention l’auto-complétion peut parfois vous égarer vers des pistes hors sujet. Il faut s’en méfier.

La recherche boostée par l’IA

C’est la recherche boostée par l’intelligence artificielle qui a fait la renommée des legaltechs et qui a introduit de nouveaux standards de recherche, de performance et de rapidité. Je pense notamment à la legaltech doctrine.fr dont les algorithmes sont très puissants avec une indexation de leur base sur Google tellement facile d’accès qu’elle donne la fausse impression que toutes les recherches juridiques peuvent se faire en cherchant sur Google (or c’est loin d’être le cas).
Cette technologie continue d’être déployée comme le souligne Lexis dans une récente interview : « nous continuons à développer l’IA en général, comme avec Case Law Analytics qui utilise des algorithmes.» (Village de la Justice, les interview des acteurs juridiques de l’IA, position de l’éditeur LexisNexis, 27/02/2024).

La recherche boostée par l’IA générative, la recherche en langage naturel

C’est la période dans laquelle nous somme depuis 2023.

On parle aussi de RAG (retrieval augmented generation, génération augmentée de récupération)

Voir par exemple cet article pour mieux comprendre le sujet  https://www.oracle.com/fr/artificial-intelligence/generative-ai/retrieval-augmented-generation-rag/

Un véritable changement de paradigme puisque l’on passe d’une longue période où il fallait composer une question précise pour obtenir une réponse précise en utilisant un langage métier et technique, à une sorte de vaste dialogue sur un corpus plus ou moins spécialisé, qui peut partir d’un angle très large pour aboutir, après moults échanges en langage naturel, à une réponse customisée, pas forcément une réponse unique mais la réponse qui convient le mieux à l’instant T. Cette réponse pourra être différente le lendemain si les données évoluent entre temps.

Il y aura toujours une réponse car l’IA générative à du mal à dire qu’elle ne connait pas la réponse. Dans le meilleur des cas et selon son entraînement, l’IA cite ses sources ; dans le pire, elle les invente ! C’est sans doute sur ce point d’ailleurs que se concentrent les recherches en ce moment pour améliorer la qualité de recherche assistée par l’IA générative.

L’IA générative communique sa réponse avec une telle assurance qu’il semble presque délicat de la remettre en cause (or c’est pourtant ce qu’il faut systématiquement faire). Beaucoup réfutent le terme d’intelligence artificielle et lui préfère celui d’assistant. Un assistant au service l’humain qui utilisera son sens critique pour vérifier.

Avant que tout cela soit parfaitement au point, il est fortement conseillé d’utiliser un mix de toutes les méthodes de recherche des plus traditionnelles au plus contemporaines. Ces méthodes coexistent. Dans cet article, je ne parle que de la recherche numérique ce qui exclut d’autres modes de recherche comme la recherche papier, la recherche via un réseau…Mais là c’est une autre histoire.

Publié le 18/03/2024, modifié le 18 mars 2024