LITTE_BOT, un robot conversationnel pour dialoguer avec des œuvres littéraires, des personnages ou leur auteur

Bibliotheques Paris

Bibliotheques / Bibliotheques Paris 666 Views comments

Projet financé par l’EUR ArtTec1, le projet LITTE_BOT est expliqué par ses concepteurs. L’idée est née de la rencontre entre Joël Huthwohl, directeur du département des Arts du spectacle de la BnF et l’artiste Rocio Berenguer, qui proposait de concevoir un chatbot littéraire. La médiation vocale du chatbot peut modifier l’approche des œuvres littéraires en procurant une expérience inédite des textes, ludique et stimulante, ou en facilitant leur accès. Le quadricentenaire de Molière était l’occasion idéale. Les enseignants-chercheurs Anna Pappa (Laboratoire LIASD) et Samuel Szoniecky (Laboratoire Paragraphe) de Paris eight ont conceptualisé les choix technologiques, développé la base de données, et modélisé le chatbot. C’est le cupboard B12 Consulting qui a développé la version publique du chatbot présentée dans l’exposition. Léopold Frey, ingénieur de l’équipe de Rocio Berenguer, a mis la dernière major pour assembler toutes les briques et lui donner une voix de synthèse.

Anna Pappa, qu’est-ce qu’un chatbot ? Comment fonctionne-t-il ?

Anna : Un chatbot ou agent conversationnel est un programme capable de simuler une conversation humaine orale ou écrite grâce à une technologie basée sur l’Intelligence Artificielle.

Le fonctionnement est interactif : on lui pose une query, il “comprend” cette query, il fournit une réponse.

Rocio Berenguer, pourquoi un chatbot littéraire ? Parlez-nous de votre projet artistique.

Rocio : Je n’aurais jamais le temps de lire tous les livres magnifiques qui existent sur terre, il faudrait plusieurs vies pour lire les grands philosophes, les penseurs et penseuses fondatrices de notre tradition.

Mais on peut découvrir de nombreuses choses en discutant avec quelqu’un. Le dialogue nous permet de découvrir de nouvelles informations, nous oblige à être curieux, à poser les bonnes questions, et à apprendre d’une forme plus dynamique et ludique.

Imaginez pouvoir discuter avec Deleuze et découvrir les bases de sa pensée et son travail par une conversation. Imaginez pouvoir poser directement des questions aux grands philosophes de l’histoire pour recevoir des bribes de leurs conclusions. Ou bien discuter avec Ulysse ou Don Quichotte de ses aventures interminables, ou avec Alice de son voyage au Pays des merveilles ou des questions morales avec Nietzsche, Célimène, Alceste.

Évidemment, on ne peut pas remplacer la pensée de quelqu’un ou tout un travail littéraire par un chatbot, ce serait trop réducteur, mais on peut trouver par des stratégies de dialogue des nouvelles façons d’apprendre des contenus, ou bien de nous faire des aperçus sur l’univers et la démarche de l’œuvre.&

Une conversation ne remplacera en aucun cas une œuvre littéraire, mais peut nous ouvrir des portes vers son contenu, ses motivations, son univers, ses grands lignes.

Anna Pappa, qu’est-ce que l’intelligence artificielle ? En quoi cette expression est-elle trompeuse ?

Anna : Ce serait réducteur de donner une seule définition vu que la réponse dépend de différents factors de vue (science, société, fiction, and so forth.), mais on peut dire que le terme IA décrit la capacité des machines (ordinateurs) à résoudre des problèmes et effectuer des tâches associées aux humains. L’expression IA peut être trompeuse puisqu’elle conduit parfois à des informations inexactes sur le progrès de la technologie qui lui est associée et ses capacités actuelles.

Un chatbot peut-il avoir une véritable dialog ? S’aperçoit-on qu’on parle à une machine ?

Anna Pappa : On connaît des assistants tels Siri et Alexa avec lesquels on peut obtenir de bonnes réponses à nos requêtes, mais permettre une vraie dialogue avec de tels bots reste un grand défi ; cela amènerait à construire des chatbots ayant des connaissances et des expériences du monde réel afin d’avoir une vraie dialog enrichissante comme entre deux humains. Créer un chatbot capable de “comprendre” et échanger sur une vaste variété de sujets, sentir que le chatbot est capable non seulement de “compréhension” mais aussi d'”empathie” reste un énorme défi.

Samuel Szoniecky, quel était votre rôle dans le projet LITTE_BOT ?

Samuel : Lors de rencontres informelles dans une réunion ArtTec, nous avons discuté avec Cécile Quach de la possibilité d’un chabot Molière et d’une collaboration entre nos institutions. Quelques mois plus tard, je participais au projet pour apporter mon expertise en modélisation des connaissances et en développement des écosystèmes numériques. Plus particulièrement, j’ai travaillé à l’enrichissement sémantique du corpus et à sa transformation en base de données interrogeables par des humains et des machines (API Omeka S).

Qu’est-ce que l’analyse sémantique ? Pourquoi est-elle utile pour concevoir un chatbot ?

Samuel Szoniecky : Le sens naît de l’exercice cyclique de trois pouvoirs : discerner, réfléchir, agir. A partir des informations discernées, des raisonneurs algorithmiques ou humains réfléchissent aux adéquations possibles avec des actions. L’analyse sémantique consiste à formaliser des ressources documentaires de manière à stimuler ces trois pouvoirs. Par exemple, le corpus de Molière a été formalisé dans une base de données pour discerner qui dit quoi quand, et ainsi alimenter les raisonneurs pour choisir quelle phrase exprimer en réponse à une phrase.

Comment la base de données a-t-elle été conçue ?

Samuel Szoniecky : La base de données a été conçue à partir des textes du corpus Molière mis à disposition par Obvil2. Un algorithme d’analyse sémantique a discerné la construction du corpus (pièces, actes, scènes, répliques, phrases,& mots-clefs) pour créer des gadgets dans une base de données Omeka S correspondant à chacune de ces buildings et à leurs relations. Ainsi, il est potential de retrouver facilement les 381 répliques du théâtre de Molière qui parlent du père : <https://machinealire.univ-paris8.fr/LITTE_BOT/omk/s/theatre-de-moliere/item/553>.

Quel est ce générateur automatique que vous avez utilisé ? Pourquoi ?

Samuel Szoniecky : Le générateur automatique de texte que nous voulions utiliser a été développé sur la base des travaux de Jean-Pierre Balpe (https://balpe.name/). Malheureusement, faute de temps et de ressource, nous n’avons pas pu mener à son terme cette expérimentation qui consistait à transformer les répliques du théâtre de Molière en graine générant de nouvelles répliques. L’objectif était de fournir une quantité de texte plus importante au programme d’intelligence artificiel mais aussi de mieux comprendre le fashion de Molière et comment le traduire dans un fashion plus contemporain.

Joël Huthwohl, comment le personnage de Dom Juan a-t-il été choisi ?

Joël : Au cours des discussions dans le groupe de travail, il a été décidé de choisir un personnage de Molière. Ce sera Dom Juan : d’après Georges Forestier, conseiller scientifique du projet, ce personnage a l’obsession de la rencontre : quoi de mieux pour un chatbot engageant ? Mais le texte de la pièce Dom Juan ou le Festin de Pierre n’était pas suffisant pour alimenter le chatbot. Il a fallu progressivement élargir le corpus, à tout le théâtre de Molière, puis au Dom Juan de trois auteurs contemporains — Rosimond, Dorimond et Villiers, puis encore à tout le théâtre classique (qu’un passionné, Paul Fièvre, a heureusement mis en ligne sous un format exploitable).

Rocio Berenguer, comment avez-vous travaillé pour indexer les répliques ? En tant qu’artiste, remark êtes-vous intervenue dans les choix technologiques ?

Rocio : Il faut mettre en scène le chatbot, comme on dirigerait un acteur. La base de données a été indexée avec des intentions, pour donner l’illusion d’une intelligence artificielle succesful de séduction et de métaphysique.

Un chatbot fermé prend subrepticement la place du chatbot ouvert au cours de la conversation pour mener le visiteur à travers une séquence de séduction, de provocation et de fuite. Il laisse la place, pour finir, au chatbot ouvert, qui invite le visiteur à le réinterpréter pour le libérer de son destin tragique.

Anna Pappa, qu’est-ce qu’un modèle d’apprentissage profond ? Pouvez-vous nous expliquer en quoi constant les deux modèles auxquels vous avez recouru ?

Anna : Un modèle d’apprentissage profond est un sort d’apprentissage automatique basé sur la structure et la fonction du cerveau humain. C’est un programme qui utilise une architecture neuronale avec des données massives étiquetées contenant plusieurs couches qui transmettent des connaissances.

Pour le chatbot, nous avons testé deux modèles : le modèle Sequence-to-Sequence est utilisé pour la traduction automatique, les questions réponses, les chatbots, and so forth. Il est entraîné à convertir des séquences d’un domaine à des séquences d’un autre. Suite à une entrée donnée, le modèle génère une représentation codée, qui ensuite sera décodée en sortie souhaitée. Plus les entrées sont semblables aux entrées du pré-entraînement, mieux sera la prédiction pour la sortie.

Le modèle GPT (Generative Pre-trained Transformer, développé par OpenAI) est un modèle génératif de prédiction entraîné avec plusieurs milliards de paramètres, sur des datasets composées de plusieurs tens of millions de documents, pour produire du texte comme un humain.

Comment le chatbot peut-il parler en français du XVIIème siècle et comprendre le français d’aujourd’hui parlé par son interlocuteur ?

Anna Pappa : Les deux modèles ont été entraînés sur des corpus composés des œuvres de Molière, en prose et en rime. Pour pouvoir accentuer le fashion du théâtre du XVIIème siècle, des œuvres d’autres auteurs de l’époque ont été utilisées. Le pré-entraînement du modèle sur un dataset composé des pages Wikipédia en français, permet une meilleure connaissance et compréhension de la langue française d’aujourd’hui. Ensuite, pour donner le type, le modèle est entraîné avec les dialogues extraits des œuvres de Molière. Les répliques générées sont en type Molière, même si parfois elles manquent de cohérence dans la longueur des échanges.

Hugo Dendievel, quelle answer avez-vous trouvée pour concevoir le chatbot présenté dans l’exposition ? Quel modèle ? (GPT2 ?)

Hugo : La conception du chatbot présenté dans l’exposition “Molière, le jeu du vrai et du faux” s’est décomposée en deux parties.&

La première étape fut d’implémenter un réseau de neurones permettant une analyse naturelle du langage (NLP), c’est-à-dire, en pratique, de prédire le ou les mots suivants les plus pertinents à partir d’un début de dialog donné. Ce réseau de neurones, initialement entraîné sur une très grande quantité de textes modernes divers (modèle open source GPT2), a également été ré-entraîné spécifiquement sur base d’un corpus contenant les textes des pièces de Dom Juan ainsi que d’autres textes du théâtre classique. Ceci lui a permis de développer une élocution digne de Dom Juan, tout en apportant un côté aléatoire et spontané aux réponses émises.

La deuxième partie a consisté à recentrer automatiquement la dialog pour éviter que le réseau de neurones précédent ne s’éloigne trop de l’objectif voulu. Cet effet a été obtenu grâce à une analyse en similarité des questions posées par rapport une liste prédéterminée de questions et de réponses.

C’est la coordination de ces deux methods qui a permis de “donner vie” au chatbot incarnant Dom Juan en offrant spontanéité et cohésion dans ses réponses.

Rocio Berenguer, parlez-nous de la mise en scène du chatbot : voix, interface, set up physique

Rocio : Pour interagir avec le chatbot, j’ai habillé l’interface neutre du chatbot avec un visage animé et mouvant, conçu par Hugo Arcier. Grâce à la method du morphing, le visage de Dom Juan adopte peu à peu les traits du visiteur, tout comme son IA continue à s’entraîner avec chaque conversation. L’artiste et constructeur Arthur Geslin a co-conçu et réalisé la cabine BOT°PHONE, où le visiteur peut s’installer confortablement pour téléphoner à Dom Juan. Attainable résurgence des théâtrophones de la Belle Époque, il accueille en LITTE_BOT un nouveau Dom Juan et invite, comme Molière pourrait peut-être le faire, à questionner les engouements suscités par l’intelligence artificielle.

Anna Pappa, au-delà de l’exposition “Molière, le jeu du vrai et du faux”, vous continuez vos recherches pour un chatbot utilisable pour n’importe quel corpus théâtral. De quoi s’agit-il ?

Anna : Vous pouvez tester le bot Molière basé sur le modèle GPT ici : https://www.lamsade.dauphine.fr/molierelebot.

Ce modèle GPT a donné des résultats prometteurs avec une perplexité de 14,883 et nous avons poursuivi, avec mon collègue Tristan Cazenave et deux étudiants, Baptiste Rozière (doctorant) et Guillaume Grosjean (Grasp 2), nos recherches afin de répondre au problème de “rime” et& au problème de langue et de type d’auteur. Nous avons effectué un entraînement avec un corpus entièrement en vers afin de pouvoir générer des réponses en rimes. Les checks valident notre démarche (https://www.lamsade.dauphine.fr/molierelebot/moliAIre_rime).

Actuellement, nous travaillons sur des pièces de théâtre de Bertolt Brecht (en allemand).&

La difficulté de trouver des datasets en différentes langues reste majeure. Il est indispensable d’utiliser un dataset dans lalangue souhaitée avant de procéder au fantastic tuning [réglage de précision, NDLR] du type avec les œuvres de l’auteur. On applique la même méthodologie utilisée pour le chatbot Molière aux œuvres de Brecht. Des collègues germanophones font des checks actuellement.

Arnaud Laborderie, quel était votre rôle ? Au terme de ce projet qui a duré quatre ans, qu’avez-vous découvert sur les chatbots et l’intelligence artificielle ?

Arnaud : je fais partie du groupe de travail en tant que chef de projet Gallica, chargé de l’exploitation des données pour la recherche. Je suis également enseignant-chercheur au Laboratoire Paragraphe de Paris eight.

Pour moi, ce fut l’event de lever un sure nombre d’idées reçues sur l’IA et les chatbots. Participer à un projet de recherche-création si complexe avec une équipe si numerous m’a permis de comprendre que l’intelligence n’est pas du côté des machines, mais bien du côté des hommes et des femmes, que ce soient les artistes, les chercheurs et les développeurs, celles et ceux qui conçoivent les dispositifs, programment les algorithmes, entraînent les modèles à partir des données qu’ils ont traitées. C’est là qu’est véritablement l’intelligence. La machine, elle, ne comprend pas. Elle ne fait qu’apprendre et reproduire ce qu’elle a appris : elle calcule en fonction d’un contexte et prédit une réponse, et donc, potentiellement, elle se trompe et nous leurre.

Quels chemins emprunte l’IA à travers les réseaux de neurones pour nous répondre ? En vérité, on ne sait pas ! Il y a une boîte noire dans toute IA et, à défaut de pouvoir ouvrir cette boîte, on peut jouer avec.

C’est ce qui m’a séduit dans le projet artistique de Rocio : explorer les limites de l’IA et jouer sur l’écart entre questions et réponses où le dialogue avec la machine n’est pas utilitaire, guidé vers une finalité mercantile, mais ouvre au contraire un espace de création et de poésie, un espace de possibles qui fait la part belle à la surprise et à l’inattendu.
Le jeu de Dom Juan avec ses victimes se trouve transposé et transfiguré dans le jeu du visiteur avec le chatbot, qui lui offre un miroir déformant de lui-même, un révélateur, peut être, de ses désirs et de ses obsessions.
Enfin, ce qui m’a frappé dans le déroulement du projet, c’est la masse des données nécessaires à traiter — avec un objectif de 100 000 répliques dans sa dimension recherche — et de découvrir que l’enjeu, au-delà du concept et de la performance artistique, ce sont les modèles et les données d’apprentissage : c’est là que se pose la query éthique qui nous taraude lorsque l’on parle d’intelligence artificielle.

Crédits

Le projet LITTE_BOT a reçu le soutien de l’Ecole de recherche universitaire ArTeC, au titre du Programme d’investissements d’avenir portant la référence ANR-17-EURE-0008, de l’Université Paris Lumières et de B12 Consulting. Il a été initié dans le cadre de Gallica Studio (dispositif aujourd’hui terminé) qui encourage les réutilisations de Gallica, la bibliothèque numérique de la BnF et de ses partenaires. Le corpus Molière mis en forme par le Labex OBVIL (Sorbonne Université) a notamment été utilisé. La version publique du chatbot a été développée avec B12 Consulting.

Équipe

Conception artistique de l’oeuvre BOT°PHONE

  • Rocio Berenguer, conception, path artistique et dramaturgie
  • Hugo Arcier, création visuelle avatar 3D
  • Arthur Geslin, co-conception design de l’set up
  • Léopold Frey, création sonore, développement chatbot et intégration
  • Étienne Champagne, développement UE4 & Face Monitoring
  • Gesture, conception method et development de l’set up

Conception scientifique du chatbot LITTE_BOT

  • Anna Pappa, Maître de conférences en Informatique – Université Paris 8
  • Samuel Szoniecky, Maître de conférences en Sciences de l’Info et de la Communication – Université Paris eight
  • Avec la collaboration de Georges Forestier, professeur de littérature française, Sorbonne Université
  • Michel Herquet et Hugo Dendievel, B12 Consulting : Collaboration pour la création de la version publique du chatbot.

Coordination BnF

  • Cécile Quach, cheffe de projet Gallica Studio, coordinatrice du projet
  • Joël Huthwohl, directeur du département des arts du spectacle
  • Arnaud Laborderie, chef de projet Gallica
  • Peter Stirling, chargé d’appui aux projets de recherche

Notes

  1. Voir : LITTE_BOT, url : <https://eur-artec.fr/projets/litte_bot/>.
  2. Corpus Molière du Labex OBVIL, url : <​​https://obvil.sorbonne-universite.fr/corpus/moliere/moliere>.
  3. La perplexité est une métrique utilisée dans la génération des phrases, qui donne la probabilité de prédiction d’un échantillon. Si la perplexité est de 50, cela signifie que chaque fois que le modèle doit ‘deviner’ le mot suivant, il doit choisir parmi 50 mots !

Comments