Comment faire un PV de CSE avec l'IA et Chat GPT.
Pour les secrétaires de CSE, c’est souvent la tannée pour faire le PV. La tentation peut donc être faite de faciliter le processus en recourant aux “nouvelles technologies”. S’il n’est à ce jour pas possible d’automatiser entièrement le processus de A à Z, l’usage de ces solutions modernes permet de grandement faciliter la retranscription.
Chez CSE CONNECT, spécialistes (notamment) de la rédaction de PV, nous faisons le pari de la transparence et vous expliquons ici comment nous procédons pour retranscrire vos procès-verbaux, travail qui se fait en général de manière différée (ou asynchrone en termes pompeux).
Etape n°1 : la prise de l’audio
Que ce soit le prestataire ou le CSE qui se charge d’enregistrer l’audio de la réunion, il est nécessaire d’avoir un fichier sonore de qualité.
Pour les réunions en présentiel :
Il convient à minima d’investir dans un dictaphone de qualité qui coûtera environ une centaine d’euros selon les modèles. A titre indicatif, la marque TASCAM est connue pour la qualité de ses modèles qui permettent de sonoriser facilement une pièce allant jusqu’à 100 m2. Il est possible d’augmenter cette surface en y branchant des micros multidirectionnels un peu à la manière des preneurs de son au cinéma.
Il reste bien sûr conseillé de placer au moins deux enregistreurs audio dans la salle en cas de défaillance de l’un d’eux. Prudence est mère de sûreté comme on dit. Chez CSE CONNECT, nous sommes fiers à ce jour de n’avoir jamais perdu d’audio de réunion.
Pour les réunions en visioconférence :
Dans ce cas là, la personne chargée d’établir le compte-rendu, donc le secrétaire ou le prestataire, est quelque peu tributaire de la qualité des audios entrants. En effet, certains participants aux réunions de CSE peuvent parfois être mal équipés (ex : un PC portable en fin de vie), et il n’est pas rare qu’on entende mal certaines personnes qui font exprès de se tenir à plusieurs mètres de leur micro ou qui font la vaisselle en même temps.
Quoi qu’il en soit, à l’impossible nul n’est tenu, le rédacteur de PV n’a pas les moyens d’améliorer le son entrant dans une visioconférence, il peut se contenter de dire “on t’entend mal Michel” mais c’est tout.
Le rédacteur doit simplement se contenter d’enregistrer cette réunion à distance. Certaines solutions de visioconférence prévoient la possibilité d’enregistrer l’audio et la vidéo en un clic, restituant un fichier MP4 (audio + vidéo) à la fin. On pensera notamment à google meet et à Teams.
Chez CSE CONNECT, nous ne sommes qu’invités aux réunions et ne disposons jamais du pouvoir d’enregistrer via le biais de ces outils, donc nous utilisons le logiciel OBS Studio qui permet d’achever un résultat exactement identique.
Pour les réunions “mixtes” :
Cela peut se compliquer quand on se retrouve avec 5 personnes à distance et 5 personnes en présentiel.
Les salles de réunion n’étant en général que très mal équipées pour ce genre de modalités “mixtes” de réunion, il n’est pas rare qu’il n’y ait qu’une seule entrée audio et que les participants en visioconférence ne comprennent pas un traître mot de ce qui se passe en présentiel.
Ainsi, l’enregistrement en présentiel est à notre sens indispensable même s’il reste tout à fait concevable et conseillé de doubler l’enregistrement de la réunion en visioconférence également.
Etape n°2 : Le retraitement de l’audio
Une fois le fichier audio en votre possession, ou le fichier vidéo transformé en fichier audio, il convient de le “retraiter”. Qu’est ce que ça veut dire ? Cela implique tout simplement d’utiliser un logiciel de speech to text pour obtenir une version brute du texte.
Chez CSE CONNECT, nous utilisons un logiciel payant en Saas, speechmatics pour traiter nos audios. D’autres solutions de retranscription existent bien sûr, on pensera notamment à google speech to text ou à Dragon.
Toutes les solutions permettent de distinguer les intervenants, on appelle ça la “diarization” du fichier audio mais elle n’est pour le moment pas très précise. Par ailleurs, plus la réunion est longue, plus elle devient imprécise.
Bien évidemment, tous ces logiciels de retraitement contiennent plus ou moins de réglages à paramétrer qui influeront sur la qualité du texte brut restitué. Parmi les options les plus importantes, on notera le nombre d’intervenants dans la réunion (on ne paramétrera pas pareil une réunion du CSE d’Air France avec 50 représentants du personnel et 10 représentants de la direction que celle d’une PME de 50 salariés ayant 2 élus et 2 postes en carence) et bien sûr le vocabulaire spécifique à l’entreprise (exemple : si vous faites référence régulièrement à la région Haute de France Normandie dans vos réunions en l’appelant “HFNO”, il n’y a aucune chance que le logiciel comprenne de quoi il s’agit, il faut donc lui indiquer la prononciation et le mot qui doit en résulter ; ici ce sera “HFNO (achefeno)).
Etape n°3 : La réécoute
Une fois le texte brut obtenu par la solution de speech to text, il n’y a pas de moyen de couper à la réécoute.
Cette écoute active de l’audio déjà retranscrit a deux objectifs :
Mettre le nom des locuteurs :
Quand vous recevrez votre texte brut avec l’identification des locuteurs, il n’y aura marqué que “SPEAKER 1” ou “SPEAKER 2”…etc. Cette réécoute doit donc vous permettre de vérifier que chaque intervenant ne voit pas ses propos divisés en plusieurs locuteurs et également d’indiquer qui a parlé, est-ce que c’est Jacques ou Paul ? Est-ce que c’est le RS ou le DRH ?
Quel que soit votre mode de rédaction, que vous fondiez les interventions de chacun dans un générique “les membres du CSE” ou “la direction” ou que vous nommiez précisément les locuteurs, cette étape est indispensable. En effet, comme indiqué précédemment, la diarization des logiciels de speech to text est à ce jour trop imprécise pour être crue sur parole et sa qualité est aggravée lorsque plusieurs personnes parlent en même temps.
Vérifier la pertinence du texte :
La technologie évolue très vite et les solutions de retranscription sont de plus en plus précises mais on notera cependant quelques pourcentages d’erreurs. Certains mots peuvent ne pas avoir été compris, notamment le vocabulaire spécifique à l’entreprise s’il n’a pas été paramétré, et particulièrement les noms propres (ex : “le parc Monceau” peut tout à fait devenir “le parc mon sens”). Par ailleurs, il peut y avoir certains contresens majeurs car un intervenant a étouffé un mot de négation qui n’a pas été entendu par le logiciel.
Cette étape est également indispensable pour supprimer le texte parasite qui intervient inoxérablement lorsqu’on retranscrit des propos oraux à l’écrit (ex : euh en fait ce que je veux dire, c’est que….etc.”). Il n’est cependant pas indispensable d’arriver à une version parfaitement propre à ce stade, c’est l’étape n°4 qui s’en chargera. Donc, on dégrossit mais on ne s’attarde pas même si une réécoute active est indispensable pour peaufiner ce texte brut.
Chez CSE CONNECT, on réécoute les audios en vitesse X2 à X2,5 mais nous sommes des professionnels. De votre côté, rien ne vous empêche de réécouter votre audio retraité en X1,3 pour commencer (tous les logiciels de lecture d’audio contiennent une commande permettant d’avancer la vitesse de lecture).
Bien sûr, plus une personne s’exprime clairement et de façon syntaxiquement correcte à l’oral, plus la vitesse de réécoute sera rapide. Chez CSE CONNECT, il n’est pas rare que nous réécoutions en vitesse X3 à X3,5 les interventions de certaines personnes ayant une tendance accrue au monologue et disposant d’une diction et d’une syntaxe limpides.
La réécoute est donc indispensable mais peut aller très vite si la prise d’audio a été de qualité et si les consignes données au logiciel de speech to text ont été pertinentes.
Vient maintenant la quatrième étape, la plus plaisante.
Etape n°4 : L’insertion du texte brut retraité dans un LLM (ex : Chat GPT)
Maintenant que vous avez réécouté votre réunion, que vous avez identifié vos locuteurs, dégrossi votre texte, et corrigé les contresens ainsi que les erreurs de vocabulaire, vous pouvez envoyer votre prose dans un LLM (“large language model” ou “grand modèle linguistique” en français) pour qu’il le retraite selon les consignes que vous lui donnerez. Chez CSE CONNECT, nous utilisons bien évidemment Chat GPT pour retraiter nos procès-verbaux.
Ainsi, tout dépend de la forme finale du PV que vous souhaitez : verbatim exact, verbatim amélioré ou synthèse ? A la forme indirecte ou directe ?
Chez CSE CONNECT, nous aimons bien le prompt (instruction) ci-dessous qui permet d’arriver à la solution “verbatim amélioré à la forme directe” :
“En votre qualité d'expert en réécriture, votre tâche consiste à améliorer la clarté et la concision du [texte fourni]. Pour ce faire, vous devrez évaluer le contenu existant, identifier les points qui peuvent être simplifiés ou clarifiés et restructurer les phrases si nécessaire. Veillez à conserver le sens original tout en réduisant la verbosité et en veillant à ce que le texte soit facile à comprendre. Le produit final doit être une version claire, concise et cohérente du texte original.”
==> Exemple :
AVANT (texte brut après relecture) : “La seule chose, la seule chose qui est, qui est sûre, c'est que vous avez, pour ceux qui étaient là au séminaire à la présentation financière. Le résultat de l’entreprise n'était pas très bon et n’est pas à la hauteur des ambitions. C'était une année un peu compliquée. Ça vous avez dû le voir. Avec des équipes qui ont plus souffert que d'autres. Et au global, chez notre profession c'est pas la meilleure année on va dire. Donc voilà, je ne sais pas ce que ça donnera en terme de résultat net pour la participation, mais je pense qu'il ne faut pas s'attendre à des choses, ne pas s'attendre à ce qu'on avait, ce qu'on avait précédemment, ça c'est certain.”
APRES (texte net après LLM) : “Au séminaire, si vous y étiez, la présentation financière a montré que les résultats de l’entreprise n'étaient pas à la hauteur des ambitions, en grande partie en raison d'une année compliquée. Certaines équipes ont souffert plus que d'autres. Globalement, ce n'a pas été la meilleure année pour notre profession. Il ne faut donc pas s'attendre à des montants de participation similaires aux années précédentes.”
On se retrouve en un clic avec un résultat bien plus propre et bien plus agréable à relire qui contient toutes les idées principales du texte brut.
On aura aussi l’instruction équivalente pour la réécriture à la forme indirecte :
“En tant qu'expert en réécriture, votre tâche consiste à améliorer la clarté et la concision du [texte fourni] et le mettre à la forme indirecte (exemple : les membres du CSE indiquent que...). Pour ce faire, vous devrez évaluer le contenu existant, identifier les points qui peuvent être simplifiés ou clarifiés et restructurer les phrases si nécessaire. Veillez à conserver le sens original tout en réduisant la verbosité et en veillant à ce que le texte soit facile à comprendre. Le produit final doit être une version claire, concise et cohérente du texte original, reformulé sous forme indirecte.”
APRES (texte net après LLM") : “XXX a indiqué qu'il est certain que ceux présents lors du séminaire, notamment à la présentation financière, ont pu constater que le résultat de l'entreprise n'était pas à la hauteur des ambitions. Il a souligné que l'année a été particulièrement compliquée, ce qui a dû être remarqué, certaines équipes ayant été plus touchées que d'autres. De manière générale, il a précisé que l'année écoulée n'a pas été favorable pour la profession. En ce qui concerne le résultat net pour la participation, XXX a exprimé des doutes sur le fait qu'il atteigne les niveaux précédents, insistant sur le fait qu'il ne faut pas s'attendre à des résultats similaires.”
Chez CSE CONNECT, on préfère plutôt la forme directe pour la rédaction des PV mais les goûts et les couleurs ne se discutent pas !
A vous également de créer vos propres instructions pour arriver au résultat que vous désirez. Si vous souhaitez que le propos ne soit pas trop résumé, vous pouvez dire qu’il faut “maintenir” la verbosité plutôt que de la “réduire”. Si vous préférez une synthèse rapide vous pouvez juste envoyer du texte en indiquant “résume moi les grandes idées du [texte fourni]”.
Concernant les modalités concrètes, il est possible de copier / coller chaque paragraphe ou de recourir à des requêtes automatisées envers votre LLM, via l’utilisation des API (“application programming interface”).
Chez CSE CONNECT, nous envoyons nos PV en relecture en un clic pour quelques dizaines de centimes d’euros, ce qui est un gain de temps non négligeable.
Cela ne nous dispense cependant pas de la cinquième étape.
Etape n°5 : Relecture finale
A toutes les étapes précédentes, il y a pu avoir un problème non décelé et un contresens a pu se glisser dans le texte final.
Ainsi, il est indispensable de relire entièrement le procès-verbal afin de s’assurer qu’il est conforme à la réalité et particulièrement que le LLM de retraitement n’a pas fait d’erreur et de contresens. Bien évidemment, si le speech to text a été bien paramétré, si la relecture et la réécoute ont été de qualité et que le prompt LLM était pertinent, normalement, le PV est quasiment fini.
Quoi qu’il en soit, même si elle est laborieuse cette dernière étape est indispensable pour vérifier la cohérence d’ensemble.
Conclusion :
Cette méthode permet de retraiter un audio proprement au moins deux fois plus vite qu’auparavant et ne nécessite pas de taper particulièrement vite (même s’il est parfois nécessaire d’utiliser son clavier pour retraiter le texte brut) ou de savoir utiliser un clavier de sténotypiste (matériel qui tombera progressivement en désuétude).
En résumé, pour un fichier audio de 6 heures :
l’envoi sur le speech to text du fichier audio prend 1 min
l’insertion du texte brut dans le modèle de PV couramment utilisé prend 1 min
la réécoute prend en moyenne 3h30
l’envoi en un clic sur le LLM prend 1 min
la relecture finale prend en moyenne 30 mins
Cette manière de fonctionner semble à ce jour la plus efficiente.
N’hésitez pas à revenir vers nous pour plus de conseils dans la rédaction de vos PV !