La multitude de chatbots disponibles en ligne rend parfois ardue la sélection de celui qui répondra le mieux à vos attentes. Effectuer une comparaison manuelle de deux chatbots s’avère chronophage et fastidieux.
Une alternative plus efficace et simple consiste à recourir à Chatbot Arena, une plateforme permettant d’évaluer les différents modèles de langage (LLM) qui alimentent ces outils conversationnels. Elle propose divers modes de comparaison que nous allons détailler.
Qu’est-ce que Chatbot Arena ?
Conçue par LMSYS Org, Chatbot Arena est une plateforme dédiée à la comparaison de divers LLM. Elle utilise le système de classement Elo pour hiérarchiser les différents modèles.
Chatbot Arena offre aux utilisateurs différentes approches pour comparer et évaluer les LLM. Les commentaires des utilisateurs permettent d’établir un classement public des différents modèles. Ce projet bénéficie du soutien de HuggingFace, une alternative open source à ChatGPT.
Comment comparer les LLM de manière anonyme avec Chatbot Arena
Le mode « duel » de Chatbot Arena permet de comparer les LLM en toute confidentialité. Par exemple, il est possible de comparer ChatGPT (GPT 3.5) et Claude. Dans ce cas, Chatbot Arena choisit aléatoirement deux modèles et vous permet de les évaluer sans dévoiler leurs noms au préalable.
Après avoir saisi votre première requête, Chatbot Arena génère les réponses des deux modèles, affichées côte à côte. La plateforme offre la possibilité de régénérer les réponses (pour les deux LLM) et d’effacer l’historique pour initier une nouvelle conversation. Vous pouvez ainsi poursuivre le dialogue jusqu’à identifier un modèle supérieur.
Il vous est ensuite demandé de désigner le modèle A ou B comme étant le plus performant. Après ce choix, Chatbot Arena révèle les noms des deux robots. Ce mode est particulièrement pertinent car il permet une évaluation objective, non influencée par la perception préalable ou la popularité des modèles. De plus, Chatbot Arena vous laisse ajuster certains paramètres comme la température, le Top P et le nombre maximal de jetons de sortie.
Comment comparer des LLM spécifiques avec Chatbot Arena
Si vous souhaitez comparer deux LLM précis, vous pouvez opter pour le mode « côte à côte » de Chatbot Arena. Ce mode fonctionne de manière similaire au mode duel, à la différence que vous choisissez vous-même les LLM à comparer. Vous avez la possibilité d’ajuster les paramètres, de régénérer les réponses, d’effacer l’historique et de désigner le modèle gagnant à la fin.
Cependant, le choix des LLM disponibles dans ce mode est limité. Il est possible de sélectionner différentes versions de Llama 2, Vicuna et ChatGLM. Bien que les LLM populaires tels que GPT-4, GPT-3.5, Claude 1, Claude 2 ne soient pas encore disponibles dans ce mode, Chatbot Arena prévoit de les intégrer.
Évaluez les LLM grâce à Chatbot Arena
Que vous cherchiez le chatbot idéal pour vos besoins ou que vous soyez simplement curieux de tester différents LLM, Chatbot Arena se présente comme une plateforme particulièrement intéressante.
Elle offre une méthode simple pour comparer divers modèles de langage. En outre, grâce à son système de classement basé sur les avis des utilisateurs, vous pouvez directement visualiser les performances des différents modèles sans avoir à mener vos propres tests.