Pourquoi le contexte d'un million de jetons de Gemini 1.5 change la donne

Points Clés à Retenir

Google Gemini 1.5 innove avec une fenêtre contextuelle d'un million de jetons, dominant ses concurrents comme Claude et ChatGPT.
Une fenêtre contextuelle plus étendue optimise le fonctionnement d'un modèle d'IA et réduit les erreurs, sans assurer une réussite globale.
La vaste fenêtre contextuelle de Gemini 1.5 est susceptible d'accroître la précision, de limiter les erreurs et d'améliorer la compréhension.

Google Gemini 1.5 se distingue par une fenêtre contextuelle massive d'un million de jetons, surpassant ses concurrents directs tels que ChatGPT, Claude et d'autres agents conversationnels basés sur l'IA.

Cette avancée majeure pourrait propulser Gemini à l'avant-garde. Bien qu'il soit difficile d'en mesurer pleinement l'impact, cette fenêtre contextuelle étendue pourrait bien changer la donne.

Qu'est-ce qu'une fenêtre contextuelle ?

Lorsqu'ils traitent vos requêtes, comme expliciter un concept ou résumer un texte, les modèles d'IA ont une limite quant à la quantité d'informations qu'ils peuvent prendre en compte pour formuler une réponse. Cette limite, désignant la quantité de texte qu'ils peuvent analyser, est appelée fenêtre contextuelle.

Voici une analogie : imaginez-vous faire vos courses sans liste. La limite du nombre d'articles que vous pouvez mémoriser est comparable à votre fenêtre contextuelle. Plus vous vous souvenez d'articles, moins vous risquez d'oublier quelque chose. De même, plus la fenêtre contextuelle d'un modèle d'IA est vaste, plus il est probable que le modèle se souvienne de tout ce qui est nécessaire pour fournir les meilleures réponses.

Actuellement, la fenêtre contextuelle de 200 000 jetons d'Anthropic Claude 2.1 est la plus grande parmi les modèles d'IA généralement accessibles. GPT-4 Turbo suit avec une fenêtre de 128 000 jetons. Google Gemini 1.5 introduit une fenêtre d'un million de jetons, soit quatre fois plus grande que celle de ses concurrents. D'où la question cruciale : quel est l'avantage d'une fenêtre contextuelle d'un million de jetons ?

Pourquoi la fenêtre contextuelle de Gemini 1.5 est-elle si importante ?

Maquettes Intelligentes

Pour mieux comprendre, la fenêtre contextuelle de 200 000 mots de Claude AI lui permet d'analyser un livre d'environ 150 000 mots et de répondre aux questions y afférentes. C'est une capacité impressionnante. Cependant, Gemini 1.5 de Google pourrait traiter jusqu'à 700 000 mots simultanément !

Quand vous soumettez un grand volume de texte à des chatbots IA tels que ChatGPT ou Gemini, ils s'efforcent d'analyser le maximum de texte possible, mais la quantité qu'ils peuvent traiter est limitée par leur fenêtre contextuelle. Ainsi, si vous engagez une conversation de 100 000 mots avec un modèle dont la capacité est de 28 000, et que vous posez ensuite des questions nécessitant la compréhension de l'ensemble de la conversation, vous le mettez en difficulté.

Imaginez que vous ne visionnez que 20 minutes d'un film d'une heure et que l'on vous demande ensuite de résumer l'ensemble du film. Quels seraient vos résultats ? Soit vous refuseriez de répondre, soit vous inventeriez des informations, ce que ferait un chatbot IA, engendrant des hallucinations.

Même si vous pensez ne jamais avoir à soumettre 100 000 mots à un chatbot, il ne faut pas oublier que la fenêtre contextuelle ne se limite pas au texte que vous fournissez directement. Les modèles d'IA tiennent compte de l'intégralité de la conversation pour garantir la pertinence de leurs réponses.

Ainsi, même si vous ne soumettez pas directement un livre de 100 000 mots, vos échanges et les réponses du modèle s'ajoutent au calcul de la fenêtre contextuelle. Vous vous demandez pourquoi ChatGPT ou Gemini oublient parfois les informations que vous avez mentionnées au début de la conversation ? C'est probablement dû à un manque d'espace dans la fenêtre contextuelle.

Une fenêtre contextuelle plus grande est particulièrement utile pour des tâches nécessitant une compréhension approfondie du contexte, comme résumer des articles longs, répondre à des questions complexes ou maintenir une narration cohérente dans un texte. Vous souhaitez écrire un roman de 50 000 mots avec une narration cohérente ? Vous voulez un modèle capable de "visualiser" une vidéo d'une heure et de répondre à des questions ? Il vous faut alors une fenêtre contextuelle plus étendue !

En bref, la fenêtre contextuelle étendue de Gemini 1.5 pourrait optimiser le fonctionnement de son modèle d'IA, en diminuant les hallucinations et en améliorant significativement la précision et la capacité à suivre les instructions.

Gemini 1.5 sera-t-il à la hauteur des attentes ?

Si tout se déroule comme prévu, Gemini 1.5 pourrait surpasser les meilleurs modèles d'IA actuels. Cependant, en raison des nombreux revers de Google dans la création d'un modèle d'IA stable, il est essentiel de faire preuve de prudence. Accroître la fenêtre contextuelle d'un modèle n'améliore pas automatiquement ses performances.

J'ai utilisé la fenêtre contextuelle de 200 000 de Claude 2.1 pendant des mois depuis sa sortie, et une chose est claire : une fenêtre contextuelle plus large peut améliorer la sensibilité au contexte, mais les problèmes liés aux performances de base du modèle peuvent transformer un contexte plus large en un problème.

Google Gemini 1.5 va-t-il changer la donne ? Les réseaux sociaux sont actuellement inondés d'éloges concernant Gemini 1.5 de la part d'utilisateurs ayant bénéficié d'un accès anticipé. Cependant, la plupart des avis 5 étoiles proviennent de cas d'utilisation simplifiés ou hâtifs. Le rapport technique Gemini 1.5 [PDF] de Google constitue une ressource fiable pour évaluer les performances de Gemini 1.5 en conditions réelles. Rapport technique Gemini 1.5 Il montre que même lors de tests contrôlés, le modèle n'a pas réussi à extraire tous les détails des documents, malgré la taille de sa fenêtre contextuelle.

Une fenêtre contextuelle d'un million de jetons est indéniablement un exploit technique impressionnant. Néanmoins, si la capacité à récupérer les informations de manière fiable est limitée, une fenêtre contextuelle plus étendue n'aura qu'une faible valeur pratique et pourrait même nuire à la précision et augmenter les hallucinations.