Après TurboQwant, le laboratoire d’IA Google DeepMind poursuit ses recherches d’équilibre entre efficience et performance. Avec le LLM DiffusionGemma, le laboratoire dépoussière l’attention bidirectionnelle et en fait le mécanisme clé pour générer des réponses à plus de 700 tokens à la seconde sur une station de travail.
Actualités
DiffusionGemma : Google joue pour le titre de champion de l’inférence locale