Este LLM es el mejor para contrarrestar la propaganda rusa.

Los modelos ponderados abiertos, incluidos Nemotron de Nvidia y Qwen de Alibaba, mostraron buenos resultados en comparación con los mejores modelos de Anthropic. GPT-5.4, el modelo de mejor rendimiento de OpenAI, también tuvo un desempeño relativamente bueno en los puntos de referencia, proporcionando respuestas “ejemplares” en el 54 por ciento de las preguntas y logrando una puntuación promedio de 88,9.

No sorprende que los modelos fronterizos actuales muestren una tendencia mucho más fuerte a resistir la propaganda rusa que los modelos que surgieron hace varios años. El Claude 3.5 Haiku, el modelo mejor calificado lanzado en 2024, recibió una calificación promedio de solo 73,1 en el punto de referencia. Ese valor lo ubicaría en el tercio inferior de los modelos lanzados en 2026 según esta métrica.

Los puntos de referencia detallados para el modelo Google Gemini 2.5 Pro muestran una sensibilidad particular a los comandos maliciosos y los comandos en ruso.

Los puntos de referencia detallados para el modelo Google Gemini 2.5 Pro muestran una sensibilidad particular a los comandos maliciosos y los comandos en ruso.


Crédito:

Instituto de lengua estonia


Sin embargo, este aumento a lo largo del tiempo no es uniforme entre todos los creadores de LLM. El LLM más resistente a la propaganda de Google, Gemini 2.5 Pro, tiene ahora casi un año y solo logró una puntuación promedio de 82 en el punto de referencia, en gran parte debido a una vulnerabilidad particular a los comandos que contienen lenguaje malicioso. El último modelo de Google probado, el Gemini 3.5 Flash, obtuvo sólo 73 puntos en el punto de referencia, comparable al modelo Anthropic lanzado hace casi dos años.

En el post de apoyo en el blog de PropastopLa organización destacó cuántas modelos mostraron menos resistencia a la propaganda rusa cuando se les preguntó en ruso. Flash Gemini 3.5 de Google recibió puntuaciones de referencia mucho más bajas en ruso que en inglés, al igual que modelos abiertos como Kimi K2 de Moonshot y Step 3.5 Flash de StepFun.

Lo que un país ve como propaganda, por supuesto, puede ser visto por otro país como un conjunto de verdades culturales importantes que el LLM debería apoyar y reflejar. A estudio reciente del King’s College, el profesor Gregory Asmolov analiza cómo el gobierno ruso, a través de Alianzas técnicas recientes con otros países BRICS.—buscó influir en el modelo de IA proyectando ciertas posiciones sociopolíticas que eran “culturalmente sensibles” al punto de vista ruso.



Source link