El líder de producto, Claude Code, analiza los límites de uso, la transparencia y el “arnés eficiente”

No hemos descubierto que esto proporcione ninguna mejora de rendimiento mensurable, pero hemos diseñado Claude Code para que sea lo suficientemente extensible como para que si desea un complemento que haga eso, esté disponible y pueda conectarlo. Pero descubrimos que Claude Code es bastante bueno para generar código de alta calidad sin necesidad de agregarle nada para poder navegar por el código base.

Ars: La pregunta no es sobre la calidad del código sino más bien sobre la eficiencia para lograrlo, ¿verdad? Porque, una vez más, la gente se está sintiendo muy frustrada con las restricciones de uso. A veces las personas intentan introducir algún tipo de estructura en un LLM y descubren que existen costos ocultos inesperados. ¿Es eso lo que dices que sucede con ese tipo de información semántica? ¿Tiene datos que le indiquen que este no es el camino a seguir?

Cortejar: Según la evaluación, no vimos ningún cambio mensurable. Y creo que, en general, nos inclinamos más hacia el envío de herramientas más sencillas con herramientas menos obstinadas y a permitir que los desarrolladores agreguen sus propias herramientas si así lo desean. Entonces, a menos que una herramienta realmente mejore el rendimiento o la precisión de los tokens, no los enviaremos de forma predeterminada.

Creo que la eficiencia de los tokens es siempre nuestra principal prioridad porque solo queremos brindar a las personas la máxima cantidad de inteligencia por token, por lo que experimentamos constantemente con formas de reducir eso, pero en realidad es más difícil de lo que esperaba hacerlo bien.

Para nosotros, lo más importante es mantener la inteligencia, por lo que solo enviaremos algo si sentimos que realmente hace que el modelo sea más inteligente porque esa es la estrella del norte para nosotros, no una eficiencia simbólica.

Ars: Para algunos usuarios, puede ser más fácil aceptar limitaciones en la disponibilidad de tokens si fuera más transparente. Pero al mismo tiempo, mi impresión es que tener una transparencia real sobre el uso del token “esta tarea hizo mucho porque hiciste esto, no esto” es realmente difícil de lograr.

Supongo que ha estado buscando una manera de comunicar eso a los usuarios. ¿Qué encontraste cuando intentaste hacer eso?

Cortejar: Recibimos muchas preguntas al respecto, como: “Oye, mi límite de uso se está agotando rápidamente, ¿a dónde va?”. Y creo que eso es absolutamente correcto y debemos ser transparentes al respecto. Difícil de diagnosticar.

Entonces, cuando la gente tiene estas quejas, elegimos a algunas personas, las llamamos directamente y, de hecho, simplemente depuramos en vivo porque su transcripción completa se almacena completamente localmente, por lo que en realidad ya tiene todos los datos en su computadora sobre todos los tokens que usa…

Notamos dos patrones principales. Primero, las personas tienen sesiones muy largas, se van durante dos horas, regresan y luego el caché falla, y cuando el caché falla, en realidad es mucho más costoso enviar la siguiente consulta. Entonces comenzamos a mostrar notificaciones que decían: “Oye, el caché está dañado, ejecuta/elimina si quieres iniciar una nueva sesión”. Así que esto es sólo un recordatorio de que continuar con este proceso es bastante costoso. Además, cuando ejecutes /usage, verás: “Oye, esta sesión está costando mucho porque tu caché está dañado”.



Source link