Eficiencia de tokens del LLM Wiki¶

Una de las razones principales para adoptar el llm wiki method es que reduce significativamente el consumo de tokens en queries vs dumpear el corpus crudo al contexto.

Evidencia citada¶

En karpathy just 10xd everyones claude code se cita un usuario de X que:

Partió de 383 archivos dispersos + ~100 transcripciones de reuniones.
Los compactó en un wiki organizado.
Redujo ~95% el uso de tokens al hacer queries con Claude.

⚠️ Atribuido al autor del video citando un post de X, no verificado independientemente. La magnitud es plausible dada la naturaleza del método.

Por qué sucede¶

Índice primero: el agente abre index.md (corto) antes de decidir qué leer en detalle. No carga el corpus entero.
Páginas por concepto: cada página wiki cubre una cosa específica con contexto acotado, no mezcla temas.
Wikilinks explícitos: el agente sigue sólo los links relevantes. Evita "ver por si acaso" contenido no relacionado.
Síntesis precomputada: durante ingest el agente ya resumió y estructuró — no hay que re-sintetizar en cada Q&A.

Anécdota del mismo autor del video¶

Migró su "executive assistant" de context files por proyecto a apuntar a un wiki compartido (HercBrain), y reporta reducción observada de tokens en sus corridas. Sin número exacto.

Relaciones¶

Consecuencia del llm wiki method correctamente aplicado.
Contrasta con llm wiki vs semantic rag donde también se discute costo.
Relacionado con scaling limits — eficiencia cae cuando el wiki crece mucho.

Abierto / gaps¶

Benchmark reproducible pendiente. Sería interesante hacer un experimento: mismo corpus, misma pregunta, medir tokens (a) dumpeando raw, (b) con wiki organizado, (c) con RAG estándar.