Saltar a contenido

Eficiencia de tokens del LLM Wiki

Una de las razones principales para adoptar el concepts/llm-wiki-method es que reduce significativamente el consumo de tokens en queries vs dumpear el corpus crudo al contexto.

Evidencia citada

En sources/karpathy-just-10xd-everyones-claude-code se cita un usuario de X que:

  • Partió de 383 archivos dispersos + ~100 transcripciones de reuniones.
  • Los compactó en un wiki organizado.
  • Redujo ~95% el uso de tokens al hacer queries con Claude.

⚠️ Atribuido al autor del video citando un post de X, no verificado independientemente. La magnitud es plausible dada la naturaleza del método.

Por qué sucede

  1. Índice primero: el agente abre index.md (corto) antes de decidir qué leer en detalle. No carga el corpus entero.
  2. Páginas por concepto: cada página wiki cubre una cosa específica con contexto acotado, no mezcla temas.
  3. Wikilinks explícitos: el agente sigue sólo los links relevantes. Evita "ver por si acaso" contenido no relacionado.
  4. Síntesis precomputada: durante ingest el agente ya resumió y estructuró — no hay que re-sintetizar en cada Q&A.

Anécdota del mismo autor del video

Migró su "executive assistant" de context files por proyecto a apuntar a un wiki compartido (HercBrain), y reporta reducción observada de tokens en sus corridas. Sin número exacto.

Relaciones

Abierto / gaps

  • Benchmark reproducible pendiente. Sería interesante hacer un experimento: mismo corpus, misma pregunta, medir tokens (a) dumpeando raw, (b) con wiki organizado, (c) con RAG estándar.