¿Qué es LLMS.txt, y debería importarle?

Se les pide a los desarrolladores y vendedores que agregen archivos LLMS.TXT a sus sitios para “comprender” su contenido a los modelos de idiomas grandes (LLM).

Pero, ¿qué es realmente llms.txt, que lo está usando y, lo que es más importante,? ¿Te importa?

LLMS.TXT es un estándar propuesto para ayudar y explicar el contenido estructurado de los sitios web. Puede leer la propuesta completa en llmstext.org.

En resumen, es un archivo de texto que LLMS está diseñado para explicar dónde encontrar Bueno: Documentación de API, políticas de retiro, clasificación de productos y otros recursos ricos en referencia. El modelo de lenguaje de destino es eliminar la ambigüedad al dar un mapa de curado de material de alto valor, para que no necesiten adivinar lo que importa.

Una captura de pantalla del estándar propuesto en https://llmstxt.org/.

En teoría, parece una buena idea. Ya usamos archivos como robots.txt y siteMap.xml para ayudar a comprender los motores de búsqueda y ver qué hay en un sitio y dónde ver. ¿Por qué no aplicar el mismo argumento a LLM?

Pero cosa importante, No es un proveedor de LLM Major actualmente admite LLMS.txt. No abierto. No antrópico. No google.

Llms.txt es uno como dije en introducción Propuesto Estándar. También puedo proponer un estándar (por favor digamos que yo-yo-sobot-robot-uprands. Tenxt, pero hasta que los principales proveedores de LLM acepten usarlo, no tiene sentido.

Este es el lugar donde estamos con LLMS.TXT: esta es una idea especulativa en la que no hay una vuelta oficial.

No duermas en los robots

LLMS.TXT no puede afectar su visibilidad en línea, pero definitivamente hace robots.txt.

Puede usar la auditoría del sitio AHREFS para monitorear cientos de problemas de SEO técnicos generales, incluidos los problemas con su robot.

¿Cómo se ve un archivo llms.txt aquí? Esta es una captura de pantalla del archivo LLMS.txt real de Anthrope:

En su núcleo, LLMS.TXT es un documento de Markdown (un tipo de archivo de texto formateado). Utiliza el encabezado H2 para organizar un enlace a los recursos importantes. Aquí hay una estructura de muestra que puede usar:

# llms.txt
## Docs
- /api.md
A summary of API methods, authentication, rate limits, and example requests.
- /quickstart.md
A setup guide to help developers start using the platform quickly.
## Policies
- /terms.md
Legal terms outlining service usage.
- /returns.md
Information about return eligibility and processing.
## Products
- /catalog.md
A structured index of product categories, SKUs, and metadata.
- /sizing-guide.md
A reference guide for product sizing across categories.

Puede hacer su propia LLMS.txt en minutos:

  1. Comience con un archivo de Markdown original.
  2. Use H2S para recursos grupales por tipo.
  3. Enlace estructurado a materiales amigables con la marca.
  4. Manténgalo actualizado.
  5. Aloje en su dominio raíz: https://yourdomain.com/llms.txt

Puede hacerlo usted mismo o usar un Generador LLMS.TXT gratuito (por ejemplo) para hacerlo por usted.

He leído sobre algunos desarrolladores, que están utilizando archivos LLMS.TXT con metadatos específicos de LLM, como el presupuesto de tokens o el formato de archivo favorito (pero no hay evidencia de que sea honrado por el modelo CRALER o LLM).

Puede ver una lista de empresas que usan LLMS.txt.

Aquí hay algunos ejemplos:

  • Mintlify: plataforma de documentos de desarrollador.
  • TinyBird: API de datos en tiempo real.
  • CloudFlare: documentos de rendimiento y lista de seguridad.
  • Anthrope: publica un mapa de Markdown completo de sus documentos API.

¿Pero qué pasa con los grandes jugadores?

Todavía, Cualquier proveedor importante de LLM ha adoptado formalmente LLMS.txt Como parte de su protocolo Craler:

  • OpenAI (GPTBOT): Los honores no usan robots.txt sino oficialmente LLMS.txt.
  • Antrópico (nube): Publica su propia LLMS.txt, pero no afirma que su craler usa el estándar.
  • Google (Géminis/Bard): Los soportes LLMS.TXT no se mencionan, AI usa robots.txt (a través del agente de usuario: Google-Exteded) para administrar el comportamiento de rastreo.
  • Meta (lama): No hay rastreador o orientación público, y sin indicación de uso de LLMS.txt.

Destaca la luz en un punto importante: hacer un LLMS.txt no es lo mismo que aplicarla en el comportamiento de los rastreadores. En este momento, la mayoría de los proveedores de LLM consideran que LLMS.txt es una idea interesante, y no hay nada que hayan acordado priorizar y seguir.

Entonces, ¿LLMS.txt es realmente útil?

En mi opinión, no, todavía no.

No hay evidencia de que LLMS.TXT AI mejore la recuperación, aumente el tráfico o el modelo aumente la precisión. Y ningún proveedor lo ha comprometido a parshes.

Pero también es muy fácil de instalar. Si ya tiene materiales estructurados como la página del producto o las puertas del desarrollador, es trivial compilar llms.txt. Este es un archivo de Markdown, alojado en su propio sitio web. No se pueden ver beneficios, pero no hay riesgo. Si LLMS finalmente lo sigue como un estándar, puede haber algunos pequeños beneficios para ser adoptantes tempranos.

Creo que LLMS.TXT está recibiendo tracción porque todos queremos afectar la visibilidad de LLM, pero tenemos una falta de equipo para hacerlo. Entonces nos aferramos a los pensamientos sentir Como control.

Pero en mi enfoque personal, LLMS.TXT es una solución que busca un problema. Los motores de búsqueda ya entienden los rastreos y su contenido utilizando estándares existentes como robots.txt y siteMap.xml. LLMS usa mucho la misma infraestructura.

Como John Mueller de Google ha colocado recientemente en una publicación de Reddit:

Ninguno de los servicios AFAIK AI ha dicho que están utilizando LLMS.TXT (y puede decir que cuando ve el registro de su servidor, ni siquiera lo verifican). Para mí, esta palabra clave es comparable a la meta etiqueta, es la que reclama un propietario del sitio que se trata de su sitio … (¿es el sitio realmente así? Está bien, puede verlo. En ese momento, en ese momento, ¿por qué no revisar el sitio directamente?)

¿No estoy de acuerdo conmigo o viceversa quiere compartir un ejemplo? Dame un mensaje en LinkedIn o X.

Leave a Reply

Your email address will not be published. Required fields are marked *

Sharing is Caring

Facebook
Twitter
LinkedIn
WhatsApp