2026 站长实战：用 llms.txt + Python 自动同步 AI 搜索入口

最近明显感觉到一个变化：很多流量不再只来自传统搜索，而是来自 AI 搜索、AI 问答和各类带总结能力的工具。

问题是，很多站点即使内容不错，也经常遇到这三个现实情况：

AI 系统发现页面慢
抓到页面但抓不到重点
新文章上线后，入口文件没有及时更新

如果你正在维护内容站，llms.txt 值得尽快补上。本文给你一套可以直接落地的流程：

先手写一个可用版 llms.txt
再用 Python 自动生成，避免后期维护成本
发布后做快速验证，确保真实可抓

什么站点应该优先做 llms.txt

如果你有下面几种情况，llms.txt 的投入产出比通常比较高：

站内内容已经有一定规模，但 AI 搜索带来的引用还不稳定
你有中英文双语内容，希望把重点入口集中给出来
文章更新频率高，不想每次都手工维护导航文件

如果你的网站页面很少，或者内容还没有形成清晰栏目，也不用把它当成“万能协议”。更合理的顺序是先把文章质量、sitemap.xml 和基础可访问性做好，再补 llms.txt。

什么是 llms.txt

可以把 llms.txt 理解为“给 AI 读取器看的站点导航页”。

它通常放在网站根目录，例如：

https://www.bobobk.com/llms.txt

它不是标准 SEO 协议的替代品，也不会替代 sitemap.xml 或 robots.txt。更实用的定位是：

把你希望 AI 优先理解的内容入口集中写清楚
给出主题、分类和高价值链接
降低 AI 系统抓取时的路径成本

方法 1：先手写一个最小可用版本

先不要追求复杂，先让它可用。

新建 static/llms.txt，内容示例：

# Bobobk

> Practical tutorials on Python, Linux, SEO automation, and data tools.

## Core Sections
- Blog (CN): https://www.bobobk.com/
- Blog (EN): https://www.bobobk.com/en/
- Latest posts: https://www.bobobk.com/index.xml

## High-value guides
- https://www.bobobk.com/how-to-improve-index-speed-by-indexnow.html
- https://www.bobobk.com/python-wordpress-workflow.html
- https://www.bobobk.com/build_own_tron_wallet.html
- https://www.bobobk.com/build_own_solana_wallet.html

这样 Hugo 构建后会自动发布到根目录。

上线最小版本前，建议先检查这 3 件事：

文件路径是否固定为 static/llms.txt
文件里的链接是否都能直接访问，不经过多次跳转
是否优先放栏目页、首页和高价值文章，而不是把所有文章都堆进去

方法 2：用 Python 自动生成 llms.txt

手写最大的问题是：文章一多就会漏更新。

下面这个脚本做三件事：

读取 public/index.xml
按最近更新时间筛选最新文章
自动输出 static/llms.txt

1. 准备环境

这个版本使用 Python 标准库解析 RSS，无需额外安装依赖。

2. 脚本代码

#!/usr/bin/env python3
from __future__ import annotations

from datetime import datetime
from email.utils import parsedate_to_datetime
from pathlib import Path
import xml.etree.ElementTree as ET

SITE_NAME = "Bobobk"
SITE_DESC = "Practical tutorials on Python, Linux, SEO automation, and data tools."
SITE_CN = "https://www.bobobk.com/"
SITE_EN = "https://www.bobobk.com/en/"
RSS_PATH = Path("public/index.xml")
RSS_URL = "https://www.bobobk.com/index.xml"
OUTPUT = Path("static/llms.txt")
TOP_N = 20


def parse_pub_date(value: str | None) -> datetime:
    if not value:
        return datetime.min
    try:
        return parsedate_to_datetime(value)
    except Exception:
        return datetime.min


def text_of(parent: ET.Element, tag: str, default: str = "") -> str:
    node = parent.find(tag)
    if node is None or node.text is None:
        return default
    return node.text.strip()


def read_items_from_rss(path: Path) -> list[dict[str, str | datetime]]:
    if not path.exists():
        return []

    root = ET.parse(path).getroot()
    channel = root.find("channel")
    if channel is None:
        return []

    items: list[dict[str, str | datetime]] = []
    for item in channel.findall("item"):
        title = text_of(item, "title", "Untitled")
        link = text_of(item, "link", "")
        pub_date = parse_pub_date(text_of(item, "pubDate", ""))
        if link:
            items.append({"title": title, "link": link, "pub_date": pub_date})

    items.sort(key=lambda x: x["pub_date"], reverse=True)
    return items


def build_llms_text(items: list[dict[str, str | datetime]]) -> str:
    lines = [
        f"# {SITE_NAME}",
        "",
        f"> {SITE_DESC}",
        "",
        "## Core Sections",
        f"- Blog (CN): {SITE_CN}",
        f"- Blog (EN): {SITE_EN}",
        f"- Latest posts: {RSS_URL}",
        "",
        "## Latest High-value Posts",
    ]

    for item in items[:TOP_N]:
        title = str(item["title"]).replace("\n", " ").strip()
        link = str(item["link"]).strip()
        lines.append(f"- {title}: {link}")

    lines.append("")
    return "\n".join(lines)


def main() -> None:
    items = read_items_from_rss(RSS_PATH)
    content = build_llms_text(items)

    OUTPUT.parent.mkdir(parents=True, exist_ok=True)
    OUTPUT.write_text(content, encoding="utf-8")

    print(f"Generated {OUTPUT} with {min(len(items), TOP_N)} links")


if __name__ == "__main__":
    main()

3. 执行命令

# 先构建，确保 public/index.xml 是最新
hugo --config hugotest.toml -d public/

# 生成 llms.txt
python3 scripts/generate_llms_txt.py

# 再构建一次，把 static/llms.txt 发布到站点根目录
hugo --config hugotest.toml -d public/

上线后如何验证

1. 先做本地构建检查

ls -lh static/llms.txt
head -n 20 static/llms.txt

预期：

文件已经生成
头部说明、核心栏目和最新文章链接都存在

2. 再看线上文件是否可访问

curl -I https://www.bobobk.com/llms.txt
curl https://www.bobobk.com/llms.txt | head -n 30

预期：

返回状态码 200
内容包含最近文章链接

3. 联动 IndexNow（可选）

如果你已经在用 IndexNow，可以把 llms.txt 一起推送，减少更新滞后。

python indexnow.py "https://www.bobobk.com/llms.txt"

常见问题与修复

问题 1：访问 llms.txt 返回 404

原因通常是文件放错位置。

修复：

确认文件在 static/llms.txt
重新执行 Hugo 构建
检查 CDN 缓存并清理

问题 2：llms.txt 文章链接是旧的

原因通常是先生成后构建，或者 RSS 还没更新。

修复：

先构建站点更新 public/index.xml
再运行生成脚本
最后再次构建发布

问题 3：写了太多低质量链接

llms.txt 不是“越长越好”。

建议：

优先放核心分类页与高价值文章
维持结构稳定，避免频繁大改
保持链接可访问且不重定向链过长

问题 4：脚本运行成功，但 `llms.txt` 内容为空或文章太少

原因通常是 public/index.xml 还没生成，或者 RSS 里本身没有最新文章。

修复：

先执行 hugo --config hugotest.toml -d public/
确认 public/index.xml 存在且包含最新 item
再重新运行生成脚本

总结

如果你现在已经在做内容站，llms.txt 依然是一个低成本、但很容易被忽略的优化点。

更稳妥的做法不是一开始就追求复杂，而是先上线最小可用版本，再把它接入 Hugo 构建和发文流程。这样你做的不是一次性补文件，而是在持续维护一个面向 AI 搜索的内容入口。

配合已有的 sitemap.xml 和 IndexNow，你的站点在“被发现、被理解、被引用”这三个环节上会更可控。

2026 站长实战：用 llms.txt + Python 自动同步 AI 搜索入口

什么站点应该优先做 llms.txt

什么是 llms.txt

方法 1：先手写一个最小可用版本

方法 2：用 Python 自动生成 llms.txt

1. 准备环境

2. 脚本代码

3. 执行命令

上线后如何验证

1. 先做本地构建检查

2. 再看线上文件是否可访问

3. 联动 IndexNow（可选）

常见问题与修复

问题 1：访问 llms.txt 返回 404

问题 2：llms.txt 文章链接是旧的

问题 3：写了太多低质量链接

问题 4：脚本运行成功，但 `llms.txt` 内容为空或文章太少

延伸阅读

总结

相关文章

最新文章

分类

标签

友情链接

其它

什么站点应该优先做 llms.txt

什么是 llms.txt

方法 1：先手写一个最小可用版本

方法 2：用 Python 自动生成 llms.txt

1. 准备环境

2. 脚本代码

3. 执行命令

上线后如何验证

1. 先做本地构建检查

2. 再看线上文件是否可访问

3. 联动 IndexNow（可选）

常见问题与修复

问题 1：访问 llms.txt 返回 404

问题 2：llms.txt 文章链接是旧的

问题 3：写了太多低质量链接

问题 4：脚本运行成功，但 llms.txt 内容为空或文章太少

延伸阅读

总结

相关文章

最新文章

分类

标签

友情链接

其它

问题 4：脚本运行成功，但 `llms.txt` 内容为空或文章太少