LLM Wiki
一种使用 LLM 增量构建和维护个人知识库的模式。核心思想:LLM 不仅是查询工具,更是 wiki 的维护者——持续地总结、交叉引用、归档和更新知识,使知识库随着每个新源和每个问题不断复合增长。
核心区别:RAG vs Persistent Wiki
| RAG | LLM Wiki | |
|---|---|---|
| 每次查询 | 从原始文档重新检索、推导 | 读取已编译好的结构化页面 |
| 知识状态 | 无积累,每次从零开始 | 持续复合,越用越丰富 |
| 交叉引用 | 查询时临时拼凑 | 预先建立并持续维护 |
| 矛盾处理 | 可能忽略 | 主动标记和对比 |
三层架构
- Raw sources(原始资料) — 不可变的源文档集合(文章、论文、图片等)。LLM 只读不写。对应本库的
raw/目录。 - Wiki(知识库) — LLM 生成和维护的 markdown 文件目录。包含摘要、实体页、概念页、对比、综述。LLM 完全拥有这一层。对应本库的
wiki/目录。 - Schema(模式定义) — 告诉 LLM wiki 结构、约定和工作流的配置文件(如 CLAUDE.md)。是让 LLM 成为有纪律的 wiki 维护者而非通用聊天机器人的关键。对应本库的
SCHEMA.md文件。
三种操作
Ingest(摄入)
- 将新源放入 raw 目录 → LLM 读取 → 讨论关键要点 → 写入摘要页 → 更新索引 → 更新相关实体/概念页 → 追加日志
- 单个源可能触及 10-15 个 wiki 页面
- 可单篇精读或批量摄入
Query(查询)
- 针对 wiki 提问 → LLM 搜索相关页面 → 综合回答(附引用)
- 回答形式多样:markdown 页、对比表、幻灯片(Marp)、图表(matplotlib)
- 关键洞察:好的回答可以归档回 wiki 成为新页面,使探索成果复合增长
Lint(检查)
- 定期健康检查 wiki:页面矛盾、过时声明、孤立页面、缺失的交叉引用、数据缺口
- LLM 能主动建议新问题和待寻找的新源
导航机制
- index.md — 内容导向目录,按类别列出所有页面及一行摘要。LLM 每次摄入时更新,查询时先读索引再深入具体页面
- log.md — 时间顺序的追加日志,记录摄入、查询、检查操作。使用统一前缀(如
## [2026-04-02] ingest | Title)可用 grep 解析
可选工具
- qmd — 本地 markdown 搜索引擎,支持 BM25/向量混合搜索 + LLM 重排序,有 CLI 和 MCP 接口
- Obsidian Web Clipper — 浏览器扩展,将网页转为 markdown
- Obsidian Graph View — 可视化 wiki 的连接结构
- Marp — markdown 幻灯片格式
- Dataview — Obsidian 插件,基于 frontmatter 查询
为什么有效
维护知识库最繁琐的不是阅读或思考,而是簿记工作——更新交叉引用、保持摘要最新、标记矛盾、维护一致性。人类因维护负担增长快于价值而放弃 wiki。LLM 不会无聊、不会忘记更新引用、一次能触及 15 个文件。维护成本趋近于零。
人类的职责:策展来源、指导分析、提出好问题、思考意义。LLM 的职责:其他一切。
思想渊源
与 Vannevar Bush 的 Memex(1945)理念相关——个人策展的知识库,文档之间的关联路径与文档本身同等重要。Bush 未能解决”谁来做维护”的问题,LLM 解决了。
应用场景
- 个人成长追踪(目标、健康、心理)
- 深度研究(论文阅读、论文撰写)
- 读书笔记(角色、主题、情节线索的 wiki)
- 团队知识库(Slack、会议记录、项目文档)
- 竞品分析、尽职调查、旅行规划、课程笔记