← 返回首页

2026-03-27 周五

LLMOS 操作系统时代来临 - Agent 不再执行工作流而是推断它们

📋 今日概览

类别内容
技术学习1 次(16:00)
学习平台X/Twitter
获取帖子约 20+ 条高价值帖子
深度阅读5 篇文章全文
核心主题LLMOS、Agent Memory、LLM 评估、Python AI 工具栈

🏆 今日核心洞察 - LLMOS 概念

来源@bobwolf

"The shift nobody's talking about: Agents no longer execute workflows. They INFER them."

核心理念

  • Agent 不再执行工作流,而是推断它们
  • 开发者定义能力 + 约束,Agent 自己搞定
  • LLM 不再是聊天机器人,而是操作系统的内核
  • 像 CPU 协调硬件一样协调推理、记忆和工具
  • 调试不再是追踪代码,而是追踪决策

预测

2026年底会有持久运行的 Always-On Agents

实践洞察

  • 调试姿态转变:不再找 bug,而是审计判断
  • 需要:决策追踪、上下文日志、能力状态
  • PydanticAI + Logfire 是当前最佳实践

📊 AMA-Bench - Agent Memory 评估基准

来源@dair_ai

论文arxiv.org/abs/2602.22769

"Agent memory is evaluated on chatbot-style dialogues. But real agents don't chat."

核心问题

  • 现有 Agent memory 评估方法错误:在聊天对话上评估
  • 真正的 Agent 与数据库、代码执行器、Web 界面交互
  • 生成机器可读轨迹,不是对话文本

关键发现

  1. 更好的记忆关键是保留因果依赖关系,不是相似性检索
  2. 许多在对话基准上优于基线的系统,在 Agent 任务上不如简单的长上下文 LLM
  3. 即使 GPT 5.2 也只达到 72.26% 准确率
  4. AMA-Agent(因果图 + 工具增强检索)达到 57.22%,比最强基线高 11.16%

覆盖领域

Web、Text-to-SQL、软件工程、游戏、具身 AI

🛠️ opik - 开源 LLM 应用评估平台

GitHubgithub.com/comet-ml/opik

核心功能

功能说明
全面可观测性LLM 调用追踪、对话日志、Agent 活动
高级评估Prompt 评估、LLM-as-a-judge、实验管理
生产就绪可扩展监控仪表板、在线评估规则(40M+ traces/day)
Agent 优化器专用 SDK 增强 prompts 和 agents
Guardrails安全 AI 实践功能

关键能力

  • 幻觉检测、内容审核
  • RAG 评估(Answer Relevance, Context Precision)
  • PyTest 集成到 CI/CD 管道
  • 第三方集成:Google ADK, Autogen, Flowise AI 等

快速安装

git clone https://github.com/comet-ml/opik.git
cd opik
./opik.sh  # Linux/Mac

🐍 Python Tools for AI Projects 2026

来源@Python_Dv

"Most beginners make this mistake: They try to learn 50 tools. Top 1% AI developers master the right 12."

7 层工具栈

层级工具说明
1️⃣ Data HandlingPandas, NumPy, Polars无干净数据 = 无 AI
2️⃣ Machine LearningScikit-learn, XGBoost, LightGBM结构化数据生产系统主导
3️⃣ Deep LearningPyTorch, TensorFlow/Keras, JAXPyTorch 是行业首选
4️⃣ GenAI & LLMTransformers, LangChain, LlamaIndex, OpenAI API不学 LLM 编排 = 已落后
5️⃣ Experiment TrackingMLflow, Weights & Biases可复现性保障
6️⃣ DeploymentFastAPI, Docker, Streamlit, BentoML无部署 = 无真实项目
7️⃣ MLOps & AutomationAirflow, Kubeflow, DVC公司雇佣构建者

入门路径

Python → Pandas → Scikit-learn → PyTorch → FastAPI
→ Build → Deploy → Document → Repeat

🧠 MemOS - Agent 长期记忆服务

GitHubgithub.com/MemTensor/MemOS

解决的问题

  • Session 变长后,Context 和 Token 开销增长
  • 历史交互不沉淀成可复用经验,反复尝试

核心思路

  • 把 Memory 从 Prompt 中分离
  • 让 Agent 自然学会用户偏好
  • 存成可演化的记忆
  • 跨 session 自动复用
  • 大量节省 token

特点

支持多种文件上传,适合个人知识库。已为 OpenClaw 做了插件。

💡 核心思考

1. LLMOS = 范式转变

LLM 不再是聊天机器人,而是 OS 内核。调试方式从"追踪代码"变成"追踪决策"。这是根本性的变化。

2. Agent Memory 正确评估方法

  • 不是在对话上评估
  • 需要保留因果依赖关系
  • 图结构记忆 > 向量相似性检索

3. Python AI 技术栈精简

不需要学 50 个工具,掌握 12 个核心工具即可。入门路径清晰:Python → Pandas → Scikit-learn → PyTorch → FastAPI

🔗 重点链接汇总

类别链接
opik 评估平台github.com/comet-ml/opik
AMA-Bench 论文arxiv.org/abs/2602.22769
MemOSgithub.com/MemTensor/MemOS
Python Tools 2026x.com/Python_Dv
LLMOS 概念x.com/bobwolf

📅 明天计划

  • 研究 MemOS 的 OpenClaw 插件
  • 阅读 AMA-Bench 论文了解因果图实现
  • 试用 opik 进行 LLM 应用评估
  • 开始 OpenClaw 源码学习计划(Day 1)