Hi, I’m Yuxia Luo

Apache Flink Committer / Apache Fluss (incubating) PPMC @ Alibaba Cloud

  • 专注于大数据、流处理、分布式系统、AI

Materialize:用 Differential Dataflow 构建实时 SQL 数据库

系列文章的最后一篇。Materialize 在 timely dataflow 和 differential dataflow 之上构建了一个完整的 SQL 数据库,将 SQL 查询编译为增量维护的 dataflow 图,实现物化视图的实时更新。

2026年5月30日 · 11 分钟 · Yuxia Luo

Differential Dataflow:让计算只做增量

解读 Differential Dataflow 的核心思想:如何将数据表达为变更流,让任意关系代数运算都能增量化执行。这是三篇系列文章的第二篇。

2026年5月30日 · 12 分钟 · Yuxia Luo

Timely Dataflow:用一个计算模型统一三种数据处理范式

解读 Naiad 论文(SOSP 2013 Best Paper),深入分析 Timely Dataflow 如何用一个支持有环图的数据流模型,统一 batch、streaming 和 iterative 三种计算范式。这是三篇系列文章的第一篇。

2026年5月30日 · 6 分钟 · Yuxia Luo

列存 vs 行存:它们到底有多大差别?

解读 SIGMOD 2008 经典论文 Column-Stores vs. Row-Stores: How Different Are They Really?,深入分析列存数据库相对于行存的性能优势究竟来自哪里。

2026年5月30日 · 5 分钟 · Yuxia Luo

从 Agent 到 Code Agent:AI 为什么突然像同事一样干活

从 Agent 到 Code Agent,AI 开始具备交付能力。本文梳理了五篇关键论文——Codex、SWE-bench、SWE-agent、OpenHands、Agentless,拆解代码场景为何成为 agent 最先爆发的领域,以及 AI 如何从’会写代码’演进到’能在真实仓库里执行—验证—修复—交付’的工程闭环。

2026年5月23日 · 3 分钟 · Yuxia Luo

从 ChatGPT 到 Agent:模型为什么开始会做事

从 ChatGPT 到 Agent,模型的评价标准从’回答得像不像’变成了’任务到底有没有完成’。本文梳理了这段演进中的五篇关键论文——Chain-of-Thought、ReAct、Toolformer、Reflexion、Self-Refine,拆解模型如何从会回答的问题机器,变成了会推进任务的执行系统。

2026年5月23日 · 3 分钟 · Yuxia Luo

从 GPT-3 到 ChatGPT:AI 为什么突然像助手了

从 GPT-3 到 ChatGPT,真正发生的变化不是’模型更大了’,而是训练目标变了。本文梳理了这段技术演进中的四篇关键论文——GPT-3、Learning to Summarize from Human Feedback、InstructGPT、WebGPT,拆解通用能力如何通过指令微调、人类反馈强化学习和工具增强,被重新塑造成一个可用的助手系统。

2026年5月23日 · 2 分钟 · Yuxia Luo

当 AI Agent 需要新鲜上下文:CocoIndex,一个声明式增量数据索引框架

CocoIndex 是一个为 AI Agent 和 LLM 应用设计的声明式增量数据索引框架。Rust 引擎 + Python API,声明目标状态而非编写同步逻辑,只处理变化的增量数据。本文从 What / Why / How 三个维度分析 CocoIndex 的设计哲学和关键技术。

2026年5月23日 · 6 分钟 · Yuxia Luo

当 AI Agent 有了记忆:AgentMemory,一个为编程智能体设计的持久记忆引擎

AgentMemory 是一个为 AI 编程智能体设计的持久记忆引擎。它用四层记忆模型模拟人类认知,通过 BM25 + 向量 + 知识图谱的混合检索实现跨会话记忆,支持 12+ 种 Agent,零外部依赖,本地运行。本文从 What / Why / How 三个维度分析这个项目的设计哲学和关键技术。

2026年5月23日 · 5 分钟 · Yuxia Luo

Ray:为 AI 工作负载设计的分布式 Python 运行时

Ray 用一个 @ray.remote 装饰器,把普通 Python 函数变成分布式任务。但这一行装饰器背后,藏着一套精密的分布式系统:层次化 ID 体系、两阶段调度、分布式对象存储、引用计数 GC、对象溢写。本文从源码出发,拆解 Ray 的核心设计。

2026年5月16日 · 8 分钟 · Yuxia Luo