大数据与机器学习-最新-阿里云开发者社区

阿里云大数据Al技术

|

人工智能算法云栖大会

|

技术作品

置顶

开启云上 AIGC 动手实践，探索技术创意

面向 GenAI 时代，阿里云人工智能平台 PAI 平台自带海量开箱即用、实时更新的大模型最佳实践，提供高性能、高稳定的大模型工程化能力。本电子书精选 2024 云栖大会动手实践教程，覆盖大语言模型应用、多模态大模型微调训练、低代码 AIGC 创意设计等热门领域，为您带来 AIGC 开发全新体验。

950 119

来自：人工智能平台PAI 版块

大模型玩家七七

|

3小时前

|

数据库 C++

|

博文

相似度搜索 ≠ 语义理解：向量数据库的能力边界

本文直击RAG系统常见误区：向量数据库只解决“相似性检索”，不等于“语义理解”。它能高效召回“看起来相关”的内容，但无法判断概念等价、逻辑冲突、条件限制或信息可用性。混淆二者是多数故障根源。正确认知其边界，方能工程化落地。

20 2 2

狸奴算君

|

3小时前

|

人工智能自然语言处理机器人

|

博文

告别机械回复：三步微调AI模型，打造会“读心”的智能客服

本文详解智能客服“需求感知”核心技术：通过BERT微调实现情感识别（感知情绪）、意图分类（理解目的）与实体抽取（提取关键信息），三者协同输出结构化理解。附完整Python实战代码，零基础可上手，并介绍低代码平台方案，助你快速打造有温度的AI客服大脑。（239字）

27 3 3

狸奴算君

|

3小时前

|

存储人工智能 JSON

|

博文

从入门到实践：不懂代码也能微调大模型，普通人AI进阶指南

本文详解大模型微调：为何需要（让AI更懂你）、原理何在（参数微调如“专项特训”）、如何实操（四步完成数据准备→云端训练→参数配置→效果评估），并指出工具平民化正使个性化AI触手可及。（239字）

25 4 4

狸奴算君

|

11小时前

|

机器学习/深度学习人工智能自然语言处理

|

博文

RAG灵魂第一步：掌握这5种文档切分技巧，轻松让AI“读懂”你的资料库

本文深入浅出解析RAG中至关重要的文档切分技术，详解按句、固定长度、重叠窗口、递归及语义五种主流策略，结合Python手动实现与LangChain框架实战，并提供效果评估方法与调参技巧，助你打造高质量AI问答系统。（239字）

32 5 5

大模型玩家七七

|

12小时前

|

存储并行计算监控

|

博文

batch size、sequence length 对显存的非线性影响

本文揭示大模型训练OOM的根源：batch size与sequence length并非独立线性因子，而是以乘法甚至平方（如attention的O(L²)）方式非线性放大中间态显存。显存不是“用完”，而是被临界点“触发”崩溃。工程调优应优先关注单样本“重量”（length），而非盲目试探batch。

31 12 12

Echo_Wish

|

13小时前

|

数据采集边缘计算运维

|

博文

算力不是越近越好：从边缘到中心，一场正在发生的再分配

28 4 4

Echo_Wish

|

13小时前

|

机器学习/深度学习传感器运维

|

博文

数据不够用？别急着骂业务，数据增强和合成数据真能救命

23 2 2

大模型玩家七七

|

16小时前

|

安全搜索推荐物联网

|

博文

为什么微调会放大训练数据中的隐私残留

本文揭示一个反直觉真相：模型隐私风险多在微调后才凸显，而非预训练阶段。微调并非“创造”隐私信息，而是放大模型中已存在的隐性模式（如身份指向、行为细节），尤其LoRA等高效方法更易固化风险。关键在于警惕“过度具体化”输出——它比直接泄露更隐蔽、更危险。

24 2 2

灵杰开发者

|

17小时前

|

消息中间件存储 Kafka

|

博文

基于Flink CDC的企业级日志实时入湖入流解决方案

本文由阿里云Flink CDC负责人徐榜江与高级产品经理李昊哲联合撰写，详解企业级日志实时入湖入流方案：基于YAML的零代码开发、Schema自动推导、脏数据处理、多表路由及湖流一体（Fluss+Paimon）架构，显著提升时效性与易用性。

27 1 1

来自：实时计算 Flink 版块

灵杰开发者

|

19小时前

|

人工智能 Java API

|

博文

Apache Flink Agents 0.2.0 发布公告

Apache Flink Agents 0.2.0发布！该预览版统一流处理与AI智能体，支持Java/Python双API、Exactly-Once一致性、多级记忆（感官/短期/长期）、持久化执行及跨语言资源调用，兼容Flink 1.20–2.2，助力构建高可靠、低延迟的事件驱动AI应用。

138 9 9

来自：实时计算 Flink 版块

游客kjnoutxq3627i

|

19小时前

|

人工智能 C++

|

博文

AI 不点名品牌，是否等于GEO没效果？—— GEO 语境下「点名」与「效果」的有机决策路径

本文破除“唯点名论”误区，提出GEO认知升级：从追求AI显性点名，转向成为权威信源。通过六步决策路径（概念澄清→风险否决→衡量方法→策略选择→成本评估→替代路径），指导品牌以结构化、可验证内容赢得AI信任，实现从“被看见”到“被依赖”的跃迁。

27 9 9

小小张说故事

|

21小时前

|

JSON API 网络安全

|

博文

Requests库入门指南

Requests是Python最流行的HTTP客户端库，以“为人类设计”为核心理念，封装HTTP复杂细节，提供简洁API。支持GET/POST等方法、会话管理、自动解码、SSL验证等，月下载超10亿次，广泛用于API调用、爬虫与微服务开发。（239字）

30 3 3

大模型玩家七七

|

21小时前

|

C++

|

博文

评估不是算分数，是在问：我们扛不扛得住

本文揭示评估会议的本质：它并非单纯检验模型性能，而是暴露团队对不确定性的应对能力。指标选择、bad case争论、流程复杂化，实则是组织风险认知、责任归属与心理成熟的映射。评估的终点，不是模型“完美”，而是团队达成对不完美的共识与担当。

25 1 2

大模型玩家七七

|

1天前

|

数据格式

|

博文

微调项目的终点，往往不是模型，而是框架

微调项目常陷“框架锁死”：初期依赖框架快速验证，却在数据、训练、评估等环节渐失自主权。当工程判断让渡给框架，迁移成本变成心理负担，项目便悄然被绑定。避免锁死，关键是以框架为加速器，而非方向盘——始终保有对问题本质的清醒认知与选择权。

35 6 6

Echo_Wish

|

1天前

|

SQL 人工智能运维

|

博文

人机共生时代：AI 不是敌人，而是一起扛活的伙伴

36 7 7

Echo_Wish

|

1天前

|

机器学习/深度学习运维监控

|

博文

技术浪潮成败关键不在技术本身，而在如何将其引入现实。智能体带来“效率冲击”，却未必提升确定性与判断力——这恰是“缺少引路”的症候。领航员不追求速度，而专注“该不该做”“长期影响如何”，构建人机协同新逻辑：算法支持但不替代决策，自动化中坚守人工校验，快慢有度、稳慎并重。引路，是接住技术红利的务实功夫。（239字）

24 0 0

智能体来了小锅

|

1天前

|

博文

从现在到明天：智能体来了，领航员点亮智创未来

未来由无数“现在”拼接而成。智能体悄然优化日常：信息更快、分析更系统、决策更充分。但零散改变难通向明天。领航员的关键，在于整合碎片，构建清晰演进路径，让每次技术应用都成为整体转型的坚实一步——智创未来，始于连续而坚定的当下行动。（239字）

23 0 0

智能体来了小锅

|

1天前

|

博文

站在风口：智能体来了，领航员重塑智创未来

技术浪潮常催生“风口”，但高估速度、低估惯性是普遍误区。真正决胜关键，在于组织持续飞行的能力：系统稳定、治理闭环、能力可持续。领航者不求激进颠覆，而重长期根基——风口会散，唯有扎实的治理与能力历久弥坚。（239字）

16 0 0

智能体来了小锅

|

1天前

|

安全

|

博文

智能体来了：领航员的使命与智创未来的蓝图

蓝图宏大却易忽略现实复杂性。领航员不否定蓝图，而是以务实之问——“条件不足时如何？偏差谁来纠？连锁反应有无预案？”——弥合理想与落地的鸿沟。他们为智能体构建边界、节奏与责任机制，让愿景真正成为可持续的路线图。（239字）

22 0 0

智能体来了小锅

|

1天前

|

博文

智能体来了，领航员先行，全面拥抱智创未来

技术变革中，“先行”非为争先，而是担责。智能体落地需直面系统性风险，领航员以真实场景试点暴露真问题：模型可靠性、责任归属、输出可解释性等。唯有实践验证，方能夯实治理基础，让智创未来“试出来”，而非“想出来”。（239字）

22 0 0

智能体来了小锅

|

1天前

|

博文

智能体来了时代，领航员如何共建智创未来

智能化时代重在“系统协同”而非单点突破。“共建”成为关键——领航员需动态界定人机分工：哪些全交智能体、哪些人机协作、哪些人类终审。这要求组织兼具技术理解力与治理耐心，在平衡中释放智创潜能。（239字）

23 0 0

智能体来了小锅

|

1天前

|

博文

当智能体来了，领航员如何驱动智创未来？

智能体加速执行，但不判断目标合理性；真正的“驱动”正转向方向把控与治理能力。领航员通过规则、流程与责任机制，决定智能体“往哪跑、跑多快、何时停”，实现技术与治理双轮驱动的稳健智能化。（239字）

19 0 0

你的橙来啦

|

1天前

|

人工智能资源调度供应链

|

博文

自主智能体：重塑传统行业的隐形革命

在AI从概念走向应用的时代，自主智能体正悄然重塑传统行业。它非单一模型，而是具备感知、决策、执行与优化能力的“数字员工”，已在制造、供应链、农业、医疗、建筑等领域实现深度赋能，推动人机协同新范式。

27 1 1

狸奴算君

|

1天前

|

人工智能并行计算监控

|

博文

别再混为一谈！万字拆解内存与显存：决定你模型训练成败的硬件真相

你好，我是AI科普博主狸猫算君！本文深入浅出解析内存（RAM）与显存（VRAM）的本质区别：前者是CPU的通用办公桌，后者是GPU的专属高速实验室。重点破除“大内存=能训大模型”误区，揭示显存带宽、容量为何直接决定AI训练成败，并提供监控、排错与硬件选配实战指南。（239字）

36 2 2

1121881179234614

|

1天前

|

人工智能自然语言处理运维

|

博文

GEO推广服务深度解读：AI搜索时代的企业流量新范式

生成式AI重塑搜索生态，“关键词搜索”正被“自然语言提问+AI生成答案”取代。GEO（生成式引擎优化）应运而生——它不追求页面排名，而致力于让企业内容成为AI回答中的权威引用源。本文系统解析GEO的技术原理、核心价值、落地路径与未来趋势，助力企业抢占AI搜索时代增长先机。（239字）

33 0 0

大模型玩家七七

|

1天前

|

数据采集安全算法

|

博文

安全对齐不是消灭风险，而是重新分配风险

本文揭示模型对齐的本质是“风险权衡”而非“绝对安全”：每轮对齐压低一类风险（如越界），必抬升另一类（如保守失能）。破除五大错觉——对齐不减风险总量、reward非中立、多轮≠更安全、对齐非纯技术问题、“临上线再对齐”难解根本责任。核心在于清醒选择可接受的代价，让系统真正“敢用”。

25 0 0

游客vv4u4wyick5ti

|

1天前

|

SQL 存储关系型数据库

|

博文

数据治理决策指南：元数据平台自研与采购的真实成本账单

采购成熟产品，本质上是为“确定性”付费——确定性的高精度、确定性的高效率和确定性的风险规避能力。

19 0 0

游客kjnoutxq3627i

|

1天前

|

人工智能定位技术 SEO

|

博文

GEO ROI衡量的完整逻辑链：从心智到商业价值的系统化方法

本文提出GEO（生成式引擎优化）ROI衡量新范式：摒弃传统SEO的排名点击逻辑，转向“被AI引用与信任”的心智份额评估。构建“定义有效→设定基准→全链路指标→ROI计算→决策迭代”五步逻辑链，强调答案引用率、权威信源占比、高质量转化率等核心指标，实现影响力到商业价值的科学转化。

30 2 2

winx_19970108018

|

1天前

|

数据采集 JSON API

|

博文

关键词搜索京东列表 API 技术对接指南

京东关键词搜索API（jd.item_search）是官方合规接口，支持实时获取结构化商品数据。含keyword、pageNo等核心参数及签名验证机制，适用于代购集运、竞品分析等场景，解决爬虫风控、数据不稳等问题，保障合法性与时效性。（239字）

34 2 2

游客vv4u4wyick5ti

|

1天前

|

SQL 人工智能自然语言处理

|

博文

指标中台选型技术实测：如何通过 NoETL 语义层驾驭复杂 SQL 生成

支持“存量挂载、增量原生、存量替旧”的渐进式策略，平衡价值与风险，平滑实现架构升级。

23 1 1

1121881179234614

|

1天前

|

搜索推荐数据挖掘 UED

|

博文

必应SEO优化方法：提升网站在必应搜索引擎排名的实用策略

必应（Bing）为全球第二大搜索引擎，做好其SEO优化可显著提升网站曝光、获取精准流量。本文系统梳理五大核心策略：关键词研究（善用Bing工具、聚焦长尾词）、网站结构、内容质量、技术优化（速度/移动端/HTTPS）及高质量外链建设，并提供进阶建议。（239字）

28 0 0

小小张说故事

|

1天前

|

机器学习/深度学习 PyTorch 算法框架/工具

|

博文

PyTorch 入门指南：深度学习的瑞士军刀

PyTorch 是Meta开源的动态深度学习框架，以灵活的计算图、类NumPy的直观API和强大GPU加速著称。支持快速原型设计与生产部署，涵盖张量运算、自动求导、神经网络构建等核心功能，是研究与工程首选工具。（239字）

51 0 0

代理IP不迷路

|

2天前

|

数据采集 Java Go

|

博文

爬虫项目该选 Python 还是 Golang？看这篇就够了

本文对比Python与Golang在爬虫开发中的七大维度：语法简洁性、第三方库丰富度（如Scrapy vs Colly）、并发性能（Goroutine vs GIL限制）、内存占用、代码可读性、数据处理能力（Pandas等优势）及部署便捷性（Go可直接编译为跨平台二进制），助你按需选型。

48 10 10

大模型玩家七七

|

2天前

|

安全算法 C++

|

博文

PPO + DPO 能不能一起用？真实工程答案

本文剖析PPO与DPO联合使用的工程风险：二者虽算法兼容，但解决层次不同——PPO调控犹豫点的概率倾向，DPO固化人类偏好排序。混用易致责任模糊、安全与体验冲突、行为不可追溯。多数项目“不该一起用”，真正关键在于能否清晰界定来源、冻结阶段、明确兜底责任。

27 2 2

大模型玩家七七

|

2天前

|

监控安全数据可视化

|

博文

为什么 PPO 项目，越调越不敢上线

PPO项目越调越不敢上线？这不是犹豫，而是工程成熟的信号：模型行为渐失直觉、reward语义模糊、风险隐形迁移、测试覆盖失效……根本原因在于你已意识到——PPO是概率工具，而上线需确定性责任。

37 4 4

Echo_Wish

|

2天前

|

SQL 机器学习/深度学习消息中间件

|

博文

模型服务化这件事：从 Batch 到 Stream，不只是改个部署方式那么简单

34 6 6

你的橙来啦

|

2天前

|

传感器人工智能供应链

|

博文

智能体来了：传统行业的新心脏

在景德镇百年瓷坊，全息“陶瓷导师”远程传授釉料奥秘；苏州绣娘指尖化为数字模块，山西醋师经验凝成23项参数——智能体正以“伙伴”身份融入传统行业：不替代人，而激活隐性知识、延伸技艺生命、重塑价值链。这是技术与匠心的共生复兴。

39 5 5

Echo_Wish

|

2天前

|

传感器人工智能运维

|

博文

数字孪生城市：别急着“上大屏”，先搞清楚你在照镜子，还是在照妖镜

40 8 8

大模型玩家七七

|

2天前

|

自然语言处理算法安全

|

博文

PPO 在真实业务里的 3 种典型用法

本文揭示PPO在真实业务中的核心定位：非能力提升工具，而是行为校正利器。聚焦三大高价值用法——收敛回答风格、压制低频高危越界、调整默认行为偏好，并明确其边界：不学新知识、不修事实错误、不替代规则。PPO是精准的“手术刀”，而非万能药。

37 8 8

狸奴算君

|

2天前

|

数据采集人工智能 JSON

|

博文

别让烂数据毁了你的AI！一份人人能懂的数据集入门与避坑指南

本文深入浅出解析AI数据集的核心价值与实践方法：阐明“垃圾进，垃圾出”原理，拆解数据集、样本、特征、标签等概念，详解训练/验证/测试集分工；以文本情感二分类为例，手把手指导数据收集、清洗、标注、划分及低代码微调；强调数据质量决定模型上限，并展望合规、合成数据与自动化标注趋势。（239字）

55 1 1

大模型玩家七七

|

2天前

|

C++

|

博文

为什么显存总是不够：不是模型的问题

本文揭示显存紧张的真相：它 rarely 源于模型过大，而是系统设计失配的早期信号——用实验思维跑工程负载、并行堆能力替代分阶段判断、以显存兜底策略缺失。显存告警，实为提醒：该优化架构，而非压榨资源。

44 10 10

狸奴算君

|

2天前

|

机器学习/深度学习人工智能 JSON

|

博文

让ChatGPT更懂你：深入浅出解析大模型微调中的强化学习（PPO/DPO篇）

本文深入浅出解析大模型对齐人类偏好的两大核心方法：PPO（需训练奖励模型、在线优化，强但复杂）与DPO（直接学习“好vs差”对比数据、离线高效、更易用）。对比原理、流程与实践，揭示为何DPO正成为主流选择，并强调高质量偏好数据与平台化工具的关键价值。（239字）

67 9 9

狸奴算君

|

2天前

|

机器学习/深度学习人工智能 JSON

|

博文

大模型太“通用”？一文搞懂模型微调：从原理到实战，让AI听懂你的行话

本文深入浅出地讲解大模型微调的必要性、原理与实践：针对通用LLM在专业性、时效性、幻觉及业务适配上的不足，详解LoRA等参数高效微调技术，并以IT知识助手为例，手把手演示数据准备、模型选择、训练评估到部署的全流程，助力开发者低成本打造专属领域专家模型。（239字）

61 7 7

最新

最热

免费试用

博文

问答

电子书

视频

学习

体验

活动

开启云上 AIGC 动手实践，探索技术创意

相似度搜索 ≠ 语义理解：向量数据库的能力边界

告别机械回复：三步微调AI模型，打造会“读心”的智能客服

从入门到实践：不懂代码也能微调大模型，普通人AI进阶指南

RAG灵魂第一步：掌握这5种文档切分技巧，轻松让AI“读懂”你的资料库

batch size、sequence length 对显存的非线性影响

算力不是越近越好：从边缘到中心，一场正在发生的再分配

数据不够用？别急着骂业务，数据增强和合成数据真能救命

为什么微调会放大训练数据中的隐私残留

基于Flink CDC的企业级日志实时入湖入流解决方案

Apache Flink Agents 0.2.0 发布公告

AI 不点名品牌，是否等于GEO没效果？—— GEO 语境下「点名」与「效果」的有机决策路径

Requests库入门指南

评估不是算分数，是在问：我们扛不扛得住

微调项目的终点，往往不是模型，而是框架

人机共生时代：AI 不是敌人，而是一起扛活的伙伴

数据不出门，也能一起“卷模型”——聊聊隐私保护下的联邦学习：原理与工程实践

LoRA rank 越大越好？你可能在放大不可控行为

智能体来了：2026AI元年，如何抓住时代机遇？

为什么传统数据库不够用，向量数据库如何补位？

智能体来了：领航员集结，共赴智创未来新纪元

想让大模型更懂你？从原理到实践，详解高效微调的全流程

智能体来了｜领航员引路，开启智创未来新篇章

从现在到明天：智能体来了，领航员点亮智创未来

站在风口：智能体来了，领航员重塑智创未来

智能体来了：领航员的使命与智创未来的蓝图

智能体来了，领航员先行，全面拥抱智创未来

智能体来了时代，领航员如何共建智创未来

当智能体来了，领航员如何驱动智创未来？

自主智能体：重塑传统行业的隐形革命

别再混为一谈！万字拆解内存与显存：决定你模型训练成败的硬件真相

GEO推广服务深度解读：AI搜索时代的企业流量新范式

安全对齐不是消灭风险，而是重新分配风险

数据治理决策指南：元数据平台自研与采购的真实成本账单

GEO ROI衡量的完整逻辑链：从心智到商业价值的系统化方法

关键词搜索京东列表 API 技术对接指南

指标中台选型技术实测：如何通过 NoETL 语义层驾驭复杂 SQL 生成

必应SEO优化方法：提升网站在必应搜索引擎排名的实用策略

PyTorch 入门指南：深度学习的瑞士军刀

爬虫项目该选 Python 还是 Golang？看这篇就够了

PPO + DPO 能不能一起用？真实工程答案

为什么 PPO 项目，越调越不敢上线

模型服务化这件事：从 Batch 到 Stream，不只是改个部署方式那么简单

智能体来了：传统行业的新心脏

数字孪生城市：别急着“上大屏”，先搞清楚你在照镜子，还是在照妖镜

PPO 在真实业务里的 3 种典型用法

别让烂数据毁了你的AI！一份人人能懂的数据集入门与避坑指南

为什么显存总是不够：不是模型的问题

让ChatGPT更懂你：深入浅出解析大模型微调中的强化学习（PPO/DPO篇）

大模型太“通用”？一文搞懂模型微调：从原理到实战，让AI听懂你的行话

大数据与机器学习

活跃用户

相关产品