# AI分享圈 > 最好最全的AI免费资源分享网站 --- ## 页面 - [My account](https://aisharenet.com/my-account/): - [Checkout](https://aisharenet.com/checkout/): - [Cart](https://aisharenet.com/cart/): You may be intereste... - [Shop](https://aisharenet.com/shop/): - [友情链接](https://aisharenet.com/links/): - [投稿](https://aisharenet.com/contribute/): - [排行榜](https://aisharenet.com/rankings/): - [我要投稿](https://aisharenet.com/woyaotougao/): - [找回密码](https://aisharenet.com/zhaohuimima/): - [会员中心](https://aisharenet.com/huiyuanzhongxin/): - [Privacy Policy](https://aisharenet.com/privacy-policy/): 1. Introduction We r... - [精选AI工具列表](https://aisharenet.com/tuijiangongju/): - [工具分类](https://aisharenet.com/tooltag/): --- ## 文章 - [GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型](https://aisharenet.com/glm-ocr/): GLM-OCR是什么 GLM-OCR 是... - [Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型](https://aisharenet.com/step-35-flash/): Step 3. 5 Flash是什么 S... - [UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型](https://aisharenet.com/unifolm-vla-0/): UnifoLM-VLA-0是什么 Uni... - [SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型](https://aisharenet.com/sensenova-mars/): SenseNova-MARS是什么 Se... - [MOVA - 创智学院联合模思智能开源的端到端音视频生成模型](https://aisharenet.com/mova/): MOVA是什么 MOVA(MOSS-Vi... - [LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型](https://aisharenet.com/lingbot-world/): LingBot-World是什么 Lin... - [SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型](https://aisharenet.com/skyreels-v3/): SkyReels-V3是什么 SkyRe... - [LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型](https://aisharenet.com/lingbot-depth/): LingBot-Depth是什么 Lin... - [DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型](https://aisharenet.com/deepseek-ocr-2/): DeepSeek-OCR 2是什么 De... - [Kimi K2.5 - 月之暗面开源的新一代旗舰模型](https://aisharenet.com/kimi-k25/): Kimi K2. 5是什么 Kimi K... - [Moltbot - 开源的本地优先AI助手,支持多渠道与用户交互](https://aisharenet.com/moltbot/): Moltbot是什么 Moltbot(原... - [json-render - Vercel Labs开源的AI生成UI的工具](https://aisharenet.com/json-render/): json-render是什么 json-... - [FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架](https://aisharenet.com/flowact-r1/): FlowAct-R1是什么 FlowAc... - [VibeVoice-ASR - 微软开源的统一语音转文本(ASR)模型](https://aisharenet.com/vibevoice-asr/): VibeVoice-ASR是什么 Vib... - [Qwen3-TTS - 阿里云千问团队开源的语音合成模型系列](https://aisharenet.com/qwen3-tts/): Qwen3-TTS是什么 Qwen3-T... - [Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型](https://aisharenet.com/chroma-10/): Chroma 1. 0是什么 Chrom... - [AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具](https://aisharenet.com/agentcpm-report/): AgentCPM-Report是什么 A... - [EmbodiChain - 跨维智能推出的开源具身智能开发平台](https://aisharenet.com/embodichain/): EmbodiChain是什么 Embod... - [Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型](https://aisharenet.com/step3-vl-10b/): Step3-VL-10B是什么 Step... - [PersonaPlex - 英伟达开源的全双工语音对话模型](https://aisharenet.com/personaplex/): PersonaPlex是什么 Perso... - [GLM-4.7-Flash - 智谱开源的混合专家架构语言模型](https://aisharenet.com/glm-47-flash/): GLM-4. 7-Flash是什么 GL... - [NovaSR - 开源的音频超分辨率模型,提升音频采样率](https://aisharenet.com/novasr/): NovaSR是什么 NovaSR是开源的... - [FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型](https://aisharenet.com/flux2-klein/): FLUX. 2 是什么 FLUX. 2 ... - [TranslateGemma - 谷歌开源的机器翻译模型系列](https://aisharenet.com/translategemma/): TranslateGemma是什么 Tr... - [OpenWork - 开源AI Agent工作流桌面应用,Claude Cowork的免费平替](https://aisharenet.com/openwork/): OpenWork是什么 OpenWork... - [ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法](https://aisharenet.com/arenarl/): ArenaRL是什么 ArenaRL是高... - [Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型](https://aisharenet.com/step-audio-r11/): Step-Audio-R1. 1是什么 ... - [OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集](https://aisharenet.com/octocodingbench/): OctoCodingBench是什么 O... - [GLM-Image - 智谱联合华为开源的多模态图像生成模型](https://aisharenet.com/glm-image/): GLM-Image是什么 GLM-Ima... - [Baichuan-M3 - 百川智能开源的新一代医疗大语言模型](https://aisharenet.com/baichuan-m3/): Baichuan-M3是什么 Baich... - [女娲智能体OS - 西南财经开源的通用智能体操作系统](https://aisharenet.com/nuwax-agent-os/): 女娲智能体OS是什么 女娲智能体OS(N... - [Nemotron Speech ASR - 英伟达开源的实时语音识别模型](https://aisharenet.com/nemotron-speech-asr/): Nemotron Speech ASR是... - [Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型](https://aisharenet.com/qwen3-vl-reranker/): Qwen3-VL-Reranker是什么... - [Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型](https://aisharenet.com/qwen3-vl-embedding/): Qwen3-VL-Embedding是什... - [AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型](https://aisharenet.com/antangelmed/): AntAngelMed是什么 AntAn... - [VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型](https://aisharenet.com/voicesculptor/): VoiceSculptor是什么 Voi... - [10Kh RealOmni-Open - 简智机器人开源的具身智能数据集](https://aisharenet.com/10kh-realomni-open/): 10Kh RealOmni-Open是什... - [Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型](https://aisharenet.com/youtu-llm/): Youtu-LLM是什么 Youtu-L... - [Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台](https://aisharenet.com/genie-sim-30/): Genie Sim 3. 0是什么 Ge... - [LandPPT - 开源免费的AI PPT生成工具,支持本地部署和云端协作](https://aisharenet.com/landppt/): LandPPT是什么 LandPPT是基... - [TuriX-CUA - 开源AI桌面自动化工具,AI直接操作电脑桌面](https://aisharenet.com/turix-cua/): TuriX-CUA是什么 TuriX-C... - [MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型](https://aisharenet.com/mirothinker-15/): MiroThinker 1. 5是什么 ... - [UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架](https://aisharenet.com/ultraeval-audio/): UltraEval-Audio是什么 U... - [openPangu-VL-7B - 华为开源的7B参数多模态模型](https://aisharenet.com/openpangu-vl-7b/): openPangu-VL-7B是什么 o... - [New API - 开源的AI模型接口管理与分发系统,统一为标准化接口](https://aisharenet.com/new-api/): New API是什么 New API是基... - [Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台](https://aisharenet.com/paper2any/): Paper2Any是什么 Paper2A... - [StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统](https://aisharenet.com/storymem/): StoryMem是什么 StoryMem... - [XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型](https://aisharenet.com/xverse-ent/): XVERSE-Ent是什么 XVERSE... - [Vibe Kanban - 开源的免费AI编程代理任务管理工具](https://aisharenet.com/vibe-kanban/): Vibe Kanban是什么 Vibe ... - [Chatterbox-Turbo - Resemble AI开源的文本到语音模型](https://aisharenet.com/chatterbox-turbo/): Chatterbox-Turbo是什么 ... - [IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列](https://aisharenet.com/iquest-coder-v1/): IQuest-Coder-V1是什么 I... - [混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型](https://aisharenet.com/hy-motion10/): 混元Motion1. 0是什么 混元Mo... - [支持向量机(Support Vector Machine)是什么,一文看懂](https://aisharenet.com/what-is-svm/): 支持向量机的定义 支持向量机(Suppo... - [Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型](https://aisharenet.com/yume15/): Yume1. 5是什么 Yume1. 5... - [AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统](https://aisharenet.com/automv/): AutoMV是什么 AutoMV是M-A... - [Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列](https://aisharenet.com/tencent-hy-mt15/): Tencent-HY-MT1. 5是什么... - [PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架](https://aisharenet.com/personalive/): PersonaLive是什么 Perso... - [Computer Use Preview - Google开源的AI浏览器自动化工具](https://aisharenet.com/computer-use-preview/): Computer Use Preview... - [ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书](https://aisharenet.com/clipsketch-ai/): ClipSketch AI是什么 Cli... - [MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型](https://aisharenet.com/mai-ui/): MAI-UI是什么 MAI-UI是阿里巴... - [MiniMax M2.1 - MiniMax开源的编码和代理模型](https://aisharenet.com/minimax-m21/): MiniMax M2. 1是什么 Min... - [评估指标(Evaluation Metrics)是什么,一文看懂](https://aisharenet.com/what-is-evaluation-metrics/): 评估指标的定义 评估指标(Evaluat... - [神经网络架构搜索(Neural Architecture Search)是什么,一文看懂](https://aisharenet.com/what-is-nas/): 神经网络架构搜索的定义 神经网络架构搜索... - [InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术](https://aisharenet.com/instanceassemble/): InstanceAssemble是什么 ... - [条件生成对抗网络(Conditional Generative Adversarial Network)是什么,一文看懂](https://aisharenet.com/what-is-cgan/): 条件生成对抗网络的定义 条件生成对抗网络... - [Zen Browser - 基于Firefox内核的开源AI网页浏览器](https://aisharenet.com/zen-browser/): Zen Browser是什么 Zen B... - [QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型](https://aisharenet.com/qwenlong-l15/): QwenLong-L1. 5是什么 Qw... - [Infographic - 阿里AntV团队开源的信息图生成框架](https://aisharenet.com/infographic/): Infographic是什么 Infog... - [opcode - 专为Claude Code设计的开源图形化桌面应用](https://aisharenet.com/opcode/): opcode是什么 opcode是专为C... - [TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架](https://aisharenet.com/turbodiffusion/): TurboDiffusion是什么 Tu... - [MedASR - 谷歌开源的医疗语音识别模型](https://aisharenet.com/medasr/): MedASR是什么 MedASR是谷歌开... - [Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型](https://aisharenet.com/fun-audio-chat-8b/): Fun-Audio-Chat-8B是什么... - [PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计](https://aisharenet.com/promptfill/): PromptFill是什么 Prompt... - [GLM-4.7 - 智谱AI开源的最新一代旗舰大模型](https://aisharenet.com/glm-47/): GLM-4. 7是什么 GLM-4. 7... - [NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型](https://aisharenet.com/nitrogen/): NitroGen是什么 NitroGen... - [Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型](https://aisharenet.com/qwen-image-layered/): Qwen-Image-Layered是什... - [VTP - MiniMax海螺视频团队开源的视觉生成模型技术](https://aisharenet.com/vtp/): VTP是什么 VTP(Visual To... - [T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型](https://aisharenet.com/t5gemma-2/): T5Gemma 2是什么 T5Gemma... - [FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型](https://aisharenet.com/functiongemma/): FunctionGemma是什么 Fun... - [SHARP - 苹果开源的单目视图3D场景合成技术](https://aisharenet.com/sharp/): SHARP是什么 SHARP(Sharp... - [TRELLIS.2 - 微软开源的大型3D生成模型](https://aisharenet.com/trellis2/): TRELLIS. 2是什么 TRELLI... - [Step-GUI - 阶跃星辰开源的AI Agent系列模型](https://aisharenet.com/step-gui/): Step-GUI是什么 Step-GUI... - [A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议](https://aisharenet.com/a2ui/): A2UI是什么 A2UI(Agent-t... - [SAM Audio - Meta推出的开源多模态音频分割模型](https://aisharenet.com/sam-audio/): SAM Audio是什么 SAM Aud... - [混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架](https://aisharenet.com/tencent-hy-worldplay/): 混元世界模型1. 5是什么 混元世界模型... - [Molmo 2 - Ai2开源的多模态视频图像理解模型系列](https://aisharenet.com/molmo-2/): Molmo 2是什么 Molmo 2是A... - [LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型](https://aisharenet.com/longcat-video-avatar/): LongCat-Video-Avatar... - [MiMo-V2-Flash - 小米发布的开源MoE架构大模型](https://aisharenet.com/mimo-v2-flash/): MiMo-V2-Flash是什么 MiM... - [Nemotron 3 - 英伟达发布的开源 AI 模型系列](https://aisharenet.com/nemotron-3/): Nemotron 3是什么 Nemotr... - [Wan-Move - 阿里通义联合清华等开源的AI视频生成框架](https://aisharenet.com/wan-move/): Wan-Move是什么 Wan-Move... - [PaCoRe - 阶跃星辰开源的并行协同AI推理框架](https://aisharenet.com/pacore/): PaCoRe是什么 PaCoRe(Par... - [Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具](https://aisharenet.com/banana-slides/): Banana Slides是什么 Ban... - [Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型](https://aisharenet.com/kaleido/): Kaleido是什么 Kaleido是合... - [Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具](https://aisharenet.com/paper2slides/): Paper2Slides是什么 Pape... - [RealVideo - 智谱 AI 开源的实时流式视频生成系统](https://aisharenet.com/realvideo/): RealVideo是什么 RealVid... - [OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统](https://aisharenet.com/openscreen/): OpenScreen是什么 OpenSc... - [SCAIL - 智谱联合清华开源的影视级角色动画生成框架](https://aisharenet.com/scail/): SCAIL是什么 SCAIL(Studi... - [DeepSearchQA - 谷歌开源的AI研究Agent测试基准](https://aisharenet.com/deepsearchqa/): DeepSearchQA是什么 Deep... - [Claude-Mem - 开源Claude Code记忆插件,支持跨会话持久化记忆](https://aisharenet.com/claude-mem/): Claude-Mem是什么 Claude... - [KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台](https://aisharenet.com/koalaqa/): KoalaQA是什么 KoalaQA 是... --- # # Detailed Content ## 页面 ### My account - Published: 2025-09-15 - Modified: 2025-09-15 - URL: https://aisharenet.com/my-account/ --- ### Checkout - Published: 2025-09-15 - Modified: 2025-09-15 - URL: https://aisharenet.com/checkout/ --- ### Cart - Published: 2025-09-15 - Modified: 2025-09-15 - URL: https://aisharenet.com/cart/ You may be interested in... Your cart is currently empty! New in store --- ### Shop - Published: 2025-09-15 - Modified: 2025-09-15 - URL: https://aisharenet.com/shop/ --- ### 友情链接 - Published: 2025-05-29 - Modified: 2025-05-29 - URL: https://aisharenet.com/links/ --- ### 投稿 - Published: 2025-05-29 - Modified: 2025-05-29 - URL: https://aisharenet.com/contribute/ --- ### 排行榜 - Published: 2025-05-26 - Modified: 2025-05-26 - URL: https://aisharenet.com/rankings/ --- ### 我要投稿 - Published: 2025-02-03 - Modified: 2025-02-03 - URL: https://aisharenet.com/woyaotougao/ --- ### 找回密码 - Published: 2025-02-03 - Modified: 2025-02-03 - URL: https://aisharenet.com/zhaohuimima/ --- ### 会员中心 - Published: 2025-02-03 - Modified: 2025-02-03 - URL: https://aisharenet.com/huiyuanzhongxin/ --- ### Privacy Policy - Published: 2025-01-30 - Modified: 2025-01-31 - URL: https://aisharenet.com/privacy-policy/ 1. Introduction We respect your privacy and are committed to complying with applicable privacy laws, including the General Data Protection Regulation (GDPR). This policy explains how we collect, use, and protect your data when you visit our website. ... --- ### 精选AI工具列表 - Published: 2024-09-24 - Modified: 2025-05-26 - URL: https://aisharenet.com/tuijiangongju/ --- ### 工具分类 - Published: 2024-09-24 - Modified: 2025-05-26 - URL: https://aisharenet.com/tooltag/ --- --- ## 文章 ### GLM-OCR - 智谱开源的 0.9B 轻量级专业 OCR 模型 - Published: 2026-02-03 - Modified: 2026-02-03 - URL: https://aisharenet.com/glm-ocr/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 GLM-OCR是什么 GLM-OCR 是智谱开源的 0. 9B 轻量级专业 OCR 模型,在 OmniDocBench V1. 5 以 94. 6 分刷新 SOTA。兼顾“小体积”与“全场景”,扫描、手写、印章、多语混排、复杂表格(直接输出 HTML)、票据卡证(标准 JSON)一网打尽;支持合并单元格、多层表头、代码截图与公式。API 定价 0. 2 元 / 百万 Tokens,千张 A4 成本约 0. 5 元,仅为传统方案十分之一;PDF 吞吐 1. 86 页/秒,图片 0. 67 张/秒,... --- ### Step 3.5 Flash - 阶跃星辰开源的 1960 亿稀疏 MoE 模型 - Published: 2026-02-02 - Modified: 2026-02-02 - URL: https://aisharenet.com/step-35-flash/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Step 3. 5 Flash是什么 Step 3. 5 Flash 是阶跃星辰开源的 1960 亿稀疏 MoE 模型,每 token 仅激活 110 亿参数,能在代码任务跑出 350 token/s 的实时速度。基于自研 MTP-3 多 token 预测与 3:1 混合注意力,把 256 K 长文计算量砍掉 40 %,在 AIME 2025、IMOAnswerBench、LiveCodeBench 等硬核榜单直接对标 GPT-4o,位列前三。更关键的是,生来就是 Agent 基座:函数调用、工... --- ### UnifoLM-VLA-0 - 宇树科技开源的首款操作型大模型 - Published: 2026-02-01 - Modified: 2026-02-01 - URL: https://aisharenet.com/unifolm-vla-0/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 UnifoLM-VLA-0是什么 UnifoLM-VLA-0 是宇树科技 UnifoLM 系列的首款操作型大模型,突破传统视觉语言模型(VLM)仅能理解图像文字的局限,通过在机器人操作数据上的持续预训练,实现从"图文理解"向具备物理常识的"具身大脑"进化。模型基于 Qwen2. 5-VL-7B 开源架构构建,仅利用约 340 小时的真机操作数据,通过融合 2D/3D 空间细节与动力学约束,实现对复杂动作序列的统一建模。在 LIBERO 仿真基准测试中表现接近最优,在真机验证中仅凭单一策略网络即可... --- ### SenseNova-MARS - 商汤科技开源的多模态搜索推理Agent语言模型 - Published: 2026-02-01 - Modified: 2026-02-01 - URL: https://aisharenet.com/sensenova-mars/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 SenseNova-MARS是什么 SenseNova-MARS 是商汤开源的首个支持动态视觉推理与图文搜索深度融合的智能体视觉语言模型(Agentic VLM),提供 8B 和 32B 双版本。模型能自主规划任务步骤、调用多种工具(如图像裁剪、文本/图像搜索),实现"识别—检索—推理"的闭环自主执行。在 MMSearch、HR-MMSearch 等多模态搜索推理基准测试中, SenseNova-MARS 以 69. 74 分 超越 Gemini-3-Pro(69. 06 分)和 GPT-5. ... --- ### MOVA - 创智学院联合模思智能开源的端到端音视频生成模型 - Published: 2026-02-01 - Modified: 2026-02-01 - URL: https://aisharenet.com/mova/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 MOVA是什么 MOVA(MOSS-Video-and-Audio) 是上海创智学院 OpenMOSS 团队联合模思智能(MOSI)开源的端到端音视频生成模型,是中国首个高性能开源音视频模型。突破了传统"先画面后配音"的级联流水线模式,实现真正的"音画同出"——单次推理即可生成最长8秒、最高720p分辨率的同步视听片段,支持多语言口型精准对齐与环境音效生成。 MOVA的功能特色 端到端音视频同步生成:单次推理同时生成视频画面与同步音频,无需后期配音 多语言口型同步:支持多种语言的人物说话视频生成... --- ### LingBot-World - 蚂蚁旗下灵波科技开源的交互式世界模型 - Published: 2026-01-30 - Modified: 2026-01-30 - URL: https://aisharenet.com/lingbot-world/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 LingBot-World是什么 LingBot-World 是蚂蚁集团旗下具身智能公司灵波科技(Robbyant)开源的交互式世界模型,专为具身智能、自动驾驶及游戏开发打造高保真“数字演练场”。模型通过可扩展数据引擎从大规模游戏环境中学习物理规律与因果关系,实现了三项突破:超长一致记忆,支持近10分钟连续稳定生成,即使镜头移开60秒后返回,物体结构与外观仍保持一致,有效解决了视频生成的“长时漂移”难题;毫秒级实时交互,生成吞吐量达16 FPS,端到端延迟控制在1秒以内,用户可通过键盘、鼠标或文... --- ### SkyReels-V3 - 昆仑万维Skywork AI开源的多模态视频生成模型 - Published: 2026-01-30 - Modified: 2026-01-30 - URL: https://aisharenet.com/skyreels-v3/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 SkyReels-V3是什么 SkyReels-V3是昆仑万维Skywork AI开源的多模态视频生成模型,被誉为视频生成领域的"全能型"标杆。模型基于"一核多支"的统一架构,在单一建模框架内集成三大核心能力:参考图像转视频、智能视频延长和音频驱动虚拟形象。V3版本在主体一致性(指标0. 6698)、音视频同步性(得分8. 18)等关键指标上超越Kling 1. 6、Vidu Q2等主流闭源商业模型,支持720P高清、分钟级长视频生成及专业电影级转场效果。 SkyReels-V3的功能特色 参考... --- ### LingBot-Depth - 蚂蚁灵波科技开源的高精度空间感知模型 - Published: 2026-01-29 - Modified: 2026-01-29 - URL: https://aisharenet.com/lingbot-depth/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 LingBot-Depth是什么 LingBot-Depth是蚂蚁灵波科技开源的高精度空间感知模型,专门解决机器人在透明玻璃、反光物体等复杂场景中的深度识别难题。模型通过创新的"掩码深度建模"技术,在RGB图像基础上预测缺失的深度值,能显著提升消费级深度相机的感知精度,在透明杯、反光金属等场景下的抓取成功率从0%提升至50%。 LingBot-Depth的功能特色 首创「掩码深度建模」:训练时随机遮挡深度值,逼模型用 RGB 纹理、轮廓自监督补全,零硬件改动即可把消费级相机变成“透明物体雷达”。... --- ### DeepSeek-OCR 2 - DeepSeek团队开源的新一代OCR模型 - Published: 2026-01-28 - Modified: 2026-01-28 - URL: https://aisharenet.com/deepseek-ocr-2/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 DeepSeek-OCR 2是什么 DeepSeek-OCR 2是DeepSeek团队开源的新一代OCR模型,核心创新在于采用DeepEncoder V2架构,将传统固定栅格扫描的视觉编码方式升级为基于语义推理的动态处理。模型通过因果流查询和双流注意力机制,能按图像内容逻辑自动重排视觉信息,非机械地按空间顺序处理,显著提升了复杂文档(如表格、公式混排)的识别效果。在OmniDocBench v1. 5基准测试中,整体得分达91. 09%,较前代提升3. 73%,尤其在阅读顺序准确率方面表现突出。... --- ### Kimi K2.5 - 月之暗面开源的新一代旗舰模型 - Published: 2026-01-28 - Modified: 2026-01-28 - URL: https://aisharenet.com/kimi-k25/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Kimi K2. 5是什么 Kimi K2. 5 是月之暗面发布的开源旗舰模型,采用 1T MoE 架构、激活 32B、上下文 256K token,原生支持图文视频多模态输入。在 Agent、代码、视觉理解三大基准均列开源第一。前端可截图/录屏一键还原代码与动效;写作推理提供“思考/非思考”双模式;内置 Agent 集群,可动态召唤 100+ 分身并行任务,自动调用浏览器、Office 等工具完成复杂工作流。API 定价输入最低 0. 7 元/百万 token,输出 21 元,成本约为同级闭源... --- ### Moltbot - 开源的本地优先AI助手,支持多渠道与用户交互 - Published: 2026-01-28 - Modified: 2026-01-28 - URL: https://aisharenet.com/moltbot/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Moltbot是什么 Moltbot(原名Clawdbot)是奥地利开发者 Peter Steinberger 开源的“本地优先”AI 助手,WhatsApp、Telegram、Discord、Slack、iMessage 等常用聊天软件变成统一入口,让 AI 代理常驻你的电脑,可读写邮件与日历、执行终端命令、控制浏览器乃至智能家居,能在收到高优邮件时主动私聊提醒。项目采用 Gateway + Agent 架构:Gateway 负责多通道消息路由,Agent 运行本地或远程大模型(支持 Clau... --- ### json-render - Vercel Labs开源的AI生成UI的工具 - Published: 2026-01-26 - Modified: 2026-01-26 - URL: https://aisharenet.com/json-render/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 json-render是什么 json-render是Vercel Labs开源的AI生成UI的工具,通过“AI → JSON → UI”的流程实现结构化、可控的界面生成。要求AI仅输出符合预定义Schema的JSON数据,前端再根据数据渲染已有组件,解决了传统AI生成UI不可控的问题。核心机制包括:定义组件目录(catalog)约束可用组件及属性,流式处理JSON增量更新UI,支持导出为标准React代码。 json-render的功能特色 组件目录定义:通过定义组件目录,约束 AI 输出,确... --- ### FlowAct-R1 - 字节跳动开源的实时交互数字人视频生成框架 - Published: 2026-01-24 - Modified: 2026-01-24 - URL: https://aisharenet.com/flowact-r1/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 FlowAct-R1是什么 FlowAct-R1是字节跳动开源的实时交互数字人视频生成框架,能通过单张参考图和音频流式生成无限时长的高保真全身动态视频。核心创新在于分块流式生成技术,将视频拆解为0. 5秒一小段接力处理,配合结构化记忆库(短期/长期记忆队列)确保长时一致性,同时采用多模态指令控制表情与动作。相比传统方案,实现了1. 5秒首帧延迟、25fps实时响应,能模拟思考、倾听等自然状态切换,通过用户测试在动作自然度等维度大幅领先竞品。 FlowAct-R1的功能特色 实时流式生成:基于 M... --- ### VibeVoice-ASR - 微软开源的统一语音转文本(ASR)模型 - Published: 2026-01-24 - Modified: 2026-01-24 - URL: https://aisharenet.com/vibevoice-asr/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 VibeVoice-ASR是什么 VibeVoice-ASR是微软开源的统一语音转文本(ASR)模型,专为处理长音频设计,可一次性处理长达60分钟的连续音频,确保语义连贯性和说话人追踪的一致性。支持自定义热词功能,用户可输入特定词汇或术语,显著提升专业领域内容的识别准确率。VibeVoice-ASR能生成结构化的转录结果,包含说话人身份、时间戳和文本内容,方便用户快速定位和查阅。 VibeVoice-ASR的功能特色 长音频处理能力:支持单次处理长达60分钟的连续音频,无需切片,可保持全局语境连... --- ### Qwen3-TTS - 阿里云千问团队开源的语音合成模型系列 - Published: 2026-01-23 - Modified: 2026-01-23 - URL: https://aisharenet.com/qwen3-tts/ - 分类目录: 课程资料 - 内容可见性: 所有人可见 Qwen3-TTS是什么 Qwen3-TTS是阿里云千问团队开源的语音合成模型系列,支持10种主流语言及方言的音色克隆、创造和拟人化语音生成。模型采用创新的双轨流式架构,首包延迟仅97毫秒,具备自然语言指令控制音色、情感和语调的能力。开源版本包含1. 7B和0. 6B两种参数规模,其中1. 7B版本支持全参数微调,可在单张RTX 3060显卡上完成音色克隆训练;0. 6B版本兼顾性能与效率,适合消费级硬件部署。模型已通过GitHub、Hugging Face和阿里云ModelScope平台开源,... --- ### Chroma 1.0 - FlashLabs开源的全球首个实时端到端语音对话模型 - Published: 2026-01-23 - Modified: 2026-01-23 - URL: https://aisharenet.com/chroma-10/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Chroma 1. 0是什么 Chroma 1. 0是FlashLabs发布的全球首个开源的实时端到端语音对话模型,兼具低延迟交互、高保真个性化语音克隆和强对话能力。通过紧密耦合语音理解与生成,采用1:2文本-音频token调度策略,实现亚秒级延迟输出。仅需几秒参考音频,能高度还原说话人的音色特征,其speaker相似度比人类基线高出10. 96%。模型仅4B参数,在推理和口语对话任务中表现优异,兼顾效率与性能。 Chroma 1. 0的功能特色 实时性:端到端延迟低于1秒,支持亚秒级实时语音交... --- ### AgentCPM-Report - 清华联合面壁智能等开源的深度调研智能体工具 - Published: 2026-01-23 - Modified: 2026-01-23 - URL: https://aisharenet.com/agentcpm-report/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 AgentCPM-Report是什么 AgentCPM-Report 是清华大学自然语言处理实验室、中国人民大学、面壁智能与 OpenBMB 开源社区联合研发的深度调研智能体工具。基于 8 亿参数的模型,通过深度检索和推理,能生成万字长篇深度报告。工具支持本地化部署,数据存储在本地,不上传云端,确保数据安全,特别适合处理涉密或敏感数据的场景。 AgentCPM-Report的功能特色 深度报告生成能力:AgentCPM-Report 能基于用户指令,通过多轮深度检索和推理,生成逻辑严谨、内容深刻... --- ### EmbodiChain - 跨维智能推出的开源具身智能开发平台 - Published: 2026-01-21 - Modified: 2026-01-21 - URL: https://aisharenet.com/embodichain/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 EmbodiChain是什么 EmbodiChain是跨维智能推出的开源具身智能开发平台,专注于解决具身智能模型训练中数据稀缺的问题。通过数据引擎实现大规模场景相关数据生成、Real2Sim 数据轨迹映射和多模态数据扩增,从根本上突破了真实数据采集的高成本与多样性瓶颈。平台内置的 Sim2Real VLA 基础模型,覆盖多种典型操作任务,支持高保真 GPU 仿真,具备刚体和可变形物体的物理仿真能力,以及先进的光线追踪传感器,所有操作均通过 GPU 加速,实现高吞吐量的批量仿真。 EmbodiCh... --- ### Step3-VL-10B - 阶跃星辰开源的100亿参数多模态AI模型 - Published: 2026-01-21 - Modified: 2026-01-21 - URL: https://aisharenet.com/step3-vl-10b/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Step3-VL-10B是什么 Step3-VL-10B是阶跃星辰团队开源的100亿参数多模态AI模型,核心突破在于以轻量化设计实现顶级性能。模型通过统一预训练策略(1. 2T多模态令牌数据)和创新的并行协同推理技术(PACORE),在数学竞赛、GUI交互等复杂任务上超越了参数规模20倍的大模型(如Gemini 2. 5 Pro),同时支持移动端部署。关键技术包括语言优化型感知编码器、多裁剪策略图像处理(728×728全局视图+504×504局部视图)及超千次强化学习迭代,开源资源包含Base和... --- ### PersonaPlex - 英伟达开源的全双工语音对话模型 - Published: 2026-01-20 - Modified: 2026-01-20 - URL: https://aisharenet.com/personaplex/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 PersonaPlex是什么 PersonaPlex是英伟达开源的全双工语音对话模型,拥有70亿参数。摒弃了传统的语音识别→语言模型→文本到语音的级联流程,采用统一的Transformer架构,能同步处理语音理解与生成。模型支持全双工交互,用户可以在AI说话时随时插话,实现极速响应。支持深度个性化,用户可以定制AI的角色性格、业务知识及情感音色。PersonaPlex能自然地处理打断、重叠语音、快速轮转及上下文感知的反馈,对话流畅度和任务达成率更高。 PersonaPlex的功能特色 全双工交互... --- ### GLM-4.7-Flash - 智谱开源的混合专家架构语言模型 - Published: 2026-01-20 - Modified: 2026-01-20 - URL: https://aisharenet.com/glm-47-flash/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 GLM-4. 7-Flash是什么 GLM-4. 7-Flash是智谱开源的混合专家架构语言模型,参数规模为30B,激活参数量3B,上下文窗口达200K,最大输出令牌为128K。在编程能力上表现出色,SWE-bench验证集分数达59. 2,任务执行能力强,AIME 25、GPQA、LCB v6等任务得分分别为91. 6、75. 2、64. 0,高负载下错误率仅0. 3%,一致性达96. 7%。模型采用多阶段思考机制,支持轻量化部署,适用于本地编程、智能体任务和工具调用等场景,是30B级别中的性... --- ### NovaSR - 开源的音频超分辨率模型,提升音频采样率 - Published: 2026-01-20 - Modified: 2026-01-20 - URL: https://aisharenet.com/novasr/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 NovaSR是什么 NovaSR是开源的音频超分辨率模型,主要用于将低质量音频(如16kHz采样率的电话音质)提升为高质量音频(如48kHz采样率的录音室级音质)。模型大小仅52KB,比一张微信表情包还小,可轻松部署在资源受限的设备(如TWS耳机芯片、智能手表、手机NPU/CPU等),实现端侧音频增强,无需依赖服务器GPU。处理速度极快,在单张A100 GPU上可达到3600倍实时处理速度,即1秒内可处理1小时音频。即使在手机等低性能设备上运行,也几乎不产生延迟且耗电量极低,适合实时音频处理场景... --- ### FLUX.2 [klein] - Black Forest Labs 开源的轻量级图像生成与编辑模型 - Published: 2026-01-19 - Modified: 2026-01-19 - URL: https://aisharenet.com/flux2-klein/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 FLUX. 2 是什么 FLUX. 2 是 Black Forest Labs 推出的开源轻量级图像生成与编辑模型,专为快速推理和低延迟应用场景设计。支持文本生成图像、图像编辑以及多参考图像生成,能在不到1秒内完成高质量图像生成。模型分为 4B 和 9B 两种参数版本,其中 4B 版本仅需 13GB 显存,适配主流消费级 GPU。其蒸馏版本通过 4 步推理实现极快的速度,适合交互式应用和实时预览。FLUX. 2 的图像质量出色,具备精准的光影效果、清晰的文字渲染和材质真实感。 FLUX. 2 的... --- ### TranslateGemma - 谷歌开源的机器翻译模型系列 - Published: 2026-01-19 - Modified: 2026-01-19 - URL: https://aisharenet.com/translategemma/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 TranslateGemma是什么 TranslateGemma是谷歌开源的基于Gemma 3的机器翻译模型系列,专为提升翻译质量而设计。通过两阶段微调(监督微调和强化学习)优化翻译效果,提供4B、12B、27B三种参数规模,支持55种核心语言及多模态图像翻译。4B模型可在手机等边缘设备运行,12B模型适配消费级笔记本,27B模型追求极致质量。支持55种核心语言,适合跨语言交流与研究。 TranslateGemma的功能特色 多语言翻译:支持55种语言的互译,涵盖高资源和低资源语言。 多模态翻译... --- ### OpenWork - 开源AI Agent工作流桌面应用,Claude Cowork的免费平替 - Published: 2026-01-18 - Modified: 2026-01-18 - URL: https://aisharenet.com/openwork/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 OpenWork是什么 OpenWork是开源的智能代理工作流桌面应用,作为Claude Cowork的免费替代品,提供可视化操作界面和本地化运行能力。项目采用Tauri+Rust+Node. js技术栈,支持技能插件扩展和模板复用,具备权限审批机制保障数据安全。目前最新版本为0. 1. 9,已发布macOS、Windows安装包,可通过BYOK(自带API Key)方式接入OpenAI或Anthropic模型。核心优势在于将复杂AI代理操作转化为拖拽式工作流,适合知识工作者处理文件整理、文档生... --- ### ArenaRL - 高德地图联合阿里通义开源的对比式强化学习方法 - Published: 2026-01-18 - Modified: 2026-01-18 - URL: https://aisharenet.com/arenarl/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 ArenaRL是什么 ArenaRL是高德地图与阿里通义团队联合开源的对比式强化学习方法,专为解决开放域任务(如出行规划)中缺乏标准答案的问题。核心创新在于用“相对排序”替代传统“绝对打分”机制,通过智能体自动生成多套方案并相互淘汰(类似体育赛事),在模糊需求(如“适合亲子游且性价比高”)中持续优化解空间。法已开源配套训练框架,适用于无标准解但可比较的任务场景,显著提升了高德在POI排序和开放式出行规划等业务指标。 ArenaRL的功能特色 解决开放域任务中的判别崩溃问题:通过引入基于锦标赛的相... --- ### Step-Audio-R1.1 - 阶跃星辰开源的全球首个原生语音推理模型 - Published: 2026-01-15 - Modified: 2026-01-15 - URL: https://aisharenet.com/step-audio-r11/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Step-Audio-R1. 1是什么 Step-Audio-R1. 1是阶跃星辰开源的全球首个原生语音推理模型,最新升级版本在权威评测榜单Artificial Analysis Speech Reasoning中以96. 4%准确率登顶。模型通过创新的模态锚定推理蒸馏(MGRA)框架,直接基于声学特征(如音调、节奏)进行多步逻辑推理,解决了传统音频模型依赖文本转录导致的“想越多错越多”问题。核心能力包括实时语音理解、复杂场景(如环境音分析)推理,支持端到端无延迟响应,性能超越Gemini、GP... --- ### OctoCodingBench - MiniMax开源面向Coding Agent标准的评测集 - Published: 2026-01-15 - Modified: 2026-01-15 - URL: https://aisharenet.com/octocodingbench/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 OctoCodingBench是什么 OctoCodingBench是MiniMax开源的首个面向Coding Agent生产级标准的评测集,核心创新在于通过Check-level准确率(CSR)和Instance-level成功率(ISR)双维度,评估AI在编码过程中的规范遵循能力。评测集包含72个真实开发场景实例,涵盖系统提示、用户指令、工具调用等七类规则冲突处理,平均每个任务设置33. 6个检查点。 OctoCodingBench的功能特色 指令遵循测试:评估智能体对不同来源指令的遵循能力... --- ### GLM-Image - 智谱联合华为开源的多模态图像生成模型 - Published: 2026-01-14 - Modified: 2026-01-14 - URL: https://aisharenet.com/glm-image/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 GLM-Image是什么 GLM-Image是智谱与华为联合开源的多模态图像生成模型,基于昇腾Atlas 800T A2芯片和昇思MindSpore框架训练,采用创新的"自回归+扩散解码器"混合架构。核心突破在于实现了国产芯片全流程训练,并支持从1024x1024到2048x2048分辨率的自适应生成,尤其擅长海报、PPT等知识密集型场景的文字渲染。API调用成本低至0. 1元/张,已开源并提供在线体验,适用于科普插画、商业海报等复杂图文任务。 GLM-Image的功能特色 生成高质量图像:能根... --- ### Baichuan-M3 - 百川智能开源的新一代医疗大语言模型 - Published: 2026-01-14 - Modified: 2026-01-14 - URL: https://aisharenet.com/baichuan-m3/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Baichuan-M3是什么 Baichuan-M3是百川智能推出的新一代开源医疗大语言模型,专为医疗场景深度优化,具备强大的医疗推理和问诊能力。在权威的HealthBench评测中以65. 1分的综合成绩位列全球第一,超越了GPT-5. 2等顶尖模型,同时医疗幻觉率仅为3. 5%,是目前全球最低水平,确保了输出信息的高度可靠性和安全性。Baichuan-M3首次实现了“端到端”严肃问诊能力,能像医生一样主动追问关键病史和风险信号,完整收集患者信息,问诊能力显著优于真人医生平均水平。融合了海量医... --- ### 女娲智能体OS - 西南财经开源的通用智能体操作系统 - Published: 2026-01-13 - Modified: 2026-01-13 - URL: https://aisharenet.com/nuwax-agent-os/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 女娲智能体OS是什么 女娲智能体OS(Nuwax Agent OS)是西南财经大学赵宇教授团队推出的全球首个开源通用智能体操作系统。具备自主执行引擎,可实现从需求拆解到任务规划与执行的全链路自动化。系统支持可视化工作流编排和多元插件集成,能快速搭建智能应用。沙箱安全机制确保企业数据安全,支持私有化部署和云端服务。提供智能体电脑,为智能体提供独立执行环境。女娲智能体OS成为企业数字化转型的自主执行者。 女娲智能体OS的功能特色 自主执行引擎:能实现从需求智能拆解、任务自主规划到执行结果落地的全链路... --- ### Nemotron Speech ASR - 英伟达开源的实时语音识别模型 - Published: 2026-01-13 - Modified: 2026-01-13 - URL: https://aisharenet.com/nemotron-speech-asr/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Nemotron Speech ASR是什么 Nemotron Speech ASR是英伟达开源的实时语音识别模型,专为低延迟场景优化,支持24毫秒极速转录和多人并发对话。核心采用混合Mamba-Transformer MoE架构,通过固定状态缓存和专家模块并行处理实现超低延迟,比同类模型快10倍。已应用于博世智能座舱、实时会议字幕等场景,可在Hugging Face平台获取开源代码。模型填补了多说话人实时交互的技术空白,显著提升语音智能体的响应速度与稳定性。 Nemotron Speech A... --- ### Qwen3-VL-Reranker - 阿里巴巴推出的多模态重排序模型 - Published: 2026-01-11 - Modified: 2026-01-11 - URL: https://aisharenet.com/qwen3-vl-reranker/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Qwen3-VL-Reranker是什么 Qwen3-VL-Reranker是阿里巴巴推出的多模态重排序模型,专门用于提升跨模态检索的精准度。与Qwen3-VL-Embedding协同工作:前者负责快速召回候选结果,后者通过深度跨模态交互(如交叉注意力机制)对结果进行精细打分重排序。模型支持文本、图像、视频等混合模态输入,采用单塔架构输出相关性概率,解决了传统方法中"相似但不相关"内容的区分难题。在电商、科研文献等实际场景中,其性能显著优于同类模型,尤其在MMEB-V2基准测试中8B版本达到86... --- ### Qwen3-VL-Embedding - 阿里通义团队开源的多模态嵌入模型 - Published: 2026-01-09 - Modified: 2026-01-09 - URL: https://aisharenet.com/qwen3-vl-embedding/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Qwen3-VL-Embedding是什么 Qwen3-VL-Embedding是阿里通义团队开源的多模态嵌入模型,属于Qwen3-VL系列,主要用于跨模态检索任务。模型将文本、图像、视频等不同模态数据映射到同一语义空间,通过双塔架构生成向量表示,支持高效相似度计算。核心优势在于采用三阶段训练策略(对比预训练、多任务微调、蒸馏融合),并利用Qwen3-VL-32B大模型合成3亿+高质量训练数据,显著提升跨模态对齐精度。 Qwen3-VL-Embedding的功能特色 多模态输入支持:支持文本、图... --- ### AntAngelMed - 蚂蚁联合浙江省卫生健康信息中心开源的医疗大模型 - Published: 2026-01-09 - Modified: 2026-01-09 - URL: https://aisharenet.com/antangelmed/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 AntAngelMed是什么 AntAngelMed(蚂蚁·安诊儿医疗大模型)是浙江省卫生健康信息中心、蚂蚁健康、浙江省安诊儿医学人工智能科技有限公司联合开发的开源医疗大模型。模型采用混合专家架构(MoE),总参数量达1000亿,每次推理仅激活61亿参数。训练过程包括持续预训练、监督微调和强化学习三个阶段,在OpenAI的HealthBench和国家人工智能应用中试基地(医疗)的MedAIBench评测中均排名第一。AntAngelMed在H20硬件上推理速度超过200 tokens/s,支持1... --- ### VoiceSculptor - 西北工业大学联合语图智能开源的音色设计模型 - Published: 2026-01-09 - Modified: 2026-01-09 - URL: https://aisharenet.com/voicesculptor/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 VoiceSculptor是什么 VoiceSculptor 是西北工业大学联合多家机构开源的音色设计模型,基于 LLaSA-3B 和 CosyVoice2 开发,专注于通过自然语言指令生成多样化音色的语音合成。支持对语速、音量、基频等属性的细粒度控制,引入了类似 CoT 的推理机制,通过属性 Token 和自然语言指令联合训练,显著提升了模型对指令的理解和执行能力。VoiceSculptor支持检索增强生成,利用 Qwen3-Embedding-0. 6B 模型和 Milvus 向量数据库,对... --- ### 10Kh RealOmni-Open - 简智机器人开源的具身智能数据集 - Published: 2026-01-08 - Modified: 2026-01-08 - URL: https://aisharenet.com/10kh-realomni-open/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 10Kh RealOmni-Open是什么 10Kh RealOmni-Open是简智机器人开源的具身智能数据集,是行业内规模最大的开源具身智能数据集。数据集累计拥有超10000小时数据、100万+片段,覆盖10大场景任务、超过30项技能。数据采集自3000+家庭,具备高画质(1600×1296@30fps)、亚厘米级轨迹精度和多模态信息。其泛化能力强,平均片段时长210秒,能完整记录复杂家务和清洁的全流程。 10Kh RealOmni-Open的功能特色 规模巨大:累计包含超10,000小时数... --- ### Youtu-LLM - 腾讯 Youtu 团队开源的轻量级语言模型 - Published: 2026-01-08 - Modified: 2026-01-08 - URL: https://aisharenet.com/youtu-llm/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Youtu-LLM是什么 Youtu-LLM 是腾讯 Youtu 团队开源的轻量级语言模型,参数规模为 19. 6 亿。专为智能体任务设计,具备强大的“原生智能体能力”,在多项任务中超越同规模甚至更大模型。模型采用紧凑架构和 128K 长上下文窗口,支持长程任务处理,针对 STEM 领域优化词表,提升推理效率。 Youtu-LLM的功能特色 参数规模:模型参数量约为1. 96亿(2B),远小于常见的数十亿或数百亿参数的大模型,适合资源受限场景部署。 架构设计:采用密集多潜在注意力(Dense M... --- ### Genie Sim 3.0 - 智元机器人开源首个大语言模型驱动的仿真平台 - Published: 2026-01-08 - Modified: 2026-01-08 - URL: https://aisharenet.com/genie-sim-30/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Genie Sim 3. 0是什么 Genie Sim 3. 0是智元机器人发布的首个大语言模型驱动的开源仿真平台。基于NVIDIA Isaac Sim构建,融合三维重建、视觉生成技术与物理引擎,实现毫米级精准复刻真实环境,通过自然语言指令在分钟内自动生成、泛化成千上万个训练与测试场景,支持智能编辑与细节调。Genie Sim 3. 0通过“大语言模型驱动+全流程开源”的模式,解决了传统仿真“高成本、低效率、弱泛化”问题,为具身智能研发提供了高效、低成本的解决方案,加速技术从实验室向产业落地的进... --- ### LandPPT - 开源免费的AI PPT生成工具,支持本地部署和云端协作 - Published: 2026-01-07 - Modified: 2026-01-07 - URL: https://aisharenet.com/landppt/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 LandPPT是什么 LandPPT是基于大语言模型的开源AI PPT生成工具,支持通过主题或上传文档(PDF/Word/Excel)一键生成专业演示文稿。集成了多模型驱动、实时联网搜索和AI绘图功能,提供丰富的模板和场景选择(如商务、教育、科技等),支持本地部署和云端协作。用户可通过可视化编辑器调整内容,导出为PDF/PPTX/HTML等格式,适用于企业汇报、学术演讲等场景。项目采用Apache 2. 0协议,可在GitHub下载源码或通过Docker快速部署。 LandPPT的功能特色 一键... --- ### TuriX-CUA - 开源AI桌面自动化工具,AI直接操作电脑桌面 - Published: 2026-01-06 - Modified: 2026-01-06 - URL: https://aisharenet.com/turix-cua/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 TuriX-CUA是什么 TuriX-CUA 是开源的 AI 桌面自动化工具,能通过截屏、多模态模型决策和自动化操作实现电脑交互。让 AI 模型直接操作电脑桌面环境。支持 macOS 和 Windows 系统,通过先进的计算机使用代理(Computer-use Agent)实现任务自动化。用户可以通过修改配置文件轻松切换不同的语言模型,无需编写代码。TuriX-CUA 支持 Model Context Protocol(MCP),能与第三方代理(如 Claude for Desktop)无缝集成... --- ### MiroThinker 1.5 - MiroMind 团队开源的搜索智能体模型 - Published: 2026-01-06 - Modified: 2026-01-06 - URL: https://aisharenet.com/mirothinker-15/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 MiroThinker 1. 5是什么 MiroThinker 1. 5 是 MiroMind 团队开源的搜索智能体模型,基于 Qwen3 系列开发,包含 30B 和 235B 两种参数规模版本。模型采用交互式扩展技术,支持 256K 上下文窗口和单任务 400 次工具调用,在 BrowseComp 等基准测试中刷新开源 Agent 性能记录。模型通过环境反馈优化推理路径,擅长处理长轨迹任务和工具增强推理,已开源至 GitHub 和 Hugging Face 平台,提供在线演示。 MiroThi... --- ### UltraEval-Audio - 清华、OpenBMB联合面壁智能开源的音频模型评测框架 - Published: 2026-01-06 - Modified: 2026-01-06 - URL: https://aisharenet.com/ultraeval-audio/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 UltraEval-Audio是什么 UltraEval-Audio是清华大学NLP实验室、OpenBMB和面壁智能联合开源的音频模型评测框架,最新版本为v1. 1. 0。专注于解决音频模型复现难、依赖冲突等问题,提供一键复现热门模型(如VoxCPM、MiniCPMO2. 6等)的功能,支持TTS、ASR、Codec等专有模型的评测。框架通过隔离推理运行机制避免环境冲突,覆盖语音识别、音乐分类、音频生成等任务,显著提升了研究者的工作效率。 UltraEval-Audio的功能特色 一键复现功能:... --- ### openPangu-VL-7B - 华为开源的7B参数多模态模型 - Published: 2026-01-05 - Modified: 2026-01-05 - URL: https://aisharenet.com/openpangu-vl-7b/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 openPangu-VL-7B是什么 openPangu-VL-7B是华为开源的7B参数规模的多模态模型,专为昇腾端侧设备优化设计。模型在视觉定位、OCR识别、文档理解等任务中表现出色,支持实时推理(5FPS),单卡延迟仅160毫秒。创新点采用零拷贝内存映射技术降低延迟60-75%,支持快慢思维模式切换(通过特殊标记实现),兼顾推理速度与精度。模型经过3T+ tokens预训练,训练阶段MFU达42. 5%,适合部署在Atlas 800T A2等昇腾硬件上,配套提供Kubernetes自动扩缩容... --- ### New API - 开源的AI模型接口管理与分发系统,统一为标准化接口 - Published: 2026-01-05 - Modified: 2026-01-05 - URL: https://aisharenet.com/new-api/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 New API是什么 New API是基于Go语言开发的开源AI聚合网关工具,可统一管理30+种主流大模型(如OpenAI、Claude、Midjourney等),将不同模型接口转换为标准化OpenAI格式。核心功能包括智能路由调度、在线支付集成、推理力度分级(如gpt-4-high/low模式)、多语言界面及企业级权限管控,支持Docker一键部署。最新版本已新增谷歌分析和Umami集成,实现零代码数据追踪。 New API的功能特色 多模型统一网关:支持将GPT-4、Suno、Midjour... --- ### Paper2Any - 北大DCAI团队开源的AI科研与演示文稿生成平台 - Published: 2026-01-05 - Modified: 2026-01-05 - URL: https://aisharenet.com/paper2any/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Paper2Any是什么 Paper2Any是北京大学DCAI课题组开源的多模态辅助平台,专注于从论文PDF、图片和文本中快速生成多种科研内容。具备一键生成科研绘图的功能,能从多种输入源生成模型架构图、技术路线图和实验数据图等,输出可编辑的PPTX文件。Paper2Any可以高效生成演示文稿,支持超长文档处理,内置表格提取与图表解析功能,确保PPT内容的准确性和专业性。支持PDF精准转换,通过智能抠图和版式分析,将PDF文件精准转换为可编辑的PPTX,解决了传统转换中的格式问题。平台提供PPT智... --- ### StoryMem - 字节跳动与南洋理工联合开源的AI视频生成系统 - Published: 2026-01-05 - Modified: 2026-01-05 - URL: https://aisharenet.com/storymem/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 StoryMem是什么 StoryMem是字节跳动与南洋理工大学联合开源的AI视频生成系统,专为解决多场景视频中角色和环境一致性问题。核心通过"视觉记忆库"技术,自动存储关键帧并在后续生成时参考,确保人物外貌、服装、场景元素全程统一。相比基础模型,跨场景一致性提升28. 7%,支持影视、短视频、游戏CG等场景,用户输入分镜头脚本即可生成连贯长视频。提供四种生成模式,兼容WAN2. 2等主流模型,显著降低创作者纠错成本。 StoryMem的功能特色 跨镜头一致性:通过动态记忆机制,确保多镜头视频中... --- ### XVERSE-Ent - 元象科技开源的泛娱乐领域中英大模型 - Published: 2026-01-04 - Modified: 2026-01-04 - URL: https://aisharenet.com/xverse-ent/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 XVERSE-Ent是什么 XVERSE-Ent是元象科技推出的专注于泛娱乐领域的开源大模型,包含中英文双版本,支持社交互动、游戏叙事和文化创作等场景。模型通过角色一致性强化、长剧情理解等技术优化,能在虚拟角色人设稳定性、复杂故事逻辑等方面提供精准支持。核心技术包括MOE热启动技术和多阶段训练策略,兼顾通用能力和领域适配性,同时支持单卡低成本部署。目前已应用于AI社交产品Saylo,助力其在多国市场取得商业成功。 XVERSE-Ent的功能特色 角色一致性:能长期保持虚拟角色的人设、记忆和说话风... --- ### Vibe Kanban - 开源的免费AI编程代理任务管理工具 - Published: 2026-01-04 - Modified: 2026-01-04 - URL: https://aisharenet.com/vibe-kanban/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Vibe Kanban是什么 Vibe Kanban是开源的AI编程代理任务管理工具,专为同时使用多个AI编程助手(如Claude Code、Gemini CLI、Codex等)的开发者设计。通过看板形式统一管理任务进度,支持并行或顺序执行任务,集成Git仓库和AI代理配置,能显著提升开发效率。用户可通过终端指令快速启动,无需付费,适合单人或团队协作使用。 Vibe Kanban的功能特色 多代理支持:兼容多种 AI 编码代理,如 Claude Code、Gemini CLI 和 Codex,用... --- ### Chatterbox-Turbo - Resemble AI开源的文本到语音模型 - Published: 2026-01-03 - Modified: 2026-01-03 - URL: https://aisharenet.com/chatterbox-turbo/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Chatterbox-Turbo是什么 Chatterbox-Turbo 是 Resemble AI 推出的开源文本到语音(TTS)模型,专为高效、低延迟的语音合成而设计。基于350M参数的精简架构,单步推理生成音频,时间延迟极低,在150毫秒以内,非常适合实时语音交互。模型支持非语言标签(如、等),可让语音合成更自然、更具情感。支持零样本语音克隆,仅需5秒参考音频即可克隆出高质量的语音,能保留克隆语音的情感和风格。 Chatterbox-Turbo的功能特色 高效低延迟:基于350M参数的精简... --- ### IQuest-Coder-V1 - 至知创新研究院开源的代码大模型系列 - Published: 2026-01-02 - Modified: 2026-01-02 - URL: https://aisharenet.com/iquest-coder-v1/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 IQuest-Coder-V1是什么 IQuest-Coder-V1是九坤投资旗下至知创新研究院研发的开源代码大模型系列,专注于代码智能领域,具备自动编程、Bug修复和代码解释等能力。模型采用创新的Code-Flow训练范式,从代码库演化模式和Commit记录中学习,原生支持128K Token上下文。40B参数版本在SWE-Bench Verified基准测试中取得81. 4%的成绩,性能领先。模型提供7B、14B和40B三种规模,包含Thinking和Instruct两种变体,部分版本还采用... --- ### 混元Motion1.0 - 腾讯混元团队开源的文本生成3D动作模型 - Published: 2025-12-31 - Modified: 2025-12-31 - URL: https://aisharenet.com/hy-motion10/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 混元Motion1. 0是什么 混元Motion1. 0(HY-Motion1. 0)是腾讯混元团队开源的文本生成3D动作模型,采用10亿参数Diffusion Transformer架构,能通过自然语言描述直接生成高质量3D角色动画。核心优势在于三阶段训练流程:3000小时预训练奠定基础动作认知,400小时高质量数据微调提升精度,最后通过强化学习优化物理合理性。支持Windows/Mac/Linux全平台,提供8GB和4GB两种版本配置,配套ComfyUI插件可实现可视化操作与FBX格式导出,... --- ### 支持向量机(Support Vector Machine)是什么,一文看懂 - Published: 2025-12-31 - Modified: 2025-12-31 - URL: https://aisharenet.com/what-is-svm/ - 分类目录: AI答疑 - 内容可见性: 所有人可见 支持向量机的定义 支持向量机(Support Vector Machine,SVM)是基于统计学习理论的监督学习算法,主要用于分类和回归分析。核心目标是寻找一个最优决策超平面,将不同类别的数据点分开,最大化两类数据点之间的边界距离。最优超平面由少数关键训练样本决定,样本被称为支持向量,位于类别边界上。支持向量机的数学本质是求解一个凸二次规划问题,确保找到全局最优解。算法通过核函数技巧将低维非线性问题映射到高维特征空间,在高维空间中构造线性决策边界。常用核函数包括线性核、多项式核、径向基函数核等,... --- ### Yume1.5 - 上海AI Lab联合复旦大学开源的交互式世界生成模型 - Published: 2025-12-31 - Modified: 2025-12-31 - URL: https://aisharenet.com/yume15/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Yume1. 5是什么 Yume1. 5是开源的交互式世界生成模型,由上海人工智能实验室、复旦大学、上海创新研究院联合开发,能实现实时交互渲染(单卡12 FPS)。采用了联合时空通道建模(TSCM)技术,即使上下文长度增加也能保持稳定采样速度,集成Self-Forcing以加速推理并减少误差累积。模型在世界生成和编辑任务上表现优异,相关论文和开源代码可通过GitHub获取。 Yume1. 5的功能特色 高效实时生成:Yume-1. 5能实现每秒12帧(540p分辨率)的推理速度,将基准生成时间缩... --- ### AutoMV - M-A-P联合北邮、南大等开源的免费音乐视频生成系统 - Published: 2025-12-31 - Modified: 2025-12-31 - URL: https://aisharenet.com/automv/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 AutoMV是什么 AutoMV是M-A-P团队联合多所高校研发的开源音乐视频生成系统,能在无需训练的情况下根据完整歌曲自动生成连贯的MV。采用多智能体协作模式,包含音乐分析、编剧、导演和质检等模块,能精准解析歌词、节拍和歌曲结构,通过角色库确保人物形象一致性。相比传统人工制作(成本约1万美元),AutoMV仅需15美元且30分钟即可生成高质量MV,技术在音画同步、叙事连贯性等方面超越现有商用工具。项目已开源代码并提供Demo展示,适用于独立音乐人、UP主等内容创作者低成本制作专业级MV。 Au... --- ### Tencent-HY-MT1.5 - 腾讯混元开源的翻译模型系列 - Published: 2025-12-30 - Modified: 2025-12-30 - URL: https://aisharenet.com/tencent-hy-mt15/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Tencent-HY-MT1. 5是什么 Tencent-HY-MT1. 5是腾讯混元开源的翻译模型1. 5版本,包含1. 8B和7B两个模型,支持33种国际语言及5种民汉/方言互译。1. 8B模型专为手机等消费级设备优化,仅需1GB内存即可实现端侧离线翻译,处理50个tokens仅耗时0. 18秒,性能超越主流商用API;7B模型为WMT25冠军模型升级版,显著提升翻译准确性。两者可协同部署,已应用于腾讯会议、企业微信等产品,支持术语库定制、长文本理解及格式保留功能。 Tencent-HY-M... --- ### PersonaLive - 澳门大学等开源的实时AI人像动画生成直播框架 - Published: 2025-12-30 - Modified: 2025-12-30 - URL: https://aisharenet.com/personalive/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 PersonaLive是什么 PersonaLive是开源的实时AI换脸直播框架,由澳门大学、dzine. ai和大湾区大学GVC实验室联合开发。能在普通消费级显卡(12GB显存)上实现低延迟、高帧率的数字人驱动,支持通过摄像头实时控制静态照片中的角色表情和动作。核心技术包括混合运动控制、少步外观蒸馏和微块流式生成,显著提升了推理速度(延迟低于100ms),适用于虚拟主播、短视频创作等场景。 PersonaLive的功能特色 实时性与高效性:仅需单张12GB显存的GPU,可以实现实时、可流式传输... --- ### Computer Use Preview - Google开源的AI浏览器自动化工具 - Published: 2025-12-30 - Modified: 2025-12-30 - URL: https://aisharenet.com/computer-use-preview/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Computer Use Preview是什么 Computer Use Preview是Google开源的基于Gemini模型的AI浏览器自动化工具,通过自然语言指令实现网页交互操作。采用"截图→分析→执行"的视觉识别流程,支持Playwright本地和BrowserBase云端两种运行模式,能自动完成搜索、填表单等任务。相比传统Selenium工具,无需手动定位元素,但存在单次操作耗时3-6秒、API调用成本较高的局限。 Computer Use Preview的功能特色 自然语言理解:通过... --- ### ClipSketch AI - 开源的AI视频转手绘分镜工具,支持B站、小红书 - Published: 2025-12-30 - Modified: 2025-12-30 - URL: https://aisharenet.com/clipsketch-ai/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 ClipSketch AI是什么 ClipSketch AI是开源的视频转手绘分镜工具,专为短视频创作者设计。能将B站、小红书等平台的视频一键转换为手绘风格故事板,支持标记关键帧、自动生成分镜和社交文案,能融合用户自定义角色。工具基于Google Gemini多模态模型,需配合API使用,适用于教程拆解、内容二创等场景,显著提升创作效率。开源项目可在GitHub获取,提供本地部署和在线试用两种方式。 ClipSketch AI的功能特色 视频采集与解析:支持导入 Bilibili、小红书等平台的... --- ### MAI-UI - 阿里通义实验室开源的通用GUI智能体基座模型 - Published: 2025-12-29 - Modified: 2025-12-29 - URL: https://aisharenet.com/mai-ui/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 MAI-UI是什么 MAI-UI是阿里巴巴通义实验室开源的通用GUI智能体基座模型,具备跨应用操作、模糊语义理解、主动用户交互和多步骤流程协调四大能力。采用端云协同架构,轻量模型驻守设备处理日常任务,复杂任务可调用云端大模型,同时保障隐私安全。MAI-UI在ScreenSpot-Pro等五个权威评测中全面登顶,尤其在Android任务执行上以76. 7%的成功率刷新纪录。创新点包括主动交互机制(当指令不清时会提问用户)、MCP工具调用(通过API替代繁琐UI操作)以及基于在线强化学习的动态环境适... --- ### MiniMax M2.1 - MiniMax开源的编码和代理模型 - Published: 2025-12-29 - Modified: 2025-12-29 - URL: https://aisharenet.com/minimax-m21/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 MiniMax M2. 1是什么 MiniMax M2. 1 是MiniMax开源的编码和代理模型,拥有100亿激活量,支持多种主流编程语言,如 Rust、Java、Golang、C++、Kotlin、Objective-C、TypeScript 和 JavaScript 等。在多语言编程方面表现出色,特别是在 SWE-bench Multilingual 测试中,得分为 72. 5%,超越了同类竞争对手。重点强化了对非 Python 语言的支持,提升原生 Android/iOS 开发及 Web... --- ### 评估指标(Evaluation Metrics)是什么,一文看懂 - Published: 2025-12-29 - Modified: 2025-12-29 - URL: https://aisharenet.com/what-is-evaluation-metrics/ - 分类目录: AI答疑 - 内容可见性: 所有人可见 评估指标的定义 评估指标(Evaluation Metrics)是衡量机器学习模型性能的量化标准体系,如同多维体检报告全面评估人体健康状况。在分类任务中,准确率(Accuracy)反映模型整体判断正确率,精确率(Precision)关注预测为正例的准确性,召回率(Recall)衡量正例被找出的完整程度,F1分数(F1-Score)平衡精确率与召回率的综合表现,AUC-ROC评估模型在不同阈值下的整体分类能力。这些指标从不同角度揭示模型特性:准确率提供直观性能概览,精确率-召回率组合适用于非对称代... --- ### 神经网络架构搜索(Neural Architecture Search)是什么,一文看懂 - Published: 2025-12-29 - Modified: 2025-12-29 - URL: https://aisharenet.com/what-is-nas/ - 分类目录: AI答疑 - 内容可见性: 所有人可见 神经网络架构搜索的定义 神经网络架构搜索(Neural Architecture Search,NAS)代表人工智能领域一个前沿分支,专注于自动化设计神经网络的结构。传统神经网络设计依赖专家经验,研究人员手动调整层数、节点连接方式等参数,过程耗时且易受主观局限。NAS引入自动化机制,将架构设计转化为一个可搜索的优化问题。核心思想是构建一个搜索空间,包含所有可能网络架构的集合,再通过特定算法探索这个空间,寻找在给定任务上性能最优的结构。搜索过程涉及三个关键组件:搜索空间定义、搜索策略选择以及性能评... --- ### InstanceAssemble - 小红书联合复旦大学开源的布局控制生成技术 - Published: 2025-12-29 - Modified: 2025-12-29 - URL: https://aisharenet.com/instanceassemble/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 InstanceAssemble是什么 InstanceAssemble是小红书和复旦大学联合开源的布局控制生成技术,通过“实例组装注意力”机制,实现了从简单到复杂、从稀疏到密集布局的精准图像生成。采用两阶段级联架构,先生成图像背景,再逐个整合布局中的实例信息。使用独立注意力机制,避免不同实例间的干扰,能有效处理复杂布局,如重叠或小物体。InstanceAssemble通过LoRA模块进行轻量级适配,仅需增加少量参数,无需重新训练整个模型,大大降低了计算成本,同时提升了推理速度。支持多模态输入,... --- ### 条件生成对抗网络(Conditional Generative Adversarial Network)是什么,一文看懂 - Published: 2025-12-29 - Modified: 2025-12-29 - URL: https://aisharenet.com/what-is-cgan/ - 分类目录: AI答疑 - 内容可见性: 所有人可见 条件生成对抗网络的定义 条件生成对抗网络(Conditional Generative Adversarial Network, CGAN)是生成对抗网络的重要变体,在2014年由Mehdi Mirza等人提出。与传统生成对抗网络不同,CGAN通过引入条件信息来控制生成过程。这个条件信息可以是类别标签、文本描述或其他模态数据。 CGAN包含两个核心组件:生成器和判别器。生成器负责根据条件信息生成假样本,判别器则接收真实样本和条件信息,判断样本真伪。这种条件机制的加入使CGAN能实现定向生成,提升... --- ### Zen Browser - 基于Firefox内核的开源AI网页浏览器 - Published: 2025-12-27 - Modified: 2025-12-27 - URL: https://aisharenet.com/zen-browser/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Zen Browser是什么 Zen Browser是基于Firefox内核的开源浏览器,主打简洁高效的浏览体验,核心特色是垂直标签栏和工作区隔离功能。采用侧边栏设计,能清晰展示50+个标签页的完整标题,支持多窗口分屏浏览。相比Chrome,Zen内存占用更低(同等场景节省40%),内置广告拦截和隐私保护功能。目前支持Windows、macOS和Linux系统,安装包约70MB,可通过GitHub下载最新版本。 Zen Browser的功能特色 隐私保护:内置广告和追踪器拦截功能,阻止广告、追踪... --- ### QwenLong-L1.5 - 阿里通义实验室开源的长文本推理模型 - Published: 2025-12-26 - Modified: 2025-12-26 - URL: https://aisharenet.com/qwenlong-l15/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 QwenLong-L1. 5是什么 QwenLong-L1. 5是阿里巴巴通义实验室开源的长文本推理模型,专注于解决超长上下文(如1M-4M tokens)的复杂推理问题。核心突破在于后训练阶段的三大创新:通过知识图谱、SQL解析和多智能体框架生成高质量多跳推理数据;提出自适应熵控策略AEPo,动态平衡训练稳定性;设计内存代理架构,分块处理超长文本并实时更新记忆摘要。模型在LongBench-V2等榜单上超越GPT-5和Gemini-2. 5-Pro,尤其在超长文本任务中表现突出,同时提升了数学... --- ### Infographic - 阿里AntV团队开源的信息图生成框架 - Published: 2025-12-26 - Modified: 2025-12-26 - URL: https://aisharenet.com/infographic/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Infographic是什么 Infographic是阿里AntV团队开源的新一代框架,基于G2和Ant Design开发,专注于快速生成高质量信息图,提供30+布局模板、120+预设主题及AI智能生成功能。特色在于通过声明式语法实现“所想即所得”,支持动态数据绑定和服务器端渲染,适合PPT、报告等场景快速制作可视化内容。与AI生图工具相比,框架强调稳定性与可控性,同时开放API便于集成到业务系统。 Infographic的功能特色 丰富的模板库:提供约200个内置信息图模板,涵盖多种常见场景和... --- ### opcode - 专为Claude Code设计的开源图形化桌面应用 - Published: 2025-12-25 - Modified: 2025-12-25 - URL: https://aisharenet.com/opcode/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 opcode是什么 opcode是专为Claude Code设计的开源图形化桌面应用,开发者winfunc基于Tauri 2 + React 18 + Rust开发。提供可视化界面管理Claude Code项目,支持创建Agent、查看会话历史、追踪API使用情况等功能,所有数据本地运行保障隐私安全。特色包括时间轴式会话管理、成本统计面板、多Agent并发执行等,显著提升Claude Code的使用体验。目前支持macOS和Linux平台。 opcode的功能特色 项目与会话管理 :自动识别项目... --- ### TurboDiffusion - 生数科技联合清华等开源的视频生成加速框架 - Published: 2025-12-24 - Modified: 2025-12-24 - URL: https://aisharenet.com/turbodiffusion/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 TurboDiffusion是什么 TurboDiffusion是清华大学、生数科技和加州大学伯克利分校联合开源的视频生成加速框架,能在保持画质几乎无损的情况下,将视频生成速度提升100-200倍。通过稀疏线性注意力、采样步数蒸馏和8位量化等创新手段,实现在单张RTX 5090显卡上1. 8秒生成5秒高清视频。核心突破在于将传统视频扩散模型的二次方计算复杂度降至线性,解决了行业长期存在的效率瓶颈,被Meta、OpenAI等机构关注,被誉为视频大模型的"DeepSeek时刻"。目前已开源并应用于V... --- ### MedASR - 谷歌开源的医疗语音识别模型 - Published: 2025-12-24 - Modified: 2025-12-24 - URL: https://aisharenet.com/medasr/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 MedASR是什么 MedASR是谷歌开源的1. 05亿参数医疗语音识别模型,在5000小时脱敏临床语料上微调,针对药品、剂量、解剖术语优化,内置6-gram医学语言模型,在私有放射科数据集RAD-DICT上词错率仅4. 6%,比Whisper v3 Large降低约60%。模型采用Conformer架构,单张消费级GPU即可微调,支持16kHz单声道输入,提供Hugging Face一键下载、Vertex AI在线部署及本地微调 notebook,遵循Google Health AI合规条款,... --- ### Fun-Audio-Chat-8B - 阿里通义开源的端到端语音交互大模型 - Published: 2025-12-24 - Modified: 2025-12-24 - URL: https://aisharenet.com/fun-audio-chat-8b/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Fun-Audio-Chat-8B是什么 Fun-Audio-Chat-8B是阿里通义团队开源的80亿参数端到端语音大模型,直接语音进语音出,无需ASR+LLM+TTS拼接,中文英文双语流利,延迟低、音色自然。采用双分辨率共享LLM与25Hz高保真语音解码,GPU开销降一半;Core-Cocktail两阶段训练先注入语音能力再融合文本参数,抑制遗忘;多任务偏好对齐让模型能听情绪、懂指令。在OpenAudioBench、VoiceBench等十余项权威榜单位列同尺寸第一,可一键部署做语音聊天、情感... --- ### PromptFill - 开源的结构化提示词生成AI工具,专为AI绘画设计 - Published: 2025-12-24 - Modified: 2025-12-24 - URL: https://aisharenet.com/promptfill/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 PromptFill是什么 PromptFill是专为AI绘画设计的结构化提示词生成工具,通过可视化的“填空”交互方式,帮助用户快速构建、管理和迭代复杂的Prompt,提升AI图像生成的效率与质量。PromptFill的核心功能包括结构化Prompt引擎、动态词库系统、高清社交分享、模板/版本感知以及纯本地存储等。解决了AI绘画中提示词难记忆、难管理、修改繁琐的问题,让创作变得像“填空”一样简单。PromptFill适用于多种场景,如概念艺术、角色设计、摄影网格等,支持A/B测试和词库管理,方便... --- ### GLM-4.7 - 智谱AI开源的最新一代旗舰大模型 - Published: 2025-12-23 - Modified: 2025-12-23 - URL: https://aisharenet.com/glm-47/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 GLM-4. 7是什么 GLM-4. 7是智谱AI发布并开源的最新一代旗舰大模型,主要针对AI编程、复杂推理和智能体任务进行了深度优化。模型支持200k上下文长度和128k最大输出,具备多语言编码、长程任务规划和工具协同能力,在SWE-Bench、Terminal Bench等基准测试中表现优异。已集成至Claude Code等主流AI编码工具,通过Z. AI平台提供API服务,支持Python SDK等多种调用方式。相比前代模型,GLM-4. 7在多语言编程、UI生成和复杂问题协作方面有显著提... --- ### NitroGen - 英伟达联合斯坦福大学、加州理工等开源的游戏AI模型 - Published: 2025-12-22 - Modified: 2025-12-22 - URL: https://aisharenet.com/nitrogen/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 NitroGen是什么 NitroGen是英伟达联合斯坦福大学、加州理工学院等机构研发的开源游戏AI模型,能玩转超1000款不同类型游戏。模型基于GROOT N1. 5架构,通过分析4万小时游戏视频数据(含手柄操作标注),实现从零样本游戏到快速迁移新游戏的能力。创新点在于采用扩散Transformer技术直接从像素输入生成动作指令,支持通过Gymnasium API适配各类游戏。测试显示,NitroGen在未微调状态下仍能完成非平凡任务,迁移学习时任务成功率提升达52%,未来有望应用于机器人等具... --- ### Qwen-Image-Layered - 阿里团队开源的AI图像编辑模型 - Published: 2025-12-21 - Modified: 2025-12-21 - URL: https://aisharenet.com/qwen-image-layered/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Qwen-Image-Layered是什么 Qwen-Image-Layered是阿里团队开源的AI图像编辑模型,能将普通图片智能分解为独立的透明图层,实现类似Photoshop的精准编辑。模型采用Apache 2. 0协议开源,支持灵活控制图层数量(3-10层),能无限递归拆分细节。核心技术包括统一的图片-分层翻译机制、位置编码和渐进式训练策略,显著提升了透明度还原精度(0. 916)。用户可通过GitHub获取代码,或在Hugging Face平台体验在线Demo。 Qwen-Image-L... --- ### VTP - MiniMax海螺视频团队开源的视觉生成模型技术 - Published: 2025-12-21 - Modified: 2025-12-21 - URL: https://aisharenet.com/vtp/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 VTP是什么 VTP(Visual Tokenizer Pre-training)是MiniMax海螺视频团队提出的视觉生成模型关键技术,通过改进视觉分词器(tokenizer)的预训练方法提升生成系统性能。传统方法中,tokenizer仅关注图像重建,但VTP创新性地引入语义理解能力,成为生成质量的核心驱动因素。框架采用Vision Transformer架构,通过两阶段训练策略(预训练阶段优化表征学习,微调阶段提升画质)和多任务目标(重建、自监督、图文对比),首次实现tokenizer的规模... --- ### T5Gemma 2 - 谷歌开源的新一代编码器-解码器模型 - Published: 2025-12-20 - Modified: 2025-12-20 - URL: https://aisharenet.com/t5gemma-2/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 T5Gemma 2是什么 T5Gemma 2 是谷歌开源的新一代编码器 - 解码器模型,基于 Gemma 3 架构升级而来,具备多模态和长上下文处理能力。支持文本和图像等多种数据类型,能处理超长上下文(最高 128K),在生成质量上显著优于前代模型。模型采用词嵌入绑定和合并注意力等创新架构,有效降低参数量并提升效率,同时开箱即用支持 140 多种语言。在多模态、长上下文处理、代码生成、推理和多语言等任务上,T5Gemma 2 均展现出卓越性能,超越了对应规模的 Gemma 3 模型。 T5Gem... --- ### FunctionGemma - 谷歌开源专为函数调用优化的轻量级AI模型 - Published: 2025-12-20 - Modified: 2025-12-20 - URL: https://aisharenet.com/functiongemma/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 FunctionGemma是什么 FunctionGemma是谷歌推出的专为函数调用优化的轻量级AI模型,基于2. 7亿参数的Gemma 3基础模型开发,可在手机、浏览器等设备上实时将自然语言转换为可执行API指令。核心特点是支持本地离线运行,能精准识别用户指令并生成结构化函数调用,例如“创建日历事件”或“控制游戏元素”,准确率经微调可达85%。模型已开源,支持Hugging Face等平台调优,适用于移动应用、游戏和IoT设备的智能交互场景,显著降低云端依赖和数据隐私风险。 FunctionG... --- ### SHARP - 苹果开源的单目视图3D场景合成技术 - Published: 2025-12-20 - Modified: 2025-12-20 - URL: https://aisharenet.com/sharp/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 SHARP是什么 SHARP(Sharp Monocular View Synthesis in Less Than a Second)是苹果开源的单目视图合成技术。能从单张照片快速生成逼真的3D场景表示,仅需不到一秒即可完成。SHARP通过神经网络将输入图像转化为3D高斯表示,这种表示支持实时渲染,可生成高分辨率、细节丰富的图像,并且具备绝对尺度,支持度量相机运动。 SHARP的功能特色 快速合成:从单张照片生成3D场景表示仅需不到一秒,速度提升显著。 高分辨率渲染:支持高分辨率、细节丰富的图... --- ### TRELLIS.2 - 微软开源的大型3D生成模型 - Published: 2025-12-20 - Modified: 2025-12-20 - URL: https://aisharenet.com/trellis2/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 TRELLIS. 2是什么 TRELLIS. 2是微软开源的大型3D生成模型,拥有40亿参数,专注于高保真图像到3D的生成。采用创新的“O-Voxel”稀疏体素结构,能高效处理复杂拓扑和锐利特征,生成具有全PBR材质的高质量3D资产。模型支持多种分辨率,从512³到1536³,能在NVIDIA H100 GPU上快速生成,如512³分辨率仅需约3秒。 TRELLIS. 2的功能特色 高质量与高效率:40亿参数的模型能快速生成高分辨率、全纹理的3D资产,支持多种分辨率,生成速度在NVIDIA H1... --- ### Step-GUI - 阶跃星辰开源的AI Agent系列模型 - Published: 2025-12-18 - Modified: 2025-12-18 - URL: https://aisharenet.com/step-gui/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Step-GUI是什么 Step-GUI是阶跃星辰公司开源的AI Agent系列模型,包括云端模型Step-GUI、首个面向GUI Agent的MCP协议,以及业内首个支持手机部署的开源端侧模型Step-GUI Edge。专注于通过视觉理解技术实现对手机、电脑等设备的图形界面自动化操作。支持在淘宝、微博等200多个App中执行任务,个人开发者可在10分钟内完成部署。其特色在于端云协同设计,兼顾隐私保护与高效计算,目前已开放API供免费使用,并配套技术文档和开发竞赛活动。 Step-GUI的功能特... --- ### A2UI - 谷歌开源的Agent驱动型用户交互界面声明式协议 - Published: 2025-12-18 - Modified: 2025-12-18 - URL: https://aisharenet.com/a2ui/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 A2UI是什么 A2UI(Agent-to-User Interface)是谷歌开源的Agent驱动型界面协议,解决AI代理生成复杂交互界面的难题。通过一种声明式JSON格式,让AI代理描述用户界面的结构,客户端应用(如Flutter、Angular等)将这些描述转换为原生组件,实现跨平台兼容与动态更新。A2UI的核心优势在于其非执行代码特性,所有UI描述均为静态数据,不执行代码,从而规避了LLM生成代码的安全风险。支持渐进式渲染,适配对话场景中的实时交互需求,并且框架无关,同一JSON配置可以... --- ### SAM Audio - Meta推出的开源多模态音频分割模型 - Published: 2025-12-18 - Modified: 2025-12-18 - URL: https://aisharenet.com/sam-audio/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 SAM Audio是什么 SAM Audio是Meta推出的开源多模态音频分割模型,从复杂的音频混合中精准分离出任意目标声音。通过结合文本、视觉和时间维度的提示,实现灵活、高效的音频处理,为音频编辑、去噪、声音提取等任务提供了全新解决方案。用户可以通过简单的文本描述(如“吉他声”)、在视频中点击发声物体,或者标记声音出现的时间范围来使用SAM Audio。 SAM Audio的功能特点 多模态提示支持: 文本提示:用户可通过自然语言描述(如“狗叫声”“人声”)提取对应声音。 视觉提示:在视频中点... --- ### 混元世界模型1.5 - 腾讯混元开源的实时世界模型生成框架 - Published: 2025-12-17 - Modified: 2025-12-17 - URL: https://aisharenet.com/tencent-hy-worldplay/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 混元世界模型1. 5是什么 混元世界模型1. 5(Tencent HY WorldPlay)是腾讯发布的业界首个开源的实时世界模型框架,涵盖数据、训练、流式推理部署等全链路。核心是WorldPlay自回归扩散模型,采用Next-Frames-Prediction任务训练,破解了实时性与几何一致性难题。实时交互生成,通过原创的Context Forcing蒸馏方案和流式推理优化,能以每秒24帧的速度生成720P高清视频;长范围3D一致性,借助重构记忆机制,支持分钟级内容的几何一致性生成;多样化交互... --- ### Molmo 2 - Ai2开源的多模态视频图像理解模型系列 - Published: 2025-12-17 - Modified: 2025-12-17 - URL: https://aisharenet.com/molmo-2/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Molmo 2是什么 Molmo 2是Allen Institute for AI(Ai2)发布的开源多模态模型,提升视频和多图像理解能力。包含三个变体:Molmo 2(8B)、Molmo 2(4B)和Molmo 2-O(7B),分别适用于不同的场景和需求。其中,Molmo 2(8B)在视频定位和问答方面表现最佳,Molmo 2(4B)优化了效率,Molmo 2-O(7B)提供了完全开放的端到端模型流程。Molmo 2在多个关键基准测试中超越了前代模型,在视频跟踪方面超越了Gemini 3 Pr... --- ### LongCat-Video-Avatar - 美团开源的虚拟人视频生成模型 - Published: 2025-12-17 - Modified: 2025-12-17 - URL: https://aisharenet.com/longcat-video-avatar/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 LongCat-Video-Avatar是什么 LongCat-Video-Avatar 是美团开源的基于 LongCat-Video 构建的先进音频驱动视频生成模型,专注于生成超逼真、唇部同步且具有自然动态和一致身份的长视频。支持多种视频生成模式,包括音频文本到视频(AT2V)、音频文本图像到视频(ATI2V)以及视频续写,能满足不同场景下的视频生成需求。 LongCat-Video-Avatar的功能特色 多种生成模式:支持音频文本到视频(AT2V)、音频文本图像到视频(ATI2V)以及视频... --- ### MiMo-V2-Flash - 小米发布的开源MoE架构大模型 - Published: 2025-12-17 - Modified: 2025-12-17 - URL: https://aisharenet.com/mimo-v2-flash/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 MiMo-V2-Flash是什么 MiMo-V2-Flash是小米发布的开源MoE架构大模型,总参数3090亿,活跃参数150亿,主打高效推理和智能体应用。模型采用混合注意力架构与多词元预测技术,推理速度达150 tokens/秒,成本仅为同类模型的2. 5%,在代码生成、数学推理等任务中表现优异。其创新点包括三层MTP并行预测技术(提升2-2. 6倍速度)、多教师在线蒸馏训练(算力节省98%),支持256K超长上下文窗口及联网搜索功能。目前模型已在Hugging Face开源,提供MIT协议授... --- ### Nemotron 3 - 英伟达发布的开源 AI 模型系列 - Published: 2025-12-16 - Modified: 2025-12-16 - URL: https://aisharenet.com/nemotron-3/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Nemotron 3是什么 Nemotron 3 是英伟达发布的开源 AI 模型系列,包含 Nano、Super 和 Ultra 三种规格。采用混合潜在专家混合(latent MoE)架构,显著提升推理效率并降低运行成本。其中,Nemotron 3 Nano 拥有 300 亿参数,每次激活最多 30 亿参数,专为软件调试、内容摘要、AI 助手工作流及低推理成本信息检索等任务优化。相比上一代产品,其 token 处理吞吐量提升 4 倍,推理 token 生成效率提高 60%,并具备 100 万 t... --- ### Wan-Move - 阿里通义联合清华等开源的AI视频生成框架 - Published: 2025-12-16 - Modified: 2025-12-16 - URL: https://aisharenet.com/wan-move/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Wan-Move是什么 Wan-Move是阿里通义实验室、清华大学等机构联合开发的开源AI视频生成框架,专注于通过精准运动控制技术实现高质量视频合成。核心技术是"潜在轨迹引导",能在现有图像到视频模型基础上无缝添加点级运动控制,支持5秒480P视频生成,运动控制精度超越主流开源方案22. 5%。框架无需修改基础模型架构,通过复制第一帧特征到后续帧实现运动注入,适用于单目标、多目标及复杂场景(如多人互动、物体交互),并在MoveBench基准测试中取得FID 12. 2、EPE 2. 6的顶尖性能... --- ### PaCoRe - 阶跃星辰开源的并行协同AI推理框架 - Published: 2025-12-16 - Modified: 2025-12-16 - URL: https://aisharenet.com/pacore/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 PaCoRe是什么 PaCoRe(Parallel Coordinated Reasoning)是阶跃星辰(StepFun)开源的创新的并行协同推理框架,通过大规模并行思考机制,从多个角度同时探索问题解决方案,突破了传统语言模型的单线性思维限制。PaCoRe具备多轮协调能力,通过消息传递架构,将并行思考产生的信息压缩成简洁消息,在多轮中合成这些消息,指导后续推理,实现不同轨迹的有效协同。 PaCoRe的功能特色 并行思考机制:PaCoRe框架能同时从多个角度对问题进行思考,通过大规模并行探索轨迹... --- ### Banana Slides - 基于Nano Banana Pro模型的开源AI PPT生成工具 - Published: 2025-12-16 - Modified: 2025-12-16 - URL: https://aisharenet.com/banana-slides/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Banana Slides是什么 Banana Slides是基于Nano Banana Pro AI模型的开源智能PPT生成工具,支持通过自然语言指令快速创建专业演示文稿。允许用户用一句话描述主题(如“人类对生态环境的影响”),可自动生成包含大纲、内容和排版的完整PPT,能上传参考图片或模板定制风格。特色功能包括语音修改(如“把第三页改成饼图”)、自动解析文档图表、多格式导出(PPTX/PDF),采用React+Python Flask技术栈,支持Docker一键部署。适用于教育、职场等场景,... --- ### Kaleido - 智谱AI联合清华大学等开源的多主体参考视频生成模型 - Published: 2025-12-15 - Modified: 2025-12-15 - URL: https://aisharenet.com/kaleido/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Kaleido是什么 Kaleido是合肥工业大学、清华大学和智谱AI联合开发的开源多主体参考视频生成模型。通过多个参考图像生成主体一致的视频,解决了现有模型在多主体一致性和背景解耦方面的不足。Kaleido通过专门的数据构建管道,包括低质量样本过滤和多样化数据合成,生成高质量的训练数据。其创新的参考旋转位置编码(R-RoPE)机制能稳定且精准地整合多张参考图像,在多主体场景下保持一致性。Kaleido在多个基准测试中表现出色,显著优于先前的方法,在一致性、保真度和泛化能力方面都有显著提升。 K... --- ### Paper2Slides - 香港大学开源的学术论文转为幻灯片AI工具 - Published: 2025-12-15 - Modified: 2025-12-15 - URL: https://aisharenet.com/paper2slides/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Paper2Slides是什么 Paper2Slides是香港大学数据智能实验室开源的AI工具,可一键将学术论文转换为专业幻灯片或海报。采用RAG(检索增强生成)技术,直接解析文档内容而非依赖网络信息,确保生成的PPT与原文高度一致且可追溯。支持PDF、Word等多种格式,提供哆啦A梦、吉卜力等特色风格模板,具备断点续传功能。用户只需在命令行输入论文路径和输出格式,可快速生成符合学术规范的演示材料。 Paper2Slides的功能特点 高效转换:能快速将学术论文、报告等文档转换为专业幻灯片或海报... --- ### RealVideo - 智谱 AI 开源的实时流式视频生成系统 - Published: 2025-12-15 - Modified: 2025-12-15 - URL: https://aisharenet.com/realvideo/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 RealVideo是什么 RealVideo 是智谱 AI 开源的实时流式视频生成系统,能在 2 至 3 秒内快速生成自然流畅的视频回应。用户只需上传一张照片并输入文字,系统能生成对应的语音和视频,实现与 AI 角色的实时对话。系统整合了 GLM-4. 5-AirX 和 GLM-TTS 模型,通过自回归扩散模型生成视频帧。其采用滑动窗口注意力机制和动态位置编码等技术优化,有效解决了实时视频生成中的延迟和内容一致性问题。RealVideo 的开源代码和模型权重可在 Hugging Face 和 M... --- ### OpenScreen - 开源免费的屏幕录制工具,支持Mac和Windows双系统 - Published: 2025-12-15 - Modified: 2025-12-15 - URL: https://aisharenet.com/openscreen/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 OpenScreen是什么 OpenScreen 是开源免费的屏幕录制工具,为用户提供一个简单易用且功能完善的 Screen Studio 替代品。支持 Mac 和 Windows 双系统,完全免费且遵循 MIT 协议,可用于个人和商业用途。具备多种实用功能,包括录制全屏或特定应用、添加手动缩放(可自定义深度和位置)、裁剪视频、选择背景(如壁纸、纯色、渐变或自定义图片)以及实现平滑的平移和缩放效果。用户可以添加注释(如文本、箭头和图片)并剪辑视频片段,导出不同分辨率和宽高比的视频。 OpenSc... --- ### SCAIL - 智谱联合清华开源的影视级角色动画生成框架 - Published: 2025-12-15 - Modified: 2025-12-15 - URL: https://aisharenet.com/scail/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 SCAIL是什么 SCAIL(Studio-Grade Character Animation via In-Context Learning)是智谱与清华大学刘永进教授课题组合作提出的一种影视级角色动画生成框架。通过创新的三维一致性姿态表征和全上下文姿态注入机制,解决了传统方法在复杂动作和多人交互场景中的不足。SCAIL能从单张照片生成高质量的动画角色,其三维动作编码系统利用NLFPose技术,精准捕捉人体三维关键点并构建数字骨架,再通过“智能影子”投影保留深度信息。智能适配机制可自动调整不同... --- ### DeepSearchQA - 谷歌开源的AI研究Agent测试基准 - Published: 2025-12-15 - Modified: 2025-12-15 - URL: https://aisharenet.com/deepsearchqa/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 DeepSearchQA是什么 DeepSearchQA是谷歌开源的AI研究Agent测试基准,专门用于评估智能体在复杂多步查询任务中的表现。包含900个手工设计的"因果链"任务,覆盖17个领域,要求AI像人类研究员一样通过多步骤推理生成完整答案。基准强调全面性而非单纯准确性,能衡量AI的记忆能力和思考效率。目前DeepSearchQA已应用于Gemini Deep Research Agent的性能评测,最新版本在该基准上得分46. 4%,优于GPT-5 Pro。开发者可通过Kaggle平台获... --- ### Claude-Mem - 开源Claude Code记忆插件,支持跨会话持久化记忆 - Published: 2025-12-12 - Modified: 2025-12-12 - URL: https://aisharenet.com/claude-mem/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 Claude-Mem是什么 Claude-Mem 是为 Claude Code 设计的开源插件,解决 AI 在跨会话中记忆丢失的问题。通过自动捕获工具使用观察结果、生成语义摘要,在后续会话中注入相关上下文,帮助 Claude 在长期项目中保持对项目知识的连续性。核心功能包括持久化内存、渐进式回忆、智能搜索工具、Web Viewer UI 等。用户可以通过简单的命令安装并使用它,无需手动干预即可实现自动操作。Claude-Mem 支持隐私控制和上下文配置,用户可以根据需求进行细粒度的设置。提供了实... --- ### KoalaQA - 开源的AI售后服务系统,帮企业快速搭建问答平台 - Published: 2025-12-12 - Modified: 2025-12-12 - URL: https://aisharenet.com/koalaqa/ - 分类目录: 最新AI资源 - 内容可见性: 所有人可见 KoalaQA是什么 KoalaQA 是开源的智能售后服务系统,由 Chaitin 团队开发。基于 AI 大模型,提供 AI 客服、AI 搜索和知识库管理等功能,帮助企业快速搭建智能问答平台。系统支持 24/7 实时应答,能自动处理约 90% 的常见问题,通过智能学习不断优化回答。具备多板块管理、灵活的权限设置和多种认证方式,支持移动端访问,适合企业内外部问答平台、开发者社区和用户服务社区等多种场景。KoalaQA 采用 AGPL-3. 0 开源协议,用户可自由使用和定制,同时需遵守开源要求。其... --- ---