登录社区云,与社区用户共同成长
邀请您加入社区
智能来源于身体与环境的交互,而非仅仅依赖于抽象的计算能力。这个思想最早由人工智能哲学家罗德尼·布鲁克斯提出,他认为传统的“感知-思考-行动”模式过于脆弱,机器人应该通过与物理环境的直接交互来实现智能行为。在具身智能中,机器人的身体结构、传感器和执行器共同决定了其行为方式。例如,一个六足机器人比四足机器人更擅长在崎岖地形上行走,这并不是因为它“更聪明”,而是因为它的身体设计赋予了它更多的适应性。通过
酷虎数字人系统是一套集成语音处理、AI计算、数字人驱动及流媒体输出的全链路智能系统,核心依托本地知识库、RAG向量知识库、AI大模型、语音服务(ASR/TTs)、数字人模型五大核心模块,通过协同工作将输入信息转化为可实时分发的直播流,最终输出RTMP、FLV、RTC三种主流流媒体格式,适配不同直播、互动场景需求。驱动模块接收AI大模型的指令(文本、语音信号),通过动作捕捉、面部表情驱动算法,实现数
设计了指标敏感的过程奖励函数(Metric-sensitive Process Reward),不仅关注最终预测点的准确性(结果奖励),还通过过程奖励(Accuracy Reward)对中间推理步骤的感知精度进行评估和激励。尽管现有的视觉语言模型(VLM)很强大,但在处理复杂的3D场景和根据指令动态推理交互位置方面仍存在不足。结论:实验证明,通过结合专用深度编码器(SFT)和指标敏感的过程奖励(R
论文不仅展示了系统架构设计,还通过机器人辅助化学实验的案例,验证了 MATTERIX 在实验复现性、调度灵活性、安全性与系统可维护性方面的显著优势,为“自驱动化学实验室(self-driving lab)”和“具身智能化学研究平台”提供了重要方法论基础。论文进一步指出,MATTERIX 的价值不仅体现在单个实验室自动化项目中,更重要的是为“自驱动实验室”提供了一种可扩展的基础设施:数字孪生可以作为
“辩核AI具身辩论数字人训练系统”正是在这一背景下设计的一套综合性解决方案。系统以 3D 虚拟人作为交互载体,以大语言模型作为核心推理引擎,融合语音识别、实时渲染与多模式辩论策略,面向辩手训练、教学指导以及逻辑表达能力提升等多种应用场景。本文将从整体架构、核心技术、功能模块与业务流程等多个层面,对该系统进行系统化梳理与深入解析。
RLinf 是一个灵活且可扩展的开源强化学习基础设施,是以清华大学、北京中关村学院、无问芯穹为核心,还联合了北京大学、加州大学伯克利分校等机构共同参与设计并开源。这是一个面向具身智能的“渲训推一体化”大规模强化学习框架,专门为具身人工智能和智能体人工智能而设计。RLinf 中的“inf”代表“基础设施” Infrastructure,突显了它作为下一代训练强大骨干的作用。它也代表“无限” Infi
“具身智能(Embodied AI)”代表了人工智能发展的一个重要转折点,它将AI从纯数字世界的算法模型带入物理世界,通过赋予AI"身体",使其能够像人类一样感知、思考和行动。2025年,具身智能首次被写入中国政府工作报告,标志着其正式上升为国家战略。这一技术融合了多模态感知、强化学习、大模型推理与机器人控制等前沿领域,正在重塑人工智能的应用边界与产业格局。
数字人技术融合AI、图形学等多领域,已形成2D与3D两大技术路径,广泛应用于虚拟偶像、内容创作等领域。2D数字人成本低、效率高,适合批量内容生产;3D数字人交互性强,适用于沉浸式场景。技术发展使虚拟偶像产业从流量IP转向生产力工具,为创作者提供降本增效、突破限制的新可能。尽管面临技术瓶颈与商业模式挑战,数字人产业仍呈现爆发式增长,预计2025年中国市场规模将达480亿元,未来有望通过技术创新与生态
EO-1是一款开源的3B参数具身智能VLA模型,采用统一的decoder-only Transformer架构,结合离散自回归解码与连续流匹配去噪技术。通过视觉-文本-动作交织预训练,实现了感知、规划、推理和行动的无缝融合。该模型在长时域灵巧任务和开阔世界具身泛化方面表现优异,支持"思考-行动-观察-再思考"的自然流程,适用于多种真实机器人平台。EO-1在ERQA、LIBERO
这项工作具有重要的实践意义,它提出了多视图三维指代表达分割(MV-3DRES)这一新任务设置,使三维接地与真实感知条件对齐,并提出了MVGGT和优化策略,实现了在没有稠密点云输入的情况下高质量的3D指代表达分割。这为具身智能在受限环境下的感知能力提供了新的思路与方向。最后,研究团队诚挚邀请大家基于此基准进行测试与改进,共同探索稀疏感知在具身智能中的更多可能性,推动该领域向更高效、更通用的方向发展。