
Danfei Xu 在推文中指出机器人技术的关键瓶颈不在于硬件或模型,而在于控制器设计与数据质量。

Danfei Xu 在推文中指出机器人技术的关键瓶颈不在于硬件或模型,而在于控制器设计与数据质量。

Google DeepMind 宣布其 AI 内容水印工具 SynthID 扩展至更多合作伙伴,并在 Gemini 应用和 Google 搜索中新增 AI 内容查询功能。

Google DeepMind 宣布 Project Genie 与 Google Maps Street View 集成,用户可将美国真实地点转化为新的交互式 3D 世界。

Figure AI 在人类形机器人直播第9天宣布,其 F.03 机器人已连续自主运行 191 小时,累计分拣 23.8 万个包裹,持续展示全天候无故障运行。

LeRobot团队发布了LeRobot Humanoid开源平台,包括硬件、运行时、识别工具和训练环境,硬件成本约2500美元,大部分3D打印。

Google DeepMind 宣布推出 Science Skills for Google @Antigravity,整合了 UniProt、AlphaFold 数据库等 30 多个主要生命科学来源的见解,旨在加速科研工作流。

该论文提出Live Music Diffusion Models(LMDMs),通过修改生成扩散过程,将开源音频扩散模型高效微调为交互式流式音乐生成器,在消费级硬件上达到甚至超越离散自回归模型的性能。

该论文发布了TransitLM数据集,包含中国四个城市超过1300万条公交路线规划记录、12万个站点和1.3万条线路,用于无地图公交路线生成的持续预训练和基准测试,实验表明语言模型可学习从起点-终点直接生成有效路线。

该论文提出 SpaceDG,首个大规模视觉退化感知空间理解基准数据集,通过基于物理的退化合成引擎在3D高斯泼溅渲染中嵌入退化过程,模拟运动模糊、低光照等九种退化类型,包含约100万问答对,用于评估多模态大语言模型在现实世界不完美视觉下…

该论文提出 Gated DeltaNet-2,通过分离键侧擦除和值侧写入的门控机制,解决了此前线性注意力中单一标量门控同时控制擦除和写入的局限性。

Google DeepMind 通过官方 X 账号宣布推出 Gemini 3.5 Flash 模型,这是其 Gemini 系列的最新版本。

Figure AI 发布推文,其 F.03 人形机器人在连续 167 小时的直播中自主分拣了 209,000 个包裹,展示了长期无人干预的运行能力。

World Labs 宣布首届 World Jam 的获奖作品,并推出了一个名为“Museum”的交互式存档,展示获胜的 3D 空间创作,每个入口都开启独特的空间体验。

该论文提出GenEvolve,一种自演进的图像生成代理框架,通过工具编排的视觉经验蒸馏让代理在利用外部工具的过程中不断自我进化,以提升开放图像生成的质量和工具利用效率。

该论文提出 PhysX-Omni,一个统一的仿真就绪物理 3D 生成框架,可同时生成刚体、可变形和关节物体,并构建了首个通用仿真就绪数据集 PhysXVerse。

Google DeepMind 在 X 平台展示了 Gemini 3.5 Flash 与 Antigravity 合作的演示,模型部署多个子代理协同设计和建造整个城市。

Google DeepMind 宣布将视频创作工具 Google Flow 与多模态模型 Gemini Omni 结合,推出最新模型,支持批量编辑和更强的角色一致性,用于生成更具电影感的视频故事。

Google DeepMind 宣布推出 Gemini 3.5 模型家族,首个版本 3.5 Flash 号称将前沿智能与实际行动能力相结合,是该司目前最强的智能体与编码模型。

NVIDIA Research 提出 Nemotron-Labs-Diffusion,一种三模式语言模型,通过联合自回归(AR)和扩散目标训练,在同一架构内支持 AR、扩散和自我推测解码三种模式,可根据部署负载切换以保持高吞吐量,在自…

Figure AI 在 X 平台发布视频,展示其 F.03 人形机器人已连续 7 天 24/7 完全自主运行,且无任何故障。

Andrej Karpathy 在 X 上宣布加入 Anthropic,表示未来几年大语言模型前沿将尤其具有塑造力,他期待回归研发工作,并计划继续投入 AI 教育。

宇树科技在 X 平台发布 G1 人形机器人演示,通过外部语音命令实时驱动机器人产生多样化动作,视频为单次实拍并现场录音。

该论文提出了π-Bench,一个包含100个多轮任务的基准,用于评估长期工作流中个人助理代理的主动协助能力,尤其是代理在用户未明确说明时识别并执行隐藏意图的能力。

Figure AI 在 Day 6 直播中展示其 F.03 人形机器人已连续自主运行 119 小时,处理超过 149,000 个包裹,实现 24/7 无人值守作业。

Figure AI 通过直播展示其 F.03 人形机器人在仓库中连续多天 24/7 完全自主运行,已分拣超过 23 万包裹,进行“人类 vs 机器”挑战。

Figure AI宣布其人形机器人已在持续自主运行中累计分拣超过10万个包裹,机器人完全自主并联网实现24/7不间断运营。

NVIDIA Research提出iGRPO方法,通过两阶段自我反馈机制扩展GRPO,利用模型自身生成的草稿选择最高奖励草稿,以提升大语言模型在复杂数学推理中的准确性和一致性。

NVIDIA Research 提出 RLP,将强化学习作为预训练目标,鼓励模型在预测下一个词之前通过链式思维探索信息增益,从而替代当前预训练+监督微调+强化学习后训练的主流范式。

Figure AI 宣布其 F.03 人形机器人已连续自主运行 4 天(24/7),正在进行不间断稳定性测试。

Figure AI 在 X 平台直播其全尺寸人形机器人实现 24/7 全自主运行,现已进入第三天,将持续运行直至机器人出现故障。

World Labs 团队发布 image-blaster 工具,结合 Marble、Claude 和 fal,可从单张图片快速生成包含网格、交互物理对象和音效的完整 3D 世界。

Figure AI 通过 X 平台直播展示其三台人形机器人 Bob、Frank 和 Gary 基于 Helix-02 系统的 24/7 完全自主运行。

Figure AI发布直播视频,展示人形机器人群组采用Helix-02系统完全自主执行8小时轮班作业,已达到人类绩效水平,并连续多天24/7运行。

LeRobot 宣布简化强化学习算法集成,并演示 HIL-SERL 方法在 SO-100 机器人上完成孔中插销任务,仅用 30 个离线演示和约 1 小时在线训练,人类仅在策略失败时干预。

Google DeepMind 发布实验性演示,用 AI 重新构想传统鼠标指针,用户可通过运动、语音和自然简写等方式控制屏幕上的 Gemini 助手完成任务。

宇树科技发布 GD01 载人可变形机甲,号称世界首款量产载人机甲,重约 500 千克,售价 65 万美元起,可作为民用车辆使用。

机器人学博士Tairan He在推特宣布加入OpenAI,表示完成博士学位后将继续致力于物理世界通用人工智能的研究。

Andrej Karpathy 建议在 LLM 查询末尾要求输出 HTML 格式,从而在浏览器中直接查看或用于幻灯片等可视化场景。

World Labs 在推文中展示了一个利用 Marble、Spark 和 Three.js 构建的夏日主题持久世界模型,并宣布 World Jam 创作活动即将截止。

Figure AI 在 X 平台发布视频,展示两台 F.03 人形机器人全自主在不到 2 分钟内完成房间清洁和整理床铺。

Google DeepMind 宣布其基于 Gemini 的编码代理 AlphaEvolve 在过去一年中加速了量子、生物技术、物流和 Google AI 基础设施等多个领域的进展。

宇树科技宣布其官方共享应用平台 UniStore 全面开放,这是全球首个面向人形机器人的任务和动作应用商店,用户可像下载手机应用一样为机器人开发并安装新应用。

Danfei Xu 在 X 上提出一个推论:当用方案 X 解决某问题 Y 时,方案 X 本身不应是未解决问题,否则不如直接解决 Y 或先解决 X。并以自动化(Y)与机器人学习(X)为例。

乔治亚理工学院教授 Danfei Xu 在推文中指出,机器人学不能寄希望于解决某个子问题(如感知或规划)来一劳永逸,而必须直接面对并解决整个机器人学问题。

Google DeepMind 宣布与《EVE Online》开发者合作,利用该游戏复杂、玩家驱动的宇宙作为安全沙箱,测试智能体在记忆、持续学习和长期规划方面的能力。

MIT CSAIL 提出 "MetaEase" 技术,用于对云计算算法进行压力测试,帮助预测并避免可能导致长时间等待或服务中断的网络故障场景。

NVIDIA Research 提出 ProSeCo 框架,在掩码扩散模型中引入自我纠正机制,允许模型在生成过程中修正已解掩码的 token,从而减少错误累积并提升样本质量。

MIT CSAIL 基于比尔·弗里曼教授的旧专利,推出新型三面“Y 型拉链”,可一键按压快速组装装备、机器人和艺术品。

Danfei Xu 在推文中介绍了 KinDER,一个用于长期物理推理的新仿真基准,可在 VLA、PDDL 双层规划和 RL 等不同范式之间进行横向比较,该工作已被 RSS 2026 接收。

Andrej Karpathy 在 Sequoia Ascent 2026 的炉边谈话中提出 LLM 的三个新应用方向:无需传统代码的 menugen 应用、用 .md 技能替代 .sh 脚本、以及处理非结构化知识的知识库。

NVIDIA Research 发布论文,提出一种基于小波启发的短时鼠标子运动检测方法,通过自加权损失细化步骤从一维速度时间序列中准确分离并参数化重叠的弹道运动成分,并在约6400个合成第一人称射击瞄准数据上验证了准确性。

World Labs 展示了由 Marble 工具生成的、包含 6000 万个高斯泼溅点的庞大黑暗奇幻世界,并利用 Spark 2.0 LoD 系统和 Three.js 在浏览器中实现实时交互探索。

Tairan He 宣布开源 GR00T-VisualSim2Real 项目,包含 VIRAL 和 DoorMan 两套系统,提供训练代码、仿真资产和完整流程,用于在人形机器人上实现视觉 sim-to-real 行走-操作技能。

Google DeepMind 宣布启动 AI 临床合作者(AI co-clinician)研究计划,旨在探索多模态代理如何更好地支持医护人员和患者,并公布了初步进展。

宇树科技在X平台宣布推出双人形机器人,售价从4290美元起,搭载高性能电机、传感器、双目视觉和语音交互,轻量紧凑,面向智能任务开发。

World Labs 宣布其“Expand”功能已面向所有人开放,用户可以自由扩展 3D 世界的视角,包括拐角、房间内和视线之外的区域。

Figure AI 在 X 平台宣布其人形机器人 F.03 生产爬坡进展:过去 120 天内制造能力提升 24 倍,从每天 1 台增至每小时 1 台,本周将生产 55 台。

MIT CSAIL 提出一种新方法,能在普通设备上实现隐私保护的 AI 训练,提升医疗、金融等高风险应用的模型准确性和效率,尤其适用于资源受限场景。

LeRobot 官方发布新命令行工具 'lerobot-rollout',支持通过单一命令将训练好的策略部署到任意真实机器人上,并提供四种模式(Base、Sentry、Highlight、DAgger)以适应不同场景。

Danfei Xu在斯坦福大学演讲,指出机器人学习领域人类数据收集能力已超过研究进度,缺乏缩放机器人能力的科学方法,且远未达到建模自然人类行为的水平。
这里是给这个小雷达留出来的一块讨论区。你可以写对本站的建议,比如哪里不好用、哪些信源值得加入、哪条信息判断得不够准;也可以聊聊你对物理 AI、机器人、自动驾驶或泛 AI 的观察。
不一定要很正式。看到一条有意思的线索,想补充几句;路过这里,想留个到此一游;或者只是有个问题想抛出来,都可以写在下面。只要你想交流,就把它放在这里吧。
爱看月亮的熊猫
一个想搞 AI 的传统 PNC 玩家,现在想拥有一个机械臂。
这个小雷达是我给自己搭的观察台:一边追具身智能、自动驾驶和泛 AI,一边把论文、X 观点、工程博客和公司动态重新放回上下文里看。
它不急着追热榜,更想留下那些值得回头细读的线索。