量子位新品速递｜第7期：复旦触觉具身获近亿融资、DeepSeek自动研究论文出炉、北大3D编辑提速120倍

本期收录 3 款量子位 5 月 27 日报道的科技新品：复旦系触觉具身公司新智具身获近亿元天使轮，微软/阿里/华为背景团队入局；DeepSeek 研究员用 AI Agent 自动写论文，45 页只需 2 小时脑力；北大等机构发布 VGGT-Edit，5 秒改 3D 场景实现 120 倍加速。

新智具身智能：触觉具身梦之队天使轮近亿，微软/阿里/华为老兵入局

5 月 27 日，上海新智具身智能科技有限公司（NeoteAI）宣布完成近亿元天使轮融资，由上海国投旗下上海科创集团与复旦科创联合领投。公司源自复旦大学可信具身智能研究院，定位触觉具身智能赛道——解决传统机器人视觉看懂了、却"摸不懂"的精细操作难题。1

核心团队堪称"梦之队"： CEO 赵世豪本硕复旦、港大博士，曾任职微软全球研究院和阿里通义实验室；首席科学家吴祖煊为复旦可信具身智能研究院副院长，曾任职 Meta；COO 董道国曾任华为荣耀 Magic 一代首席架构师，拥有近 20 年产业经验。1

三大技术板块同步推进：

视触觉传感器采用光学相机拍摄柔性硅胶接触形变，深度学习解耦六维力信息

自研视触觉传感器：内置微型光学相机，拍摄柔性硅胶接触形变，端侧深度学习解耦出六维力、滑移轨迹、物体轮廓等物理信息，数据格式与视觉 Transformer 天然兼容
触觉具身数据采集中心：超千平方米规模，真机采集线与便携式采集终端互补，数据优先供给内部模型训练
触觉具身大模型：VTLA 模型可实时感知夹持、滑移等接触真实状态，解决传统 VLA 感知盲区导致的精细操作失败

有趣的是，新智具身承接了复旦与上海的战略合作，初创期已获得静安区及上海市经信委、市科委的多级政策与资金支持，叠加复旦研究院的多团队产出，算是典型的"产学研地方协同"标杆项目。1

DeepSeek DeliAutoResearch：AI 自动写 45 页论文，人类思考仅 2 小时

DeepSeek 资深研究员陈德里（Deli Chen）发布了一项实验性成果——他自建的 DeliAutoResearch 自动研究 Agent，以 DeepSeek-V4-Pro 负责文字、GPT-Image2 负责插图，AI 贡献了论文 99%的内容，仅用 2 小时人类思考便完成了一篇 45 页的学术综述。2

创作数据： 论文共迭代 6 次，初稿仅 76 分钟，总耗时 6 天；Agent 运行约 108 轮，消耗 64.8 万 token，写出 2234 行 LaTeX 代码；103 篇参考文献全部核验。陈德里本人感叹："同样的工作以前至少需要一个月，这次碳基大脑的'总 CPU 时间'不到 2 小时。"2

论文核心输出四项成果：

自主研究智能体 L1-L5 分级表，从自动补全到完全自主定向研究 — AI Agent L1-L5 自主能力分级体系，类比自动驾驶 SAE 等级 2

L1-L5 自主能力分级体系——从 L1 自动补全到 L5 完全自主定向研究，类比自动驾驶 SAE 等级，为混乱的 Agent 领域建了一个清晰谱系
四大架构模式分析——单智能体循环、多智能体协作、分层编排、工具增强执行，逐一评估可扩展性、成本、可靠性与监管参数
17 款主流系统评测——基于六维特征矩阵分析，发现当前前沿系统普遍处于 L4 级别，L5 仍停留在构想阶段
六大待解难题——认知死循环、上下文窗口限制、创新价值评估、结果可复现性、安全风险、使用成本

其中核心判断是：实现 L5 的核心瓶颈不再是模型基础性能，而是长效知识沉淀、可靠的自我评估能力，以及具备理论支撑的架构规模化方案。2

VGGT-Edit：北大等发布原生 3D 编辑框架，5 秒改场景、120 倍加速

北京大学、香港中文大学、上海 AI Lab、NTU 等机构联合提出 VGGT-Edit，一个直接在 3D 空间完成编辑的框架——输入一句"把椅子移到窗边"，5 秒内即可完成，且多视角一致、背景不变形，最高较传统方法加速 120 倍。3

它解决了什么核心问题？

现有 3D 编辑绕不开 2D——把场景拆成多张 2D 图片，逐张编辑，再重新拼回 3D。每张图独立处理导致一个视角删了椅子、换个角度椅子又出现，且速度极慢。VGGT-Edit 彻底放弃"2D 搬运"思路，在原生 3D 几何结构上操作。

三大技术创新：

残差场预测：不重新生成整个场景，只预测局部变化的残差（新场景=原场景+局部变化），背景毫发不动
深度同步文本注入：在解码器多个关键层持续注入文本嵌入，让模型始终感知"要改什么、改哪里"
视角感知加权模块：自动评估不同视角可靠性，过滤无效信息

效果数据（DeltaScene 测试集）：

VGGT-Edit 与 5 种竞品在 DeltaScene 测试集上的定量对比，涵盖 CLIP Score、C-FID、C-KID、Time 四个维度 — VGGT-Edit 在语义一致性、分布距离、推理速度三个维度全面领先 3

指标	VGGT-Edit	最佳竞品（Edit3r）
CLIP Score↑（语义一致性）	30.2	28.9
C-FID↓（分布距离）	122.4	130.8
C-KID↓（核距离）	0.048	0.92
单次编辑时间↓	~5 秒	~10 秒

对比最慢的方案（GaussCtrl 约 300 秒），VGGT-Edit 实现最高 120 倍加速。论文预印本已在 arXiv 发布（2605.15186）。3

本期三款产品路径各异但指向同一个方向：AI 正在从"看懂世界"进化到"动手改造世界"。触觉传感器让机器人精细化操作有了物理感知，自动研究 Agent 让 AI 可以独立完成科研产出，3D 编辑框架让 AI 能在 3D 空间中直接修改场景——感知、推理、行动三层能力都在加速补齐。