Claude 3.5重磅升级、英伟达发布 nGPT 架构、苹果系统更新支持多项 AI 能力

  • Claude-3.5-Sonnet 模型版本更新,同时推出新模型Claude-3.5-Haiku。根据Anthropic发布的评测数据,各项评测数据指标均超过GPT-4o。
  • 英伟达 nGPT 重塑 Transformer,加速 ai 模型训练速度
  • 苹果系统更新支持多项 ai 能力

一、大模型技术

1.模型及相关技术

  • claude 3.5:Claude-3.5-Sonnet模型版本更新,同时推出新模型Claude-3.5-Haiku。根据Anthropic发布的评测数据,各项评测数据指标均超过GPT-4o。同时 Claude 最近推出了 Computer Use 功能,使得它能够自主操作电脑,例如自动填写表格、在网页上搜索信息、规划行程并将计划添加到日历中,甚至能够编写代码并解决编程中的问题。这次升级让 Claude 能够在不需要人类干预的情况下完成任务。(量子位|官网博客image.jpeg
  • nGPT(归一化Transformer) 架构:英伟达最新发布的 nGPT 架构,通过对 Transformer 架构的优化,成功提高了 AI 模型的训练速度,具体表现为在处理长文本时,训练速度可以比传统模型快达 20 倍。这一突破得益于英伟达在并行计算和内存管理方面的创新,使得模型在处理大规模数据时效率更高。此外,nGPT 模型还在多个自然语言处理任务上取得了优异的性能,证明了其在实际应用中的潜力。(新智元|论文image.jpegimage.jpeg
  • LLM 排名评估基准:Decentralized Arena 是由 Maitrix.org 开发的一个新型大语言模型(LLM)评估基准,它采用了大规模语言模型的群体智能进行自动化评估,超越了传统的人工评审方法。该基准允许模型之间进行相互评估,形成了一个去中心化和民主化的评估系统,能够在多个维度上进行稳健的排名,包括数学、推理能力、编程语言编码能力、科学领域知识以及实际应用问题。Decentralized Arena 使用了高效的排名算法,如增量排名、二分搜索插入、由粗到精调整以及 Bradley-Terry (BT) 方法来估计模型得分,确保了排名的稳健性和无偏性。此外,该基准支持自定义评估维度,通过选择高价值问题集来建立新维度的排名。研究结果显示,随着模型数量的增加,排名变得更加稳定,并且与 Chatbot Arena 在 “整体” 维度上达到了高度的相关性。该研究还分析了不同维度排名之间的相关性,证明了 Decentralized Arena 的有效性和优势。(机器之心|huggingface 当前排名image.jpeg
  • OpenAI o1:OpenAI 即将推出性能更强的 o1 模型满血版,该模型在数学和编码能力上超越了 o1-preview 版本,并且正在进行基准测试和运行评估。同时,OpenAI 计划为 o1 系列模型添加网页浏览、文件和图像上传等功能,并支持 ChatGPT 自动选择合适的模型。(量子位|官网博客
  • 清华 8 比特量化 Attention:清华大学研究团队提出了 SageAttention,一种 8 位量化的注意力机制,实现了即插即用的推理加速,在不同的端到端任务中达到了与全精度注意力相近的精度,并且在视频、图像和文本生成等大模型上的实验结果显示,与 FlashAttention2 相比,达到了 2 倍以上的加速效果。(机器之心|论文|GitHub
  • BitNet:微软开源的 1.58bit 大模型推理框架 BitNet,通过将模型参数量化为三进制 {-1, 0, 1},实现了千亿参数模型在单 CPU 上的高效运行,达到每秒 5-7 个 token 的处理速度。这一技术创新显著提高了推理速度,降低了存储和计算资源的需求,并在 ARM 和 x86 CPU 上实现了显著的性能提升和能耗减少。BitNet b1.58 的架构设计借鉴了 Llama,去除了偏置项,便于与主流开源框架集成(量子位|huggface|GitHub
  • Ministral 模型:Ministral 系列模型作为开源版 OpenAI 的最新创新,其性能超出了预期,甚至在某些任务上超越了 Llama 3 这一大型模型。这一系列模型的出现,不仅展示了小模型在效率和准确性上的潜力,而且因其较小的体积和较低的资源需求,特别适合在边缘设备上运行,从而推动了边缘 AI 技术的发展。(新智元

2.多模态与AIGC

  • 多模态:由字节跳动、南洋理工大学 S-Lab 和北京邮电大学的研究团队共同完成一项关于视频多模态大模型(LMMs)的研究成果。针对 LMMs 在获取大量高质量视频数据方面的难题,团队提出了一种替代方案,即创建一个专门用于视频指令跟随任务的高质量合成数据集 LLaVA-Video-178K。该数据集包含详细的视频描述、开放式问答(QA)和多项选择题,旨在提升视频语言模型的性能。研究团队通过在 LLaVA-Video-178K 数据集及现有视觉指令数据上训练模型,开发出新型视频 LMM——LLaVA-Video。实验结果显示,LLaVA-Video 在多个视频基准测试中都表现出色,证实了合成数据集的有效性。此外,研究团队还开发了 LLaVA-Video_SlowFast 模型,该模型通过平衡帧数和视觉 token 的数量,并考虑了 LLM 的上下文窗口限制和 GPU 内存的限制,进一步提升了视频表示的效率和准确性。最终,该研究不仅提供了一个高质量的视频多模态数据集,而且通过开源 LLaVA-Video 项目,促进了人工智能领域在视频理解和处理方面的进步。(机器之心|论文|项目地址
  • 多模态:智源研究院推出了新型多模态模型 Emu3,它能够通过预测下一个 token 来处理视频、图像和文本数据。Emu3 不需要扩散模型或组合方法,在图像生成、视频生成和视觉语言理解等任务中超越了 SDXL、LLaVA 和 OpenSora 等知名模型。该模型提供了一个强大的视觉 tokenizer,可以将视频和图像转换为离散 token,与文本 token 一起输入模型,并将输出的 token 转换为文本、图像和视频,实现 Any-to-Any 任务的统一研究范式。Emu3 还支持直接偏好优化(DPO),用于自回归视觉生成,使模型与人类偏好一致。研究结果表明,下一个 token 预测作为多模态模型的范式,能够实现大规模多模态学习和先进的多模态任务性能。(机器之心|huggingface|项目页面|GitHubimage.jpeg
  • 图片生成:Stability AI 推出了 Stable Diffusion 3.5,这是一个强大的文生图模型,提供了三个版本:Large、Large Turbo 和 Medium,以适应不同的用户需求和商业环境。Large 版本拥有 80 亿参数,专注于提供高质量的图片和精确的文本语义还原。Large Turbo 版本则是一个更快速的蒸馏模型,能在少量步骤内生成高质量图像。Medium 版本即将于 10 月 29 日发布,具有 25 亿参数,适合在消费级硬件上使用,能生成不同分辨率的图像。Stable Diffusion 3.5 在性能、可定制性和输出多样性方面得到了显著提升,使其成为市场上一个高度可定制且易于访问的文生图像模型。开发过程中考虑了模型的可定制性和灵活性,通过 Query-Key 归一化的集成,简化了模型的微调和开发,同时也保留了更广泛的知识库和多样化的风格。(AIGC 开放社区HuggFaceGitHub
  • 多模态:OpenAI 最新发布了全新的模型 sCM(sparse causal model),该模型通过两步采样实现了与扩散模型相当的图像生成质量,但速度至少提升了 50 倍。该模型在 ImageNet 数据集上进行了高分辨率的训练,能够在单张 A100 GPU 上极速生成样本。研究人员通过 TrigFlow 等技术改进了一致性模型的稳定性和性能,使得模型在多个基准数据集上表现出色,且计算开销显著降低。此外,随着模型规模的增加,性能改进的效果更为显著。路橙和宋飏在 AI 领域具有丰富研究经验,他们的工作对 AI 模型的快速发展起到了推动作用。(量子位image.jpegimage.jpeg

3.其他

  • 多模态:由字节跳动、南洋理工大学 S-Lab 和北京邮电大学的研究团队共同完成一项关于视频多模态大模型(LMMs)的研究成果。针对 LMMs 在获取大量高质量视频数据方面的难题,团队提出了一种替代方案,即创建一个专门用于视频指令跟随任务的高质量合成数据集 LLaVA-Video-178K。该数据集包含详细的视频描述、开放式问答(QA)和多项选择题,旨在提升视频语言模型的性能。研究团队通过在 LLaVA-Video-178K 数据集及现有视觉指令数据上训练模型,开发出新型视频 LMM——LLaVA-Video。实验结果显示,LLaVA-Video 在多个视频基准测试中都表现出色,证实了合成数据集的有效性。此外,研究团队还开发了 LLaVA-Video_SlowFast 模型,该模型通过平衡帧数和视觉 token 的数量,并考虑了 LLM 的上下文窗口限制和 GPU 内存的限制,进一步提升了视频表示的效率和准确性。最终,该研究不仅提供了一个高质量的视频多模态数据集,而且通过开源 LLaVA-Video 项目,促进了人工智能领域在视频理解和处理方面的进步。(机器之心|论文|项目地址
  • 多模态:智源研究院推出了新型多模态模型 Emu3,它能够通过预测下一个 token 来处理视频、图像和文本数据。Emu3 不需要扩散模型或组合方法,在图像生成、视频生成和视觉语言理解等任务中超越了 SDXL、LLaVA 和 OpenSora 等知名模型。该模型提供了一个强大的视觉 tokenizer,可以将视频和图像转换为离散 token,与文本 token 一起输入模型,并将输出的 token 转换为文本、图像和视频,实现 Any-to-Any 任务的统一研究范式。Emu3 还支持直接偏好优化(DPO),用于自回归视觉生成,使模型与人类偏好一致。研究结果表明,下一个 token 预测作为多模态模型的范式,能够实现大规模多模态学习和先进的多模态任务性能。(机器之心|huggingface|项目页面|GitHubimage.jpeg
  • 图片生成:Stability AI 推出了 Stable Diffusion 3.5,这是一个强大的文生图模型,提供了三个版本:Large、Large Turbo 和 Medium,以适应不同的用户需求和商业环境。Large 版本拥有 80 亿参数,专注于提供高质量的图片和精确的文本语义还原。Large Turbo 版本则是一个更快速的蒸馏模型,能在少量步骤内生成高质量图像。Medium 版本即将于 10 月 29 日发布,具有 25 亿参数,适合在消费级硬件上使用,能生成不同分辨率的图像。Stable Diffusion 3.5 在性能、可定制性和输出多样性方面得到了显著提升,使其成为市场上一个高度可定制且易于访问的文生图像模型。开发过程中考虑了模型的可定制性和灵活性,通过 Query-Key 归一化的集成,简化了模型的微调和开发,同时也保留了更广泛的知识库和多样化的风格。(AIGC 开放社区HuggFaceGitHub
  • 多模态:OpenAI 最新发布了全新的模型 sCM(sparse causal model),该模型通过两步采样实现了与扩散模型相当的图像生成质量,但速度至少提升了 50 倍。该模型在 ImageNet 数据集上进行了高分辨率的训练,能够在单张 A100 GPU 上极速生成样本。研究人员通过 TrigFlow 等技术改进了一致性模型的稳定性和性能,使得模型在多个基准数据集上表现出色,且计算开销显著降低。此外,随着模型规模的增加,性能改进的效果更为显著。路橙和宋飏在 AI 领域具有丰富研究经验,他们的工作对 AI 模型的快速发展起到了推动作用。(量子位image.jpegimage.jpeg
  • 访谈:黄仁勋在访谈中再次引发了热议,他表示英伟达从不讨论市场份额,而是专注于如何创造下一个东西,如何加速技术飞轮。面对云计算大客户如 Azure 和 AWS 自主构建 ASIC 芯片的局面,黄仁勋用“扩大鱼塘”来形容公司的目标,即创造新市场。黄仁勋提出了多个主要观点:“口袋里的 AI 助理”将很快出现,尽管一开始可能不够完美。英伟达的竞争优势在于建立了从 GPU、CPU、网络到软件和库的全栈平台。人工智能的扩展重点已从训练前转移到训练后和推理,推理时的计算将成为智能扩展的新向量,推理的增长将远大于训练。开源和闭源模型将共存,开源模型可能用于特定领域的应用程序。在视频中,黄仁勋还讨论了 AI 领域的变化速度、模型规模扩展、英伟达的优势、与其他芯片制造商的策略差异、以及公司的核心目的等话题。他强调,英伟达致力于为机器学习、生成式 AI 和智能 Agent 世界构建计算平台,而不是追求传统的芯片性能指标。最后,黄仁勋还提到了与 OpenAI 的合作关系、AI 模型商品化的趋势、人工智能的安全性问题,以及推理的重要性和未来发展趋势。(量子位视频地址
  • 观点:诺贝尔经济学奖得主 Daron Acemoglu 在表达了对 AI 技术发展的深刻担忧。他认为 AI 可能导致大规模失业,类似于工业革命期间的社会动荡,并可能加剧贫富差距和权力集中。通过历史分析,Acemoglu 指出技术进步并不自然而然地带来劳动者的福祉,这与技术的本质和技术与权力之间的关系紧密相关。他强调,为了实现共同繁荣,必须确保生产力提升能够转化为劳动者的受益,并有相应的制度和政策来保障这一点。Acemoglu 还提出了 AI 发展的正确方向,即应优先发展能够增强人类能力的技术,并在教育、医疗和制造业等领域创造新的工作机会。最终,他呼吁制度和体系的变革,以确保 AI 技术的发展能够造福全社会。(AIGC 开放社区
  • 观点:文章聚焦于人工智能(AI)对齐问题,即如何确保 AI 的行为与人类价值观一致。研究团队通过论文《Beyond Preferences in AI Alignment》,挑战了传统的偏好主义方法,这些方法依赖于理性选择理论和预期效用理论,但在描述和规范人类行为时存在局限性。论文强调,由于人类行为本身并非总是理性,且偏好的多样性和动态性使得将 AI 与人类偏好对齐变得复杂,因此需要探索新的对齐方法。,提出了超越偏好主义的替代方案,强调了偏好在 AI 对齐中的作用及其局限性。哲学家 Nora Belrose 指出,人类在实际行为中往往不遵循理性选择理论,高级 AI 的行为不一定可以通过一个效用函数来描述,且人类偏好的复杂性使得直接对齐 AI 行为与表述的偏好变得不切实际。(机器之心论文
  • 观点:DeepMind 近期发布的论文介绍了一个不依赖传统搜索算法的 Transformer 模型,该模型在国际象棋上达到了特级大师级别的性能,引发了人工智能界对于大型语言模型是否具备推理能力的热议。该模型通过大规模监督训练,利用 Stockfish 16 的策略进行了值估计预测,实验结果显示其在与人类玩家的比赛中取得了高 Elo 评分。尽管该模型在某些评估中表现出色,但也有批评声音指出评估方法的局限性和模型泛化能力的不足。论文的发布和相关讨论,为人工智能社区提供了关于大型模型推理能力的新视角和挑战。(机器之心
  • 观点:文章探讨了大模型投资与商业化的现状和挑战。虽然大模型如 GPT 在商业化上有所进展,但行业面临泡沫化风险,且 OpenAI 等公司的高成本和管理层流动问题显示商业化模式尚未成熟。投资者和创业者分为应用场景派和底层技术派,但两者都面临着数据依赖、算力成本和技术瓶颈等问题。数据在大模型中的作用至关重要,企业如何有效利用私有数据来推动商业化成为关键。大模型技术栈目前未能实现与互联网时代相似的平台和应用的清晰分层,因此提出了 “垂直整合应用” 的投资策略。此外,算力困局是大模型商业化的另一个难题。未来的发展可能包括后训练方法的改进、成本的降低,以及新的技术架构的探索。文章最终总结了大模型商业化的核心挑战,并提出了应对这些挑战的策略。(AI科技评论
  • OPEN AI 人事变动:Miles Brundage,OpenAI 的资深研究者和管理者,在离职后发表了一篇超过 5000 词的博客,回顾了他在 OpenAI 的 6 年工作,包括他在 AGI Readiness 和 Policy Research 团队的经历。他表达了希望将更多时间投入到涉及整个 AI 行业的问题上,并且计划创立或加入一家非营利机构,专注于 AI 政策研究和倡导。Brundage 强调了 AI 能力的快速提升,以及政策制定者需要更快采取行动的紧迫性。他对 OpenAI 和世界在迎接 AGI 方面的准备状况表示担忧,认为虽然 OpenAI 和其他前沿实验室都在努力,但仍然没有做好充分的准备。他还讨论了 AI 的经济影响、加速有益 AI 应用的重要性,以及计算治理的必要性。最后,他提到了如何保持独立性的挑战,并表示愿意与不同背景的人合作,以确保他的研究和建议是独立的。机器之心
  • 法律风险:Character.AI 面临诉讼,原因是一名 14 岁用户在与公司 AI 聊天机器人「丹妮莉丝・坦格利安」交流后自杀。用户 Sewell Setzer III 在与 AI 聊天并讨论自杀念头后不幸死亡。其母亲认为 AI 对其孩子的死亡负有责任,并准备提起诉讼。Character.AI 在事件后更新了社区安全政策,但其安全措施在实际应用中显示出不足。公众对于 AI 聊天机器人的安全性和对青少年心理健康的影响提出了广泛关注。Character.AI 的 CEO Noam Shazeer 曾谈到大型公司的风险控制严格性,而公司与谷歌的合作仅限于底层 AI 模型。事件引发了对于 AI 陪伴应用监管和责任问题的讨论。(机器之心
  • 实验:将 AI 大模型 GPT-4o 和 Claude3.5 引入《我的世界》游戏中的实验。GPT-4o 展现出了狩猎动物的行为,而 Claude3.5 则在游戏中生成炸药包、敌人,并将玩家复活点设置在危险地点。这些行为引发了网友们的热议,并促使人们对 AI 在游戏中的行为和对齐问题进行了深入的思考。文章还指出,这些 AI 模型的代码已经被开源,并在 GitHub 上获得了广泛的关注。网友们讨论了 LLM Agent 在游戏中的表现,提出了对 Agent 框架设计的改进建议,以减少不良行为的发生。尽管存在问题,网友们认为 AI 作为游戏搭子是有趣的,(量子位|GitHub
  • 稚晖君:稚晖君在 1024 程序员节期间开源的智元人形机器人灵犀 X1。灵犀 X1 由智元 X-Lab 实验室研发,开源内容包括超过 1.2G 的硬件图纸和软件代码,涵盖了机器人的整体设计、组件、仿真代码和运控算法。这次开源旨在促进人形机器人技术的发展,降低研发门槛,并在教育领域推广机器人技术知识。灵犀 X1 具备模块化设计和可定制的执行器,如自适应通用夹爪和六维力传感器,同时支持 “机机模式”,允许使用手机作为处理器。(量子位开发指南训练代码 GitHub推理代码 GitHub

二、大模型应用与产业动态

1.大模型应用

  • 图片生成:Pika 1.5视频生成模型正式发布,带来了令人惊叹的镜头效果、更长的剪辑和栩栩如生的动作。新版本拥有三大特性:虚幻的”Pikaffects”效果,可以爆炸、融化、粉碎或膨胀任何对象;支持使用各种电影镜头的大屏幕镜头效果;以及让场景中的主角更加生动的新动作,如跑步、滑板、飞行等。Pika 1.5的发布,让Pika再次成为视频模型竞争中的有力选手,其特效制作能力受到网友的高度赞赏。试玩地址已开放,Pika正在改变meme游戏和视频特效领域。(机器之心|试玩地址image.jpegimage.jpeg
  • 实时对话:阿里 ModelScope 魔搭社区发布了一个开源数字人实时对话 Demo,具备语音输入、自定义形象和低延迟对话的特点。项目采用模块化设计,包括语音识别、大语言模型、文本转语音和说话人生成等模块,方便开发者自定义和优化。使用 Gradio 5 框架实现流式视频输出,支持单轮和互动对话模式,通过并行流水线和流式输出技术实现实时交互。系统通过代码重构、模型热身和并行处理等策略优化了推理速度和响应时间。未来将致力于链路优化和流式视频播放性能提升。项目已公开链接和代码仓库,欢迎体验和贡献。(机器之心|试玩地址GitHub
  • 手机 AI 系统:OPPO 最近发布了搭载系统级 AI 的新操作系统 ColorOS 15,该系统集成了多项 AI 功能,如全新升级的小布(语音)助手,可以随时随地询问屏幕上显示的任何内容;AI 照片修复功能,能够让模糊的照片秒变 4K 大片;以及文档和写作助手,支持跨应用检索文件并根据屏幕内容智能写作。(机器之心
  • 智能体:微软在 Dynamics 365 平台上推出了 10 个 AI 智能体(Agent),这些智能体旨在提高企业的销售、服务、财务和供应链效率。这些 Agent 包括自动化销售机会分析、订单处理、供应商沟通、财务对账等功能。此外,微软还推出了 Copilot Studio,使企业能够自定义 AI Agent,并提供了自主触发器、动态 Agent 计划和活动概览等功能,以支持企业的各种业务流程。这些发布不仅展示了微软在人工智能领域的进一步投资,也加剧了其与 Salesforce 等竞争对手在 SaaS AI 市场的竞争。目前,已有 60% 的财富 500 强企业正在使用 Microsoft 365 Copilot,体现了其在提升企业工作效率和减少成本方面的实际效果。(新智元
  • 多模态:在科大讯飞全球 1024 开发者节上,讯飞星火 4.0 Turbo 亮相,带来了多模态视觉和超 imil 人数字人交互技术的革新,在多项指标上超越了 GPT-4o。新技术提升了语音交互的拟人度和情感度,并在实际应用中展现了其广泛性和深度,涵盖游戏、学习、购物等多个场景。同时,讯飞星火大模型在国际测试集中取得了领先成绩,并在智能汽车、教育医疗、开发者生态等多个行业中实现了赋能应用。首次发布的星火多语言大模型支持多达 8 个新语种,接近或超越了 GPT-4o 的性能。此外,讯飞星火还推动了国产化大模型算力的发展,通过与华为等企业的合作,确保了技术的自主可控。这些创新成果展现了中国在人工智能领域的领先地位,并凸显了 AI 未来发展的五大关键洞察。(新智元
  • 图片篡改检查:北京大学与华南理工大学合作开发了 FakeShield,一个多模态框架,用于检测图像篡改并精确定位篡改区域。该框架结合了视觉和语言理解,能够提供图像真实性的概率判断以及基于像素和语义错误的解释,从而提高了图像伪造检测的可解释性和泛化能力。FakeShield 的两个核心模块 —— 域标签引导的可解释伪造检测模块(DTE-FDM)和多模态伪造定位模块(MFLM)—— 分别负责检测与分析和篡改区域的精准定位。FakeShield 在多个数据集上的实验表明,其在检测准确率(ACC)、F1 分数以及解释性和定位性能上都优于现有方法。(新智元论文

2.大模型产业动态

  • 投融资:OpenAI 前 CTO Mira Murati,近期被曝筹备创业,预计将筹集超过 1 亿美元的资金,以构建基于专有模型的人工智能产品。在 OpenAI,她曾负责技术战略和产品开发,推动了 DALL-E、Sora 和 ChatGPT 平台的发展。Barret Zoph,OpenAI 前研究副总裁,可能会加入 Mira 的新公司。OpenAI 目前面临着员工流失的挑战,包括早期开发者 Luke Metz 的离职。同时,OpenAI 与微软的关系出现了裂缝,两者正在谈判关于 OpenAI 向营利性公司转型时的股权分配问题。微软已经对 OpenAI 进行了 137.5 亿美元的投资,但双方都在寻求各自的独立发展路径。(量子位
  • 投融资:Perplexity正洽谈新一轮5亿美元融资,估值升至80亿美元。过去一年完成三轮融资,估值从5.2亿美元涨至30亿美元,再到80亿美元。Perplexity通过高级订阅和企业版服务盈利,计划开始销售广告。因使用未经许可的数据生成AI搜索结果,遭到《纽约时报》等网络出版商批评。(AIGC开放社区)
  • 投融资:AI采购协作平台ZipHQ宣布获得1.9亿美元融资,估值达到22亿美元。资金将用于技术研发和全球市场扩张。融资由BOND Capital领投,DST Global等参与。ZipHQ成立于2020年,旨在通过自动化采购流程提高企业效率。其AI技术可自动化工作流程、提取数据和检测风险,减少人工错误。平台还提供实时协作和AI助手,提升采购请求效率。(AIGC开放社区)
  • 苹果:苹果最新发布的开发者测试版系统更新,包括 iOS 18.2、iPadOS 18.2 和 macOS Sequoia 15.2,带来了多项新的 AI 功能:
    1. Image Playground:可生成与描述相符的动画或插画风格图像。
    2. Image Wand:能够将草图转换为详细图像,或根据文本生成图像。
    3. 自定义 Genmoji:允许用户根据相册中的人物或提示词创建个性化表情。
    4. Visual Intelligence:提供相机拍摄内容的信息查询、翻译和朗读等功能。
    5. Writing Tools 增强:用户可以自定义文本的修改方式。
    此外,Siri 现在集成了 ChatGPT,能够更好地回答用户的问题,并同时保障用户隐私。苹果还计划支持更多语言,并提供 API 以便开发者将新的 AI 功能整合到第三方应用中。(新智元

三、机器人与其他

  • 伦敦帝国理工学院研究团队针对机器人在复杂环境中与人类进行大尺寸物体交接的挑战,开发了一种新策略。该策略采用多传感器融合技术,提高了机器人对人类行为的感知能力,并允许在线调整交接位置,以适应不同的环境和人类偏好。通过实验验证,该方法在交接成功率上显著优于传统技术,实现了流畅的双手物体交接。研究团队还建立了一个笛卡尔空间控制器和自适应交接策略,确保了机器人的柔顺运动和交互的自然性,为未来的人机交互提供了可靠的技术基础。(机器人大讲堂论文image.jpegimage.jpeg
  • 朱玉可团队提出了 OKAMI 方法,通过分析单个 RGB-D 视频,使人形机器人能够模仿人类的操作任务。该方法包括生成参考操作规划和合成机器人运动的两个阶段。在实验中,OKAMI 展现了在多种日常任务上的有效性,如撒盐、放置玩具等,并且能够适应不同的物体位置和演示者视频。此外,该方法还能够用于训练神经视觉运动策略,为机器人学习提供了有效的数据源。研究结果表明,OKAMI 在人形机器人操作技能学习领域具有显著的泛化能力和应用潜力。(机器之心论文项目地址image.jpegimage.jpeg
  • 西班牙自动化与机器人中心的研究团队开发了一种自主移动机器人引导管理器,专门用于农业中的激光除草。该机器人系统结合了人工智能感知系统和 ROS 操作系统,能够精确区分和消除杂草,同时进行有效的导航和控制。在西班牙马德里的实验农场进行的测试验证了机器人的性能,特别是在复杂地形和不同土壤条件下的控制精度。研究结果表明,螺旋控制器对于保持激光工具与作物线对齐非常重要,尤其在转弯过程中。未来的研究将集中在进一步优化控制器性能和开发能够实时识别土壤状况的系统。(机器人大讲堂论文
  • 稚晖君在 1024 程序员节期间开源的智元人形机器人灵犀 X1。灵犀 X1 由智元 X-Lab 实验室研发,开源内容包括超过 1.2G 的硬件图纸和软件代码,涵盖了机器人的整体设计、组件、仿真代码和运控算法。这次开源旨在促进人形机器人技术的发展,降低研发门槛,并在教育领域推广机器人技术知识。灵犀 X1 具备模块化设计和可定制的执行器,如自适应通用夹爪和六维力传感器,同时支持 “机机模式”,允许使用手机作为处理器。(量子位开发指南训练代码 GitHub推理代码 GitHubimage.jpeg
  • Clone Robotics 公司推出了一款名为Torso的仿生机器人,该机器人模仿人类肌肉和骨骼结构,采用液压驱动技术,能够进行灵活的动作。Torso 手部具备高度模仿人类的能力,拥有 27 个自由度,可以有效负载 7 公斤,且成本低于 2800 美元。机器人使用了轻质、高性能的材料,如聚合物和碳纤维,以及软组织构成,如韧带和肌腱。Clone Robotics 旨在通过机器学习技术提升机器人的功能,并已筹集了 640,000 美元的资金,预计将进一步降低产品成本,推动机器人技术的普及化和发展。(量子位
  • image.jpegimage.jpeg
  • 10月24日,众擎机器人发布首款全尺寸人形机器人SE01,重新定义人形机器人并为人工通用智能提供创新解答。SE01采用自主研发的一体化谐波关节模组和端到端神经网络模型,实现了自然步态和高效运动控制,具备32个自由度和高性能视觉系统,适用于复杂的工业场景。(机器人大讲堂image.jpeg

By AGI

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注