AI
刷新
深度学习进阶(二十七)现代 LLM 的核心架构设计其二:SwiGLU

博主头像 上一篇我们看了现代大模型对归一化的改造。 RMSNorm 去掉了均值中心化,只保留均方根缩放:一个沿用多年的标准组件,拆开一看,其中一部分工作在现代整体架构中已经有些多余了。 本篇来看第二个改动:Transformer 架构中的 FFN (MLP) 层的重构,而其具体内容,需要先从激活函数说起。 1 ...

计算机程序设计的初衷 程序员编程助手科技股份有限责任公司

博主头像 -程序员编程助手科技股份有限责任公司 计算机程序设计的初衷 考试单选计算机程序设计的初衷 工程正确答案 答案解析:未设置 编程算法测试题 AIAgentFroHKStarUniv 项目组研发工程师 问卷0.25M 问卷1程序员职业⽣涯 是出版书籍吗2程序员编程助⼿科技股份有限责任公司深圳市⼀线城市排 ...

90% 的人不知道:Hermes 每个对话都悄悄保存了!这 5 个隐藏功能让你效率翻倍

博主头像 Hermes Agent 会话使用教程 辛辛苦苦调试了半天,关闭终端后对话记录就消失了?面对堆积如山的聊天历史,想找回上周讨论的 API 设计方案却翻到眼花?Hermes Agent 的 会话(Session) 系统完美解决了这些痛点——每次对话都会被自动保存为独立会话,支持 持久化存储、跨会话恢复 ...

agent 进阶:Plan-and-Execute 适合什么样的场景

博主头像 前言 本文主要描述Plan-and-Execute开发中的ReAct模式,并且使用一个demo,彻底搞懂怎么在实际工作中使用Plan-and-Execute模式 话不多说,我们开始 代码结构 代码地址 . ├── main.py # 主入口,串起规划、执行、分析三个阶段 ├── planner.py ...

Cloud Agent 开发笔记(3):Web 交互与数据持久化

博主头像 Cloud Agent 开发笔记(3):Web 交互与数据持久化 上一篇搭好了 Agent 引擎和 Tool 体系:query() 能跑、Tool 能调、安全有 pathGuard 兜底。但这一切都是在服务端发生的。Agent 生产的事件怎么到浏览器?消息怎么存才能让用户刷新页面不丢?多个会话同时跑 ...

数据查询方式最左匹配原则

博主头像 -程序员编程助手科技股份有限责任公司 数据查询方式最左匹配原则 数据库数据查询检索采用sql query language 。数据库的数据存储数据度量初始化不会使用很多很大的数据统计新能优化方案。数据库的操作语言通用语言SQL发布。基础的关键字函数调用库发布本地函数库。携带轻量级别的数据库查询语言标 ...

MCP协议

博主头像 MCP 协议:屏蔽了LLM和Tool之间的差异 大家都感受到了,最近两年 AI 简直火得一塌糊涂。而且现在的 AI 越来越好用,不再只是陪你干聊,而是能实打实帮你写代码、查数据库、跑自动化的Agent了。Agent想要干活,就必须得学会“使用工具”。那么问题来了:AI是怎么学会用工具的?使用工具为什 ...

Qwen3.7-Plus新一代多模态智能体核心突破

博主头像 Qwen3.7-Plus新一代多模态智能体核心突破Qwen3.7-Plus是全新升级的新一代多模态智能体,成功构建起从感知认知到落地执行的全链路完整闭环,实现了人工智能技术与落地能力的多重突破,标志着AI从“理解世界”正式迈向“改造世界”的实质性跨越。其独创的混合智能体架构,也为各行业产业自动化升级 ...

Codex 上下文压缩总是失败?骚操作解决方案来了!

博主头像 大家好,我是R哥。 最近用 Codex 处理复杂任务,总是遇到一个很烦的问题:上下文总是触发自动压缩,并且总是压缩失败,这个问题发生的概率基本是 100% 的,特别是复杂任务。 如图所示: 不知道大家有没有遇到过这个问题? 每次我都是新开一个会话,然后把关键上下文丢给它重新开始。 但是,这样我发现效 ...

AI 只会聊天不会干活?Hermes Agent 内置 47 个工具,一个指令让它秒变全能助手

博主头像 Hermes Agent 工具使用教程 你是否曾经对着 AI 智能体说"帮我查个资料",结果它只能干聊,既不能上网搜索,也不能帮你执行命令、操作文件?Hermes Agent 内置强大工具系统,将网络搜索、终端执行、浏览器自动化、媒体生成等能力封装为可调用工具与工具集。本文从工具概览、启用方式、核心 ...

【IoTDB 社区】白话时序大模型系列-4:时序大模型到底有多“大”?

博主头像 目前市面上的时序大模型,参数规模大概在十亿级。来看几个代表性选手: 大家可能发现了:上面提到的这些时序大模型,数十亿参数,听起来不少,但跟 GPT-4 那种上万亿的体量一比,好像也不大? 为什么现在的时序大模型,参数量“不大”呢? 这有一个很现实的原因:公开的高质量时序数据集太少了。 语言模型为什么 ...

主动的咨询企业招聘信息和及时查询应试面试结果 应届毕业生六月份毕业季校园招聘结束大量的国家教育高等机构的人才流动分布于不同的城市和企业

博主头像 -程序员编程助手科技股份有限责任公司 主动的咨询企业招聘信息和及时查询应试面试结果 应届毕业生六月份毕业季校园招聘结束大量的国家教育高等机构的人才流动分布于不同的城市和企业 主动的咨询企业招聘信息和及时查询应试面试结果。应届毕业生六月份毕业季校园招聘结束大量的国家教育高等机构的人才流动分布于不同的城 ...

OpenViking配置

博主头像 搭配Hernes使用的记忆工具插件,OpenViking配置文件基础介绍 项目 ov.conf ovcli.conf 角色 服务端(Server)配置 客户端 / CLI 配置 控制对象 服务本身、模型、存储、日志 CLI 如何连接 Server 核心字段 storage / log / serve ...

123···50>