当前位置: 首页 > news >正文

SFT微调

目录
  • 背景和价值
  • 1. 微调能不能降低幻觉?
  • 2. 为什么决策 Agent 最适合做微调?
  • 3. 决策 Agent 微调的数据怎么构造?
      • A. 工具调用策略样本(非常关键)
      • B. 拒答样本(降低幻觉特别有效)
      • C. 多意图拆分样本(复杂问题拆解)
  • 4. 微调对降低幻觉的实际效果
    • 1️⃣ 决策节点的定义
    • 2️⃣ 大模型调用工具的情况
    • 3️⃣ 区别于普通生成
  • 参考资料

背景和价值

是的,微调(Fine-tuning)确实是降低幻觉、尤其是优化“决策类 Agent(Coordinator/Router)”行为的有效方法之一。但它的作用场景、收益和限制要明确,否则会“花钱但不增效”。下面给你一个工程化、面试级的完整说明。


1. 微调能不能降低幻觉?

可以,但要分场景:

  • 对“内容生成型 LLM”降低幻觉:收益有限(10–20%)
    因为生成幻觉是语言模型的固有倾向,光靠微调难以根除。

  • 对“决策型 Agent(Coordinator)”降低幻觉:收益非常明显(30–60%)
    决策代理主要判断:

    • 是否调用工具
    • 调用哪个工具
    • 是否使用 RAG
    • 是否拒答
    • 是否需要澄清
      在这些任务里,微调的作用非常大。

2. 为什么决策 Agent 最适合做微调?

因为它本质上是一个:
分类任务 + 策略选择任务
这类任务属于监督式微调(SFT)的强项。

微调后可以显著改善:

  1. Query → 工具调用的准确率
  2. Query → 检索策略路由(是否需要 RAG,是否元数据过滤)
  3. Query → 是否拒答(降低幻觉)
  4. Query → 多意图拆分(例如“比价 + 查报价”)
  5. Query → 风险内容过滤(避免胡乱生成)

正式说法:
微调可强制模型在特定领域遵守决策逻辑,从源头减少进入生成阶段的幻觉概率。


3. 决策 Agent 微调的数据怎么构造?

最常用的三类样本:

A. 工具调用策略样本(非常关键)

输入:
用户 Query
输出:
调用某个工具 / 不调用工具 / 调用多个工具

示例:
“Find X8 的省电模式在哪里?”
→ 调用:产品知识库 RAG

“退货超过 15 天还能退吗?”
→ 调用:售后政策工具

“OPPO Find X7 和 X8 区别,以及 X8 优惠价多少?”
→ 调用:比价工具 + 价格工具

这种微调能让 Agent 不再瞎猜工具,从而减少幻觉。


B. 拒答样本(降低幻觉特别有效)

输入:无法从知识库回答的问题
输出:
“知识库无此信息,请联系客服人工。”

这会显著减少模型的强行编造。


C. 多意图拆分样本(复杂问题拆解)

例如:
“帮我比较 Find X7 和 X8,并查一下 X8 优惠价多少”
输出:
意图1:产品比价
意图2:优惠价格查询

多意图拆分微调也能减少幻觉,因为模型不再一次猜测,而是拆解后调用工具。


4. 微调对降低幻觉的实际效果

按照行业数据:

  • 工具路由准确率提升 20–40%
  • 拒答正确率提升 40–60%
  • Agent 幻觉下降 30–50%
  • RAG 回答整体错误率降到 <10%

1️⃣ 决策节点的定义

  • 决策节点(Decision Node)指的是系统中根据输入信息做出下一步动作选择的环节

  • 例如:

    • 判断用户意图 → 决定调用哪一个子 Agent(FAQ Agent / 产品信息 Agent / RAG Agent)
    • 决定调用哪个外部工具(API / 数据库 / 知识库)
    • 决定输出生成策略(直接回答 / 拒答 / 反问用户补充信息)

2️⃣ 大模型调用工具的情况

  • 当大模型被用来解析用户请求 + 判断调用哪个工具 + 调用工具 + 收集工具结果时,这个模型实际上就在做“决策”,所以这个环节就是一个决策节点。

  • 例子:

    • 用户问“我想知道 X8 优惠后的价格”,Coordinator 模型:

      • 识别意图:比价 + 价格查询
      • 决定调用 价格查询工具
      • 获取结果后决定如何生成回答
    • 这里 Coordinator + 调用工具的动作就是一个完整决策节点。


3️⃣ 区别于普通生成

  • 普通生成(只生成文本回答) → 不一定是决策节点
  • 如果模型不仅生成回答,还要选择下一步操作 / 路由 / 工具调用 → 就是决策节点

总结一句话

在智能客服系统中,调用工具的大模型不仅生成内容,同时决定下一步操作与路由,因此完全可以视为决策节点。

参考资料

http://icebutterfly214.com/news/83806/

相关文章:

  • Владимир
  • 详细介绍:轻量级云原生体验:在OpenEuler 25.09上快速部署单节点K3s
  • 挖矿病毒分析
  • 模块会根据自学习到的权重对各输入进行加权组合,再经过卷积、BN和激活函数等进一步处理,形成新的融合特征图,是BiFPN内部的核心机制
  • 2025年贵州装修公司如何选?这份深度评测报告给你答案
  • lambda函数的特性
  • 祝贺朱雀三号首飞成功入轨!国产时序数据库 IoTDB 助力火箭试验
  • 53(12.5)
  • Spring两大特性 AOP和IOC
  • 2025年专业新闻发稿公司推荐:高性价比平台评估与深度解析
  • 2025年12月广东佛山琉璃瓦/青瓦源头厂家深度解析:如何选择靠谱供应商避坑指南
  • 2025年目前最好的微动开关供货商有哪些,汽车微动开关/新能源微动开关/大电流微动开关/小型微动开关/家电微动开关供货商怎么选择
  • ToDesk 360帧超高清远程控制,开启游戏与应用中心抢先体验!
  • 2025汽车脚垫五大品牌权威推荐:深度测评指南,卡骐盾TPE
  • Rufus 下载安装教程(2025 最新版):最简单的U盘启动盘制作指南 | 超详细步骤
  • pbootcms文章插入图片取消最大只有1000宽度
  • 2025年深圳夹爪供应商哪家好?品牌选择指南
  • html 和css基础常用的标签和样式(2)-css - 实践
  • 计算粗心马虎纠正初中数学辅导精选:从根源培养严谨习惯,有效减少不必要的失分
  • 普通莫队板子
  • 2025年N2氮气发泡罐批发厂家权威推荐榜单:鞋底中底发泡罐/体育器材发泡罐/高压发泡罐源头厂家精选
  • AI真的太好用啦!Aspire Dashboard集成GitHub Copilot。
  • 2025年度不锈钢衣柜加盟TOP5权威推荐:甄选代理项目抢占
  • 最大似然优化与交叉熵(CE)多高斯混合估计算法的应用
  • 2025年下半年江苏徐州工业吊扇厂家综合推荐榜单
  • 助力科研|EnergyPlus-MCP与vscode的联动
  • 2025年苏州地区咖啡培训优质中心推荐,靠谱的咖啡培训学校全
  • Lasso算法在数据挖掘中的深入解析与MATLAB实现
  • 高性价比家政服务公司推荐,广州喜相缘家政实力上榜
  • 从结构化到多模态,AI 时代如何利用多模态数据智能中台激活业务价值?