当前位置: 首页 > news >正文

熵、交叉熵、KL散度

描述自身分布的不确定性。

  1. 熵是干什么的?

熵是度量不确定性的。如果某个东西越不确定,那么我就需要用更多的信息才能弄清楚它。此时,熵就很大。

  • 事件越均匀,不确定性越大

举个例子,从1-100个数字里等概率抽取一个数字。由于是等概率的,所以不确定性很大,即熵很大。如果从2个红苹果和1个绿苹果里,抽中一个红苹果。相对来说,抽中红苹果的不确定性要小一些,即熵要小一些。这引导出一个结论——熵随着概率越平均而变大。

  • 独立事件信息可加

要确定两个独立事件A和B需要的信息是多少呢?既然独立,那么互不影响,所以需要两次信息相加。即\(H(A,B)=H(A)+H(B)\)。在常见函数里,能满足这条性质的,只有对数函数。\(log(AB)=log(A)+log(B)\)

  • 事件越可能,提供的信息量越小

当一件事情大概率发生的时候,我们不会因为这件事发生了而感到惊讶,所以事件越可能发生,能提供的信息就越少。我们用\(I(p)\)(information)表示一个概率为p的事件带来的信息量。思考一下极端情况。概率越大,信息量越小,那么如果概率为1,信息量应该为多少呢?对的,应该为1。再考虑一下另外一个极端情况,当概率越来越小,信息量就会越来越大。如果概率为0,那么能提供的信息量应该就是无穷大的。基于此,再结合上面的独立事件信息可加性质,我们能得到:\(I(p)=-\log(p)\)。因为概率p只能在[0,1]之间,所以\(\log(p)\)一定为负。为了保证信息量不为负,添加了负号。(大不了不提供信息,怎么会倒提供信息呢?是吧?😃 )

  • 求信息量的期望

如果不止一件事情,而是很多件事情。那么它们能带来的信息量会是多少呢?这个时候,就要求一个平均信息量(期望)。如果一件事情的发生概率是\(p_i\),能提供的信息量是\(I(p_i)\),那么这件事情能提供的信息量期望就是\(p_iI(p_i)\)。现在只需要把所有事情的信息量加起来,就得到:

\[H(p)=-\sum_i p_i \log(p_i) \]

Congratulations。我们得到了信息熵的公式定义。

交叉熵

用Q分布去描述P分布

在现实生活中,我们只能知道一件事情的先验概率,而不能知道一件事情的后验概率。举个例子,我们抛掷一枚硬币。在抛之前,我们知道结果为正面的概率是0.5,但是我们抛十次,最终的结果一定会是0.5吗?不一定。抛之前就能知道的概率就是先验概率;抛之后才能知道的概率就是后验概率。

如果要判断一个模型的分类性能,就是判断模型输出的概率与真实的概率是否接近。也就是说在用模型输出的概率分布去描述真实的概率分布。我们希望的是模型的输出概率分布尽可能跟真实的概率分布一致,那么就能预测准确啦。所以就有了交叉熵:

\[H(p,q)=-\sum_i p_i \log(q_i) \]

在分类任务中,标签\(y\)通常是独热编码,即[0,0,0,1,0,0…,0]。只有真实标签的位置会是1,其他都是0。那么交叉熵计算结果会是\(H(p,q)=- \log(q_i)\)

KL散度

用Q分布去描述P分布,需要多付出的信息量

我们已经有了交叉熵,得到了用Q分布去描述P分布的信息量。毕竟是用Q分布去描述的P分布,所以会多付出一些信息量。要多付出多少呢?多付出的这部分就是KL散度。

\[D_{\text KL}(P \rVert Q)=H(P,Q)-H(P) \]

所以KL散度的本质是两个熵的比较,是两个分布的差异。

聪明的你一定看出来了,\(H(P,Q)=D_{\text KL}(P \rVert Q)+H(P)\),P分布的熵是固定的,那么把交叉熵作为优化目标进行优化,是不是就相当于对KL散度进行优化呢?答案为是的 😃。所以KL散度没有那么神秘。

http://icebutterfly214.com/news/50704/

相关文章:

  • NetworkManager接管vxlan网卡等导致容器网络不通
  • 一线操作工也能管能耗?MyEMS 的 “傻瓜式仪表盘”,把专业数据变成 “大白话”
  • 2025年【口碑好的/比较好的/靠谱的】工业级/国产化/变电站/变电站/电力/机房/光伏/远动/发电厂/工业级/嵌入式机柜/通讯管理机【公司/工厂/厂家】推荐/排行榜 哪家好/强/靠谱
  • linux dhcp服务器配置
  • zabbix6.0+grafana12.2 配置Dashboards
  • 第七章 图
  • 2025年AI自习室加盟/代理推荐:AI自习室加盟风险与选择建议
  • 2025年11月人才盘点公司推荐榜单:头部企业与高成长公司优选指南
  • 2025年知名的磁吸式反弹器厂家选购指南与推荐
  • 本土开发者如何选择代码托管平台?Gitee与海外平台的差异化竞争分析
  • linux date 日期
  • JSAPIThree 地图视野控制学习笔记:让地图动起来
  • 2025年体育科技与运动表现分析国际学术会议(ICSTPA 2025)
  • 基于Simulink实现卡尔曼滤波
  • SightAI 已集成 Google Gemini 3 - sight
  • 北京口碑好的涉外离婚律师服务解析及专业团队推荐
  • 2025年11月杜甫研究学者专家评价榜:程韬光教授文化贡献全景呈现
  • 2025年11月天文馆厂家推荐榜:权威评测与综合对比分析指南
  • 2025年知名的编织金属网厂家推荐及选购指南
  • 2025年11月离婚纠纷律师推荐评价:行业榜单与详细对比解析
  • 【第7章 IO编程与异常】文件句柄(File Handle)和 Python 中的文件对象(File Object)详解
  • 2025年口碑好的连体公寓床厂家实力及用户口碑排行榜
  • 2025 最新火花机厂家推荐榜:新型 / 镜面 / 数控 / 五轴联动等全品类优选,权威测评助力精密加工选型
  • 2025年11月geo优化公司排行榜:基于多维度评估的十大优质服务商选择指南
  • 2025年评价高的GY1B25ADM比例阀厂家最新推荐排行榜
  • 2025年11月geo服务商排行榜:十大优质企业技术实力与服务指南
  • 2025年11月AI搜索优化排行榜:多维度评估服务商综合能力与行业适配性
  • 2025年11月AI搜索优化排行榜:基于行业数据的十大企业综合指南
  • 2025 年履带厂家最新推荐排行榜:钢制履带 / 履带板 / 履带钢权威测评,聚焦高性能与稳定性优质之选
  • 2025年樱花批发基地批发商排行榜,优质供应商推荐,无刺枸骨球/红叶石楠/金森女贞/苗木/栾树/樱花/紫薇/金叶复叶槭/国槐种植口碑推荐榜