![]() |
慈祥的砖头 · 德国出入境海关的相关规定 - 知乎· 2 年前 · |
![]() |
俊逸的火锅 · 《孙悟空大战盘丝洞》 - 花小友的小花花 - 简书· 2 年前 · |
![]() |
ibaobao · 初音家族游戏,介绍和全攻略,下方附链接 - ...· 2 年前 · |
![]() |
9976254 · TiDB 源码阅读系列文章(五)TiDB ...· 5 年前 · |
1948年,香农(Claude Shannon)在他著名的论文“通信的数学原理”( A Mathematic Theory of Communication )提出了 “信息熵” 的概念,解决了信息的度量问题,并且量化出信息的作用。
不确定性越高,这条信息的信息量越大;不确定性越低,信息量越小。
如何量化?
猜数字游戏:主持人在纸上写下一个[1,64]之间的整数,你来猜这个数字是什么。你每猜一次,我会告诉你对或者不对。问最少需要几次可以得出正确答案?——6次:二分问法,第一次问“答案≤32吗”;若是,第二次问“答案≤16吗”…——
H
(
X
)
=
−
x
∈
X
∑
P
(
x
)
lo
g
P
(
x
)
(
1
)
变量不确定越大(均匀分布是最大),熵就越大,要把它搞清楚所需要的信息量也就越大。
一个事物内部会有随机性,也就是不确定性,假定为
几乎所有的自然语言处理、信息与信号处理的应用都是一个 消除不确定 的过程。
自然语言的统计模型中,一元模型是通过词本身的概率分布来消除不确定因素,而二元及更高阶的语言模型还使用了上下文的信息。
在数学上可以严格证明为什么这些“相关的”信息也能消除不确定性——条件熵(Conditional Entropy)。
🍉一个有意思的问题:上述式子中等号什么时候成立?
那么如何量化这种相关性呢?👇
——两个随机事件“相关性”的量化度量。
假定有两个随机事件 P ( Y ) 三个概率,从而很容易计算出互信息。因此互信息被广泛用于度量一些语言现象的相关性。
机器翻译中最难的两个问题之一就是词义的二义性(又称歧义性,Ambiguation)问题。使用互信息是解决这个问题最简单而实用的方法。例如:
——信息论中另一个重要的概念
用来衡量两个取值为正数的函数的相似性,定义如下:
K
L
(
f
(
x
)
∣
∣
g
(
x
)
)
=
x
∈
X
∑
f
(
x
)
⋅
lo
g
g
(
x
)
f
(
x
)
(
5
)
三个结论:
相对熵是
不对称
的:
J
S
(
f
(
x
)
∣
∣
g
(
x
)
)
=
2
1
[
K
L
(
f
(
x
)
∣
∣
g
(
x
)
)
+
K
L
(
g
(
x
)
∣
∣
f
(
x
)
)
]
(
6
)
熵、条件熵、相对熵——这三个概念与语言模型的关系非常密切。
如何定量地衡量一个语言模型的好坏?
困惑度(perplexity):它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为:
PP(S) = P(w_1w_2...w_N)^{\frac{1}{N}} \\ = \sqrt[N]{\frac{1}{p(w_1w_2...w_N)}} \\ = \sqrt[N]{\prod_{i=1}^{N}\frac{1}{p(w_i | w_1w_2...w_{i-1})}}
P
P
(
S
)
=
P
(
w
1
w
2
.
.
.
w
N
)
N
1
=
N
p
(
w
1
w
2
.
.
.
w
N
)
1
=
N
i
=
1
∏
N
p
(
w
i
∣
w
1
w
2
.
.
.
w
i
−
1
)
1
或者等价地,