跳转到主要内容模糊区间是一种工具,使程序能够根据假设的长度来评估其质量。模糊区间可以用长度单位(点、毫米等)或字符数(针对文本行)来度量。对于一个模糊区间,必须指定四个数值,用于确定可接受区间与最优区间。为便于使用,程序提供了一个易用的模糊区间编辑器。
假设你有一个模糊区间 {f1,f2,f3,f4},检测到的字符串长度(对空白区域为点数,对文本为字符数)为 L。若长度 L 位于 f2 到 f3 的范围内(即 L>=f2 and L<=f3),则该假设的质量为 1。若长度位于 f1 到 f2 之间,假设的质量随长度成正比从 0 过渡到 1(Quality(f1) = 0, Quality(f2)=1)。同样地,若长度位于 f3 到 f4 之间,假设的质量随长度成正比从 1 下降到 0(Quality(f3) = 1, Quality(f4) = 0)。若长度不在 f1 到 f4 的范围内(即 L<f1 or L>f4),则假设的质量为 0(Quality(L) = 0)。检测到对象的假设质量还会与 Character count 属性的取值相乘,该属性会根据检测对象的长度进行选择。
注意: 对于由多个元素组成的任何假设链,其质量通过将链中每个元素的假设质量相乘来计算。若链足够长,且由于限制过严导致各组成假设的质量评估偏低,则整条链的最终质量也可能过低。
因此,建议尽量确保所选假设的质量评估尽可能高。另一方面,你也需要能够根据质量区分不同的假设,以便选出最佳方案。因此,设置模糊区间(用于假设评估的数学函数)时,应避免对可接受的假设施加过高的惩罚。
模糊区间的左边界也可以使用负值(尽管现实中不存在负长度的字符串)。这有助于在区间 (0, 1) 上使质量曲线更平缓,从而降低质量惩罚。如果需要为该参数设置下限(例如字符串长度不能小于 10 个字符,且字符串长度的模糊区间为 [-10,20,30,40}),可以在 Hypothesis Evaluation 中直接设置 Value.Length >=10。
我们不建议将区间边界设置得过于严格。这在处理质量参差不齐的图像时尤为重要。例如,在某些图像上,由于源文档质量较差或特定的扫描设置,空白处可能会出现杂点或粘连字符。在这种情况下,程序可能会将一个字符解释为多个字符,如果区间过于严格,将导致假设质量大幅下降。结果,程序可能会丢弃该假设(尽管它本质上可能是正确的),转而选择另一个。因此,如果需要通过比较长度在多个假设之间进行选择,应在 Hypothesis Evaluation 中配合使用附加条件。