跳转到主要内容
模糊区间是一种工具,使程序能够根据假设的长度来评估其质量。模糊区间可以用长度单位(点、毫米等)或字符数(对于行而言)来衡量。对于一个模糊区间,必须指定四个数值,用于确定可能取值范围和最优取值范围。为简化设置,程序中提供了一个易于使用的模糊区间编辑器。 假设你有一个模糊区间 {f1,f2,f3,f4},并且检测到的字符串长度(以字符计,或者对于检测到的空格则以点数计)为 L。如果长度 L 落在 f2 到 f3 范围内(即 L>=f2 and L<=f3),则该假设的质量等于 1。如果长度落在 f1 到 f2 范围内,则假设质量会在 0 到 1 之间成正比变化(Quality(f1) = 0, Quality(f2)=1)。类似地,如果长度落在 f3 到 f4 范围内,则假设质量会在 1 到 0 之间成正比变化(Quality(f3) = 1, Quality(f4) = 0)。如果长度不在 f1 到 f4 的范围内(即 L<f1 or L>f4),则假设质量为 0(Quality(L) = 0)。检测到对象的假设质量再乘以 Character count 属性的值,该属性会根据检测到对象的长度进行选择。 Fuzzy_interval
注意: 对于由多个元素组成的任意假设链,其质量是通过将链中每个元素的假设质量相乘来计算的。如果链足够长,并且由于限制过于严格导致构成该链的各个假设的质量评分都较低,那么整条链的最终质量也可能过低。
因此,建议确保所选假设具有尽可能高的质量评分。另一方面,也需要能够根据质量区分不同的假设,以便选出最佳假设。因此,需要以这样的方式来设置模糊区间(用于评估假设的数学函数),使可接受的假设不会被过度惩罚。 对于模糊区间的左边界,也可以使用负值(即使在现实中不存在长度为负的字符串)。这有助于使在 (0, 1) 区间上的质量曲线不那么陡峭,从而降低质量惩罚。如果你需要为该参数设置一个下限(例如,字符串长度不能小于 10 个字符,而该字符串长度的模糊区间为 [-10,20,30,40}),可以直接在 Hypothesis Evaluation 中通过设置 Value.Length >=10 来实现。 Fuzzy_interval_I 我们不建议将区间边界设置得过于严格。这在处理质量参差不齐的图像时尤为重要。例如,在某些图像上,由于源文档质量较差或扫描选项设置的问题,字符与字符之间可能会出现额外的空隙。在这种情况下,程序可能会将一个字符解释为多个字符,如果区间过于严格,就会导致该假设的质量急剧下降。结果,程序可能会丢弃该假设(尽管它在本质上可能是正确的),而选择另一个假设。因此,如果你需要通过比较长度在多个假设之间进行选择,应在 Hypothesis Evaluation 中使用附加条件来实现。