使用LEADTOOLS创建和处理OMR表单

使用LEADTOOLS创建和处理OMR表单

编码文章call10242025-04-25 11:09:0410A+A-

大多数表单使用少量的OMR字段捕捉信息,如性别和婚姻状况。这几乎没什么困难,因为处理的字段非常少。另一方面,创建和处理多项选择题为主体的表单非常困难,因为大量的字段会出现在一个页面里。此外,复选框、气泡和其他尺寸很小类型的OMR字段,造成了潜在的问题,会导致更多的错误结果。

下面,我们将为您详细讲解如何使用LEADTOOLS创建一个OMR表单识别应用程序来缓解这两个常见问题。这个备受殊荣的图像SDK包含了所有必须的工具,将省时、程序员友好的API与最精准的识别率结合,最终解决方案的质量将达到一个无与伦比的水平。

使用LEADTOOLS OCR在主表单中添加OMR字段

表单识别应用程序的第一步是创建主表单。这些主表单或空白的表单模板有两个主要作用。第一,使用它们确定扫描文档表单的类型。第二,字段表明了表单中数据识别和提取的区域。对许多系统来说,创建一个基于OMR的表单非常繁琐,因为它包含了很多重复的选择框。手动绘制每一个字段非常耗时。值得庆幸的是,LEADTOOLS的IOcrEngine.AutoZone方法可以自动检测所有OMR字段。在页面中找到每个区域后,你可以在集合中循环,为每一个OMR区域添加一个新的OMR字段。

FormPages formPages = currentMasterForm.ReadFields; 
// 创建 OCR 引擎  
using (IOcrEngine ocrEngine = OcrEngineManager.CreateEngine(OcrEngineType.Advantage, false))  
{  
   ocrEngine.Startup(null, null, null, null);  
   ocrEngine.SettingManager.SetEnumValue("Recognition.Zoning.Options", "Detect Text,   
       Detect Graphics, Use Text Extractor, Detect Checkbox");  
   using (IOcrDocument ocrDocument = ocrEngine.DocumentManager.CreateDocument)  
   {  
      // 自动分区  
      ocrDocument.Pages.AddPages(rasterImageViewer1.Image, 1, 1, null);  
      ocrDocument.Pages.AutoZone(OcrZoneParser.Leadtools, OcrZoneFillMethod.Omr,   
         LogicalUnit.Pixel, 0, 0, null);  
      // 为每一个OMR区域添加一个表单列表  
      FormField newField;  
      IOcrZoneCollection zones = ocrDocument.Pages[0].Zones;  
      for (int i = 0; i 

图1:OMR字段检测后的主表单

OCR引擎的AutoZone方法获取每一个区域的位置,但是有很多方法命名它们。这个简单的例子为所有区域起了一个基本名称,但可以检查FormField.Bounds属性决定哪些区域在相同的行或列,通过此方法扩展这个逻辑,更智能的命名区域。此外,你还可以使用主表单编辑器示例或手动编辑存储字段数据的XML文件。

使用LEADTOOLS表单识别和处理

大多数扫描文档处理系统必须能够处理多种表单类型。一个可行的低效率解决方案可能针对不同类型的表单使用不同的应用程序、按钮或对框。这可以实现自动化的数据处理,但并非全自动,它需要手动通知应用程序使用哪个表单模板处理扫描图像。最佳的解决方案是自动识别或分类表单,然后基于这些发现处理。LEADTOOLS提供了可靠灵活的大量分类数据的表单识别能力,包括logo、黑白区域、OCR、条码等。

// 为机器上的每一个处理器创建一个OCR引擎。允许在识别和处理过程中优先使用线程。 
ocrEngines = new List;  
for (int i = 0; i 

从完整的OMR表单中提取答案

一旦表格识别成功,就可以处理字段,从填好的文档中提取OMR数据。选择OMR解决方案的一个重要考虑因素是如果准确处理填写风格的差异。尽管在填写表单时有严格的规定,但是每个人填写OMR字段的方法都各不相同。

图2:填写OMR字段的差异

如果你还记得图1,你会发现字段以问题编号和列编号命名,中间用连字符分隔。有了这样的命名模式,我们就可以轻松确定每列中填写了哪个复选框,然后将它添加到我们的数据源中。

int nNewRowIndex = dataGridView1.Rows.Add; 
foreach (FormPage formPage in runResult.FormFields)  
{  
   foreach (FormField field in formPage)  
   {  
      if (field.Result.GetType == typeof(OmrFormFieldResult))  
      {  
         // 填写复选框了吗?  
         if ((field.Result as OmrFormFieldResult).Text == "1")  
         {  
            // 获取这个复选框的问题编号和值(列标号)  
            string strQuestionValue = field.Name.Split('-');  
            dataGridView1.Rows[nNewRowIndex].Cells[string.Format("col{0}",   
                strQuestionValue[0])].Value = strQuestionValue[1];  
         }  
      }  
   }  
}

图3:完整识别的结果

当然有很多方法可以命名字段并将答案与你的数据源关联。在应用程序的开始阶段你可以小小的计划一下,使用LEADTOOLS根据任意的主表单和数据源设计你自己的OMR表单识别解决方案,这个解决方案可靠、灵活且准确。

本站文章除注明转载外,均为本站原创或翻译

欢迎任何形式的转载,但请务必注明出处,尊重他人劳动成果

转载请注明:文章转载自:慧都控件网 [http://www.evget.com]

本文地址:
http://www.evget.com/article/2015/7/20/22482.html

点击这里复制本文地址 以上内容由文彬编程网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

文彬编程网 © All Rights Reserved.  蜀ICP备2024111239号-4