PDFlib TET(文本内容提取工具包)是一款可以从任意PDF文档格式中可靠地提取文本信息的软件。它不仅可以作为一种库/控件,还可以一种命令行工具。该工具包可以使得PDF格式的文本内容转换成Unicode(统一的字符编码标准)字符串,并附加详细的字形和字体信息。一旦拥有了TET,你就可以从PDF文档中的文本获取相应的Unicode字符值,以及它在页面的位置。
具体描述:
除了低水平的文字获取功能外,TET还包含有文本内容分析算法——鉴别单词边界,去除冗余和重复文本(比如文字阴影和字体加粗)。使用辅助的PCOS接口,你就可以从PDF格式文本获取任意格式的对象,比如元数据,超文本等。
一旦拥有PDFlib,你就可以实现以下功能:
支持的PDF文本格式输入
Unicode
完全支持CJK(中文,日文,韩文)语种
TET包含有对中文,日文,韩文文本提取功能的全面支持。识别所有预先定义的CJK映射(编码);支持横向和纵向书写模式。
内容分析和单词识别
几何功能
TET对文本提供精确的几何功能,比如页面定位,字形宽度,文字方位。在文字提取过程中,可以指定页面某区域被提取或不被提取,比如忽略头注,脚注或页边空白区域。
简单访问PDF对象的pCOS接口
TET包含有获取任意PDF对象的pCOS(PDFlib综合性对象系统)接口。拥有了pCOS,只要一个简单的查询接口,不需要任何底层编程,你就可以获取PDF元数据,超文本,或是除实际页面描述之外的其他任意信息。
编程和性能
TET是基于轻便性,高性能,健壮性思想进行开发的。TET在多线程服务器应用程序开发部署中保证线程级安全。核心库是由具有高性能和低成本的并且高度优化过的C代码编写的。附加的语言包对COM,C,C++,Java和.NET均有效。TET命令行工具和TET库TET在不同的开发环境中可以作为一种编程库(控件),以及在批处理命令中作为一种命令行工具。两者都提供了相同的基本功能,并且适合不同的部署任务。以下提供选择的参考指南:
一款功能强大的,支持多个开发平台的PDF综合控件包
一款功能强大的PDF控件
一款功能强大的PDF文本提取控件
一款功能强大的PDF线性化、优化和保密控件
一款功能强大的PDF转换、创建和读取控件
为你的应用程序添加PDF创建、修改、浏览以及PDF文档转换功能
一款功能强大的,支持多个开发平台的PDF综合控件包
一款功能强大的PDF创建、编辑、读取、浏览控件
一款VCL平台下的PDF浏览、编辑、分割、合并控件
一款享誉全球的.NET图表控件,支持多种图表类型,帮助开发人员快
一款功能强大的界面套包产品,支持WinForm、WPF、SilverLight、A
一款全球顶级的流程图绘制控件
一款功能强大的.NET报表控件,可以进行报表的设计,展示和用户自
精确的ICR和OCR识别控件