控件中国网现已改版,您看到的是老版本网站的镜像,系统正在为您跳转到新网站首页,请稍候.......
中国最专业的商业控件资讯网产品咨询电话:023-67870900 023-67871946
产品咨询EMAIL:SALES@COMPONENTCN.COM

PDFlib TET

  • 当前版本:v4.0
  • 开 发 商:PDFlib
  • 产品功能:PDF文本提取
  • 可用平台:VC/VB/Visual Studio 2005/2008/2010/JAVA



PDFlib TET是一款功能强大的PDF文本和图像提取工具,可以从任意PDF文档格式中可靠地提取文本信息的控件。它不仅可以作为一种库/控件,还可以一种命令行工具。该工具包可以使得PDF格式的文本内容转换成Unicode(统一的字符编码标准)字符串,并附加详细的字形和字体信息。一旦拥有了TET,你就可以从PDF文档中的文本获取相应的Unicode字符值,以及它在页面的位置。

具体功能:

除了低水平的文字获取功能外,TET还包含有文本内容分析算法——鉴别单词边界,去除冗余和重复文本(比如文字阴影和字体加粗)。使用辅助的PCOS接口,你就可以从PDF格式文本获取任意格式的对象,比如元数据,超文本等。

一旦拥有PDFlib,你就可以实现以下功能

  • 从PDF格式文本中提取内容,然后存储到数据库中
  • 执行搜索引擎来处理PDF格式文本
  • 将PDF格式的文本页面转换成XML格式文本,以便其他工具处理
  • 基于PDF格式的文本内容进行处理
  • 支持的PDF文本格式输入
  • 支持最新的PDF版本
  • 所有的字体和编码类型:base 14字体,TrueType字体,PostScript字体, CID字体用40-128位密钥加密的PDF(适当的权限密码设置


Unicode

  • 尽管PDF文档中的文本并不是经常用Unicode进行编码,PDFlib TET将会使PDF文档中的文本统一规格化为Unicode字符。
  • TET转换所有的文本内容为Unicode字符。中文文本将会转换成UTF-8或UTF16格式,同样地,其他语言的文本将会转换成本地的Unicode字符串。
  • 连字符和其他多字符字形将会分解成一系列的Unicode 字符串。
  • 没有适当的Unicode映射的字形可以被识别并且被映射到可配置的替换字符
  • 完全支持CJK(中文,日文,韩文)语种
  • TET包含有对中文,日文,韩文文本提取功能的全面支持。识别所有预先定义的CJK映射(编码);支持横向和纵向书写模式。
  • 内容分析和单词识别


TET不仅可以获取低水平的字形信息,还包含对内容分析的高级算法:

  • 检查单词边界来获得单词而不是字符串。
  • 重新组合带有连字符号的单词的各部分。
  • 去除重复的文本内容,比如阴影效果文本和加粗效果的文本
  • 按照阅读顺序重新整合段落
  • 对页面上散乱的文本内容进行重排
  • 重建文本行
  • 几何功能
  • TET对文本提供精确的几何功能,比如页面定位,字形宽度,文字方位。在文字提取过程中,可以指定页面某区域被提取或不被提取,比如忽略头注,脚注或页边空白区域。


简单访问PDF对象的pCOS接口

TET包含有获取任意PDF对象的pCOS(PDFlib综合性对象系统)接口。拥有了pCOS,只要一个简单的查询接口,不需要任何底层编程,你就可以获取PDF元数据,超文本,或是除实际页面描述之外的其他任意信息。

编程和性能

TET是基于轻便性,高性能,健壮性思想进行开发的。TET在多线程服务器应用程序开发部署中保证线程级安全。核心库是由具有高性能和低成本的并且高度优化过的C代码编写的。附加的语言包对COM,C,C++,Java和.NET均有效。TET命令行工具和TET库TET在不同的开发环境中可以作为一种编程库(控件),以及在批处理命令中作为一种命令行工具。两者都提供了相同的基本功能,并且适合不同的部署任务。以下

提供选择的参考指南:

TET编程库可以整合到你的桌面或服务器端应用程序。关于使用包含所有支持的语言包的编程库的实例都包含在TET包中。TET命令行工具适合批处理PDF文档。它不需要任何的编程,只需要提供能够整合到复杂的工作流程中的命令行参数。TET命令行工具可以将PDF格式的页面内容转换为Unicode文本格式的XML文档(有或没有字符几何特征)
 

热推产品

  • ActiveReport... 强大的.NET报表设计、浏览、打印、转换控件,可以同时用于WindowsForms谀坔攀戀Forms平台下......
  • AnyChart AnyChart使你可以创建出绚丽的交互式的Flash和HTML5的图表和仪表控件。可以用于仪表盘的创......
首页 | 新闻中心 | 产品中心 | 技术文档 | 友情连接 | 关于磐岩 | 技术支持中心 | 联系我们 | 帮助中心 Copyright-2006 ComponentCN.com all rights reserved.重庆磐岩科技有限公司(控件中国网) 版权所有 电话:023 - 67870900 传真:023 - 67870270 产品咨询:sales@componentcn.com 渝ICP备12000264号 法律顾问:元炳律师事务所 重庆市江北区塔坪36号维丰创意绿苑A座28-5 邮编:400020
在线客服
在线客服系统
在线客服
在线客服系统