1. 不依赖于第三方技术,真正实现多种格式文档的自动识别和文字内容的快速提取;目前支持包括MS Office系列、Microsoft RTF、Adobe PDF、Adobe PageMaker、AutoCAD系列、Lotus 1-2-3系列、WordPerfect、mail系列(eml, msg)、压缩文件(zip, rar, lzh, tar, gzip )、HTML、XML等30多种文档的文字内容提出;
2. 国际化的设计思想,支持多国语言的文字编码,目前支持包括中文(简繁)、日文、韩文、英文和国际通用编码方式在内的十多种字符编码集合;用户可以自由设定输出字符编码方式,方便信息的统一处理;
3. 秉承方便用户的设计理念,提供对多种操作系统的支持,目前支持包括Windows系列、Linux系列、Solaris、IBM AIX、HP UNIX等在内的多种操作系统;真正满足用户的各种需求;
4. 采用多线程技术,支持Server端的多道并发操作,方便用户嵌入到各种应用系统;
5. 功能丰富的用户接口,除提供包括文档文字提取、文档属性提取、文档文字信息的按页提取、加密文档(PDF)的文字提取等多种用户API以外,还提供30多种用户选项,方便进行文字信息的各种操作;
6. 采用优秀的多级嵌入文档自动递归算法,实现从email文档→附件(包括压缩文件)→OLE嵌入文档的文字内容的彻底提取;真正消除用户的后顾之忧。 |