Press "Enter" to skip to content

Apache Tika实战

参数 说明
InputStream 待解析的文档,以字节流形式传入,可以避免tika占用太多内存
ContentHandler 内容处理器,用来收集结果,Tika会将解析结果包装成XHTML SAX event进行分发,通过ContentHandler处理这些event就可以得到文本内容和其他有用的信息
Metadata 元数据,既是输入也是输出,可以将文件名或者可能的文件类型传入,tika解析时可以根据这些信息判断文件类型,再调用相应的解析器进行处理;另外,tika也会将一些额外的信息保存到Metadata中,如文件修改日期,作者,编辑工具等
ParseContext 解析上下文,用来控制解析过程,比如是否提取Office文档里面的宏等