Programming/JAVA

[Apache Tika] 문서파일에서 텍스트 추출하기

빈쿵바라기 2022. 12. 15. 00:11

 

아파치 티카(Apach Tika) 란?

티카(Tika)는 아파치 소프트웨어 재단에서 운영하는 콘텐츠 감지 및 분석 프레임워크입니다. 다양한 유형의 파일(pdf, zip, ppt, csv, Image format, Vidio foramts... 등)에서 메타데이터와 텍스트를 감지하고 추출할 수 있습니다.

 

Maven Dependency 추가

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-core</artifactId>
    <version>2.6.0</version>
</dependency>

<dependency>
    <groupId>org.apache.tika</groupId>
    <artifactId>tika-parsers-standard-package</artifactId>
    <version>2.6.0</version>
</dependency>

 

Example Code

public void parse(File file) throws Exception {
    BodyContentHandler handler = new BodyContentHandler(-1);
    AutoDetectParser parser = new AutoDetectParser();
    Metadata metadata = new Metadata();

    try(InputStream stream = new FileInputStream(file)) {
        parser.parse(stream, handler, metadata);
        System.out.println(handler.toString());
    }
}