아파치 티카(Apach Tika) 란?
티카(Tika)는 아파치 소프트웨어 재단에서 운영하는 콘텐츠 감지 및 분석 프레임워크입니다. 다양한 유형의 파일(pdf, zip, ppt, csv, Image format, Vidio foramts... 등)에서 메타데이터와 텍스트를 감지하고 추출할 수 있습니다.
Maven Dependency 추가
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-core</artifactId>
<version>2.6.0</version>
</dependency>
<dependency>
<groupId>org.apache.tika</groupId>
<artifactId>tika-parsers-standard-package</artifactId>
<version>2.6.0</version>
</dependency>
Example Code
public void parse(File file) throws Exception {
BodyContentHandler handler = new BodyContentHandler(-1);
AutoDetectParser parser = new AutoDetectParser();
Metadata metadata = new Metadata();
try(InputStream stream = new FileInputStream(file)) {
parser.parse(stream, handler, metadata);
System.out.println(handler.toString());
}
}
'Programming > JAVA' 카테고리의 다른 글
[Apache VFS] SFTP 파일 업로드 (0) | 2023.03.08 |
---|---|
[openhtmltopdf] HTML을 PDF로 변환하기 (0) | 2023.01.18 |
애니메이션 이미지인지 아닌지 체크하는 방법(Check image animated or not in JAVA) (0) | 2022.09.16 |
[BufferedImage] 이미지 이진화(Image Binarize) (0) | 2022.09.16 |
[Tesseract] 이미지에서 텍스트 추출하기 (OCR) (0) | 2022.09.14 |