Skip to content

Latest commit

 

History

History
82 lines (47 loc) · 3.53 KB

README.md

File metadata and controls

82 lines (47 loc) · 3.53 KB

PDF en EPUB ontrafeld

Achtergrondinformatie en verdiepende materialen bij het KB Summerschool onderdeel "PDF en EPUB ontrafeld".

Geschiedenis

The History of the PDF: Timeline

Opbouw en structuur

Inside PDF is een serie artikelen over hoe het PDF formaat in elkaar zit. Erg technisch, dus vooral voor de echte die-hards!

Problemen PDF tekstextractie

Geschiedenis

EPUB History and Future

Opbouw en structuur

A look inside an EPUB file - een EPUB bestand is eigenlijk gewoon een ZIP container, met daarin XML metadata en XHTML content.

Problemen EPUB tekstextractie

Valid, but not accessible: crazy fixed EPUB layouts gaat in op problemen die kunnen optreden met "fixed layout" EPUB bestanden. Tekstextractie op dergelijke bestanden kan ook onverwachte resultaten opleveren. Niet genoemd hier: EPUBs die uit alleen maar afbeeldingen bestaan (dit zie je vaak bij geïllustreerde kinderboeken).

Tekstextractie met Apache Tika

Apache Tika is open-source software voor het herkennen en extraheren van metadata en tekst. Tika ondersteunt een groot aantal bestandsformaten, waaronder PDF en EPUB.

Tika-python is een Python wrapper waarmee je Apache Tika binnen Pythonprojecten kunt gebruiken.

Tika-python instalatie

pip install tika

Tika-python voorbeeld

Onderstaande code leest een input PDF bestand uit, extraheert de tekst met Tika-python, en schrijft de geëxtraheerde tekst weg naar een output tekstbestand:

#! /usr/bin/env python3

import tika
from tika import parser

# Define input, output
fileIn = "whatever.pdf"
fileOut = "whatever.txt"

# Parse input file
parsed = parser.from_file(fileIn, service='text')

# Get text
content = parsed["content"]

# Write text to output file 
with open(fileOut, 'w', encoding='utf-8') as fout:
    fout.write(content)

Vergelijking tekstextractietools voor EPUB

Meer PDF tools