ePub, le format pour livre électronique

ePub est devenu le standard de fichier pour les livres électroniques, ou eBook, grâce à sa capacité d'adaptation a tous les types d'affichages des matériels de lecture.

Ce format est utilisé par la plupart des fabricants de liseuses, à l'exception des Kindles d'Amazon. Amazon utilise un format semi-propriétaire. Jusqu'ici son code était dérivé de MobiPocket (avec des modifications mineures), une autre alternative à ePub.
La dernière version pour les nouveaux Kindles, nommée Format 8, incorpore le code HTML 5 pour des possibilités multimédia étendues. Grâce à SVG et aux feuilles de style, le graphisme et les effets graphiques sont maintenant disponibles. Il devient ainsi possible de réaliser des bandes dessinées dynamiques.
La plupart de ces fonctionnalités sont déjà incluses dans ePub 3.

L'IPDF ( International Digital Publishing Forum), association créée dans le but de fournir un format standard aux livres électronique, a choisi ePub.

En 1999 elle avait d'abord définit un format autour de HTML nommé Open eBook, puis elle a adopté en 2007 un ensemble de trois spécifications, pour le conteneur, la mise en forme et le contenu, l'ePub.
L'association continue à oeuvrer sur les spécification pour tenir compte de l'évolution des matériels.

Le fichier ePub

Un fichier de livre électronique à l'extension .epub. Il est au format zip et contient des documents pour informer sur le contenu, pour sa présentation, à coté des documents textuels, sonores et graphiques. Les types de documents sont définis par le standard.

Le standard ePub est constitué de trois spécifications:

  1. OCF pour le conteneur.
  2. OPF pour le conditionnement.
  3. OPS pour le contenu.

Chacune décrit des fichiers et leur contenu. Pour résumer, un fichier .epub est une archive ZIP compressée qui contient des fichiers .opf, .ncx, .xml, .xhtml, .css et des fichiers graphiques.

1) Le conteneur

C'est un fichier au format ZIP compressé.
La façon dont les fichiers sont organisés à l'intérieur est l'objet de la spécification OCF (OEPBS Container Format). Deux fichiers sont utilisés pour donner la liste du contenu.

Le manifeste racine

C'est un fichier XML qui indique le nom du fichier manifeste et son type mime. Il doit s'appeller container.xml et contient cette balise:

<rootfiles>
    <rootfile full-path="OPS/livre.opf" media-type="application/oebps-package+xml"/>
</rootfiles>

Le fichier manifeste livre.opf donne à son tour donne la liste de tous les fichiers dans l'archive.

Le fichier mimetype

C'est un fichier au format ASCII brut, qui décrit la hiérarchive des fichiers.
Par exemple:

--Conteneur ZIP--
  mimetype
  META-INF/
     container.xml
  OPS/
     livre.opf
     chapitre1.xhtml
     image1.png
     css/
 style.css
 

Il duplique le contenu du fichier manifeste XML livre.opf afin de le présenter sous une forme plus directement accessible pour les outils d'indexation.

2) Le conditionnement

Il est définit par la spécification OPF (Open Packaging Format).
Il doit contenir deux fichiers XML, le manifeste et le table des matières.

Le manifeste

Il définit la liste de tous les fichiers contenus dans l'archive et a l'extension .opf (par exemple livre.opf):

<manifest>
    <item id="chapitre1" href="chapitre1.xhtml" medi-type="application/xhtml+xml" />
    ...
</manifest>

La table des matières

Elle est contenue dans un fichier XML d'extension .ncx. Elle consiste en la liste des titres et les liens sur les fichiers correspondants.
Mais il contient aussi des méta-données comme le nom de l'auteur et autres références.
NCX signifie Navigational Center for XML: centre de navigation pour XML.

<docTitle>
    <text>Titre du livre</text>
</docTitle>
<navMap>
    <navPoint id="chapitre1">
 <content src="chapitre1.xhtml" />
    </navPoint>
</navMap>

3) Les fichiers du contenu

La spécification OPS (Open Publication Structure), structure de publication ouverte, indique quels types de fichiers peuvent être utilisés dans un eBook.

Le contenu est un ensemble de fichiers XHTML 1.1 pour le texte, de feuille de style CSS (limité) et de fichiers multimédia.
Chaque fichier opère comme une page Web, il spécifie la feuille de style et contient balises pour les images et des hyperliens.
L'encodage peut être en UTF-8 ou UTF-16.

Les formats graphiques supportés sont: GIF, PNG, JPG, SVG.

Informations et outils