Llibres electrònics i l'editor Sublime Text2. Convertir pdf a txt

De wikijoan
Salta a la navegació Salta a la cerca

Es pot llegir un pdf amb un llibre electrònic com el Kindle Paperwhite, però no pots ampliar la lletra sense haver de fer scroll horitzontal.

Per tant, podem copiar i enganxar a txt tot el contingut del pdf (això és vàlid per a pdfs de text, que no contenen gràfics ni una especial maquetació, per exemple llibres de lectura).

El txt resultant no és perfecte, per exemple:

  • es conserven les paraules trencades amb guionet (-) entre línia i línia, però evidentment no estan en el lloc correcta.
  • la separació entre paràgrafs no s'ha conservat.
  • hi ha tots els retorns de carro que no haurien de ser-hi.
  • els números de pàgina convé conservar-los, però potser fer una separació.

Anem a resoldre tots aquests problemes. Concretament, ho fem amb el llibre 2666.pdf de Bolaño, que és un totxo de 1000 pàgines. El Sublime Text2 té la virtud de què en la funció de cercar i reemplaçar podem posar expressions regulars. La recpeta que s'ha fet i funciona és la següent.

-\n

el guió significa una paraula tallada pel mig. Ho reemplacem per res, i aleshores les paraules ja no queden tallades

Números de 3 dígits del número de pàgina:

\d{3}\n

ho reemplacem per:

$0\n

on el $0 fa referència a la troballa

Com podem sabe quan hi ha un paràgraf per tal de fer una doble separació? Bàsicament quan trobem un punt (.) amb un retorn de carro, significarà paràgraf.

Cerquem l'expressió regular

\.\n

i la substituïm per

$0\n

i ara falta eliminar els retorns de carro. Cerquem per final de línia, que tingui un caràcter normal (w) o una coma, però que no sigui un dígit:

([a-z]|\,)(\n)

i el que he de fer és suprimir el retorn de carro i ho substituïm per

$1  ($1 i un espai en blanc al darrera)

Fixem-nos bé que amb els parèntesi puc aconseguir fer referència a diferents parts de l'expressió regular: $0, $1

Complement:

  • També els accents (á, é, í, ó, ú, à, è, ò): ([á])(\n)
  • També quan hi ha lletra seguit d'espai en blanc seguit de retorn de carro: ([a-z]\s)(\n)

I aleshores ja queda molt bé. En el Kindle puc elegir el tipus i tamany de la lletra.

Escribió a la editorial de Hamburgo que había publicado
D’Arsonval y jamás recibió respuesta. Recorrió, asimismo, las
pocas librerías alemanas que pudo encontrar en París. El nom-
bre de Archimboldi aparecía en un diccionario sobre literatura
alemana y en una revista belga dedicada, nunca supo si en bro-
ma o en serio, a la literatura prusiana. En 1981 viajó, junto con
tres amigos de facultad, por Baviera y allí, en una pequeña li-
brería de Munich, en Voralmstrasse, encontró otros dos libros,
el delgado tomo de menos de cien páginas titulado El tesoro de
Mitzi y el ya mencionado El jardín, la novela inglesa.
La lectura de estos dos nuevos libros contribuyó a fortale-
cer la opinión que ya tenía de Archimboldi. En 1983, a los
veintidós años, dio comienzo a la tarea de traducir D’Arsonval.
Nadie le pidió que lo hiciera. No había entonces ninguna edi-
torial francesa interesada en publicar a ese alemán de nombre
extraño. Pelletier empezó a traducirlo básicamente porque le
gustaba, porque era feliz haciéndolo, aunque también pensó
que podía presentar esa traducción, precedida por un estudio
sobre la obra archimboldiana, como tesis y, quién sabe, como
primera piedra de su futuro doctorado.

Després d'arreglar-ho queda:

...
Escribió a la editorial de Hamburgo que había publicado D’Arsonval y jamás recibió respuesta. Recorrió, asimismo, las pocas librerías alemanas que pudo encontrar en París. El nombre de Archimboldi aparecía en un diccionario sobre literatura alemana y en una revista belga dedicada, nunca supo si en broma o en serio, a la literatura prusiana. En 1981 viajó, junto con tres amigos de facultad, por Baviera y allí, en una pequeña librería de Munich, en Voralmstrasse, encontró otros dos libros, el delgado tomo de menos de cien páginas titulado El tesoro de Mitzi y el ya mencionado El jardín, la novela inglesa.

La lectura de estos dos nuevos libros contribuyó a fortalecer la opinión que ya tenía de Archimboldi. En 1983, a los veintidós años, dio comienzo a la tarea de traducir D’Arsonval.

Nadie le pidió que lo hiciera. No había entonces ninguna editorial francesa interesada en publicar a ese alemán de nombre extraño. Pelletier empezó a traducirlo básicamente porque le gustaba, porque era feliz haciéndolo, aunque también pensó
que podía presentar esa traducción, precedida por un estudio sobre la obra archimboldiana, como tesis y, quién sabe, como primera piedra de su futuro doctorado.
...

Altres cerques útils

  • cercar 4 majúscules seguides:
[A-W]{4}

Substituir guionets per guionets de conversa/parèntesi:

\n- 
\n–
( - )((([\w]|\s|,|\.)*))( - )
 –$2– 

( - )((([\w]|\s|,|\.)*))( -,)
 –$2–,

( - )((([\w]|\s|,|\.)*))( -\.)
 –$2–.

( - )((([\w]|\s|,|\.)*))( -\:)
 –$2–:

Corrector ortogràfic

En acabar, importem el nomstre txt a Libreoffice, i passem el corrector ortogràfic.


creat per Joan Quintana Compte, desembre 2019