Instal·lació HP Deskjet F2480
Instal.lació
HP ho té molt organitzat el tema d'impressió en Linux:
$ sudo chmod a+x hplip-3.10.9.run $ ./hplip-3.10.9.run <pre> Escullo l'oopció d'instal.lació manual
Escànner
per escanejar una pàgina d'un llibre utilitzo XSane Image Scanner (ve per defecte amb Ubuntu 10.04)
En el XSane Image Scanner, adquireix una previsualització (es veu el histograma). Després de previsualitzar, ja podem escanejar.
També es pot utilitzar el Simple Scan.
OCR
Software OCR:
$ sudo apt-get install tesseract-ocr tesseract-ocr-spa
XSane Image Scanner, escullo .TIFF com a fitxer de sortida (l'arxiu ha de ser .tif)
tesseract - command line OCR tool tesseract imagename outputbase [configfile] [-l <langid>] imagename must be a TIF image with a .tif extension outputbase is the text file created with the OCR output
Em trobo amb un Segment Fault
$ tesseract out.tif out.txt -l spa Tesseract Open Source OCR Engine Segmentation fault
No és que estigui malament la instal.lació, és perquè les imatges que rep el OCR han de complir uns requisits:
tesseract, versió 2.04-2 check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32
Es pot resoldre mirant com escanejo la foto:
XSane Configuration:
- Marco Redueix les imatges de 16 bits a 8 bits
- Compressió de les imatges de 8 bits: sense compressió
Ara sí:
$ tesseract out.tif out.txt -l spa Tesseract Open Source OCR Engine
He de ficar la resolució d'escaneig a tope, i tocar el contrast i la saturació per destacar el text per davant del fons. (resolució mínima: 75 no 'hi ha prou; resolució màxima 1200: és excessiu). Agafo el valor de 229. Resolucions grans pengen el programa. Tanmateix, el resultat de la conversió no és fantàstic i hi ha moltes coses a corregir.
Hi ha la possibilitat de treballar amb el configfile a veure si es veuen millores.
configfile is a file of control parameters used for debugging or modifying tesseract's behaviour. They are stored in /usr/share/tesseract-ocr/tessdata/configs/
Instal.lo gocr: és un altre programa de OCR i el que està integrat amb el XSane Image Scanner. Però això es pot canviar a Preferències > Configuració > OCR, i fer que el tesseract sigui l'aplicació predeterminada.
$ sudo apt-get install gocr
Finalment OCR amb tesseract
Imatge > Mode > Indexat > nombre màxim de colors: 256 (que es correspon a 8bpp)
[ GIMP ] TIFF save cannot handle indexed images with alpha channel.
es soluciona: Right click at Layer > Remove alpha channel
El procediment per preparar la imatge escanejada amb gimp i practicar el OCR amb tesseract és:
- tinc la imatge amb TIFF, capturada a la màxima resolució en el scànner
- L'obro amb GIMP
- sobre la capa, amb el botó dret, eliminar el Canal ALFA
- elimino imatges, línies, ombres negres,...
- Colors > Brillantor-contrast. Augmento el contrast
- Imatge > Mode > Indexat > Redueixo a 1 bit (el màxim que permet tesseract és 8 bits (256 colors))
- Grabo com a tif (extensió .tin, no .tiff), sense compressió
$ tesseract pag3.tif pag3.txt -l spa
l'opció -l spa, té poc efecte. És més important la qualitat i el tipus de lletra. tesseract pot fer un entrenament, però això ja és una altra història.
Impressió a pdf
Per concatenar pdf'x: pdftk:
$ sudo aptitude install pdftk $ pdftk article1.pdf article2.pdf article3.pdf article4.pdf article5.pdf article6.pdf article7.pdf article8.pdf article9.pdf article10.pdf article11.pdf article12.pdf article13.pdf article14.pdf article15.pdf cat output article.pdf
creat per Joan Quintana Compte, octubre 2010