Instal.lació HP Deskjet F2480

De Wikijoan
Dreceres ràpides: navegació, cerca

Contingut

Instal.lació

HP ho té molt organitzat el tema d'impressió en Linux:

$ sudo chmod a+x hplip-3.10.9.run
$ ./hplip-3.10.9.run
<pre>
Escullo l'oopció d'instal.lació manual

Escànner

per escanejar una pàgina d'un llibre utilitzo XSane Image Scanner (ve per defecte amb Ubuntu 10.04)

En el XSane Image Scanner, adquireix una previsualització (es veu el histograma). Després de previsualitzar, ja podem escanejar.

També es pot utilitzar el Simple Scan.

OCR

Software OCR:

$ sudo apt-get install tesseract-ocr tesseract-ocr-spa

XSane Image Scanner, escullo .TIFF com a fitxer de sortida (l'arxiu ha de ser .tif)

tesseract - command line OCR tool
tesseract imagename outputbase [configfile] [-l <langid>]
imagename must be a TIF image with a .tif extension
outputbase is the text file created with the OCR output

Em trobo amb un Segment Fault

$ tesseract out.tif out.txt -l spa
Tesseract Open Source OCR Engine
Segmentation fault

No és que estigui malament la instal.lació, és perquè les imatges que rep el OCR han de complir uns requisits:

tesseract, versió 2.04-2
check_legal_image_size:Error:Only 1,2,4,5,6,8 bpp are supported:32

Es pot resoldre mirant com escanejo la foto:

XSane Configuration:

Ara sí:

$ tesseract out.tif out.txt -l spa
Tesseract Open Source OCR Engine

He de ficar la resolució d'escaneig a tope, i tocar el contrast i la saturació per destacar el text per davant del fons. (resolució mínima: 75 no 'hi ha prou; resolució màxima 1200: és excessiu). Agafo el valor de 229. Resolucions grans pengen el programa. Tanmateix, el resultat de la conversió no és fantàstic i hi ha moltes coses a corregir.

Hi ha la possibilitat de treballar amb el configfile a veure si es veuen millores.

       configfile is a file of control parameters used for debugging or modifying tesseract's behaviour.  They are  stored  in
       /usr/share/tesseract-ocr/tessdata/configs/

Instal.lo gocr: és un altre programa de OCR i el que està integrat amb el XSane Image Scanner. Però això es pot canviar a Preferències > Configuració > OCR, i fer que el tesseract sigui l'aplicació predeterminada.

$ sudo apt-get install gocr

Finalment OCR amb tesseract

Imatge > Mode > Indexat > nombre màxim de colors: 256 (que es correspon a 8bpp)

[ GIMP ] TIFF save cannot handle indexed images with alpha channel.

es soluciona: Right click at Layer > Remove alpha channel


El procediment per preparar la imatge escanejada amb gimp i practicar el OCR amb tesseract és:

  1. tinc la imatge amb TIFF, capturada a la màxima resolució en el scànner
  2. L'obro amb GIMP
  3. sobre la capa, amb el botó dret, eliminar el Canal ALFA
  4. elimino imatges, línies, ombres negres,...
  5. Colors > Brillantor-contrast. Augmento el contrast
  6. Imatge > Mode > Indexat > Redueixo a 1 bit (el màxim que permet tesseract és 8 bits (256 colors))
  7. Grabo com a tif (extensió .tin, no .tiff), sense compressió
$ tesseract pag3.tif pag3.txt -l spa

l'opció -l spa, té poc efecte. És més important la qualitat i el tipus de lletra. tesseract pot fer un entrenament, però això ja és una altra història.

Impressió a pdf

Per concatenar pdf'x: pdftk:

$ sudo aptitude install pdftk

$ pdftk article1.pdf article2.pdf article3.pdf article4.pdf article5.pdf article6.pdf article7.pdf article8.pdf article9.pdf article10.pdf article11.pdf article12.pdf article13.pdf article14.pdf article15.pdf cat output article.pdf

creat per Joan Quintana Compte, octubre 2010

Eines de l'usuari
Espais de noms
Variants
Accions
Navegació
IES Jaume Balmes
Màquines recreatives
CNC
Informàtica musical
joanillo.org Planet
Eines