El Rincon Del Cañon: OCR ESPAÑOL UBUNTU ESCANEAR TEXTO

domingo, 3 de abril de 2011

Editar texto escaneado en Ubuntu 10.10 : Usando software OCR

Cuando escaneamos un documento no es posible editarlo ya que se escanea como si fuera una foto.

Si queremos editarlo, necesitamos para esta tarea un software OCR, que se encarga de reconocer las imágenes de cada letra y convertirlas en su correspondiente letra, para poder usarla con cualquier programa de edición de texto, cosa nada sencilla ya que existen muchos tipos de letra e idiomas.

Para esta tarea los usuarios de gnu/Linux y en concreto Ubuntu disponemos de algunos programas descargables desde el centro de software Ubuntu, he probado varios pero ninguno me convencía hasta que probé gscan2pdf + Tesseract con Español.

Su instalacion es sencilla ya que los dos los tenemos en repositorios, abrimos un terminal y pegamos esto:

sudo apt-get install gscan2pdf tesseract-ocr tesseract-ocr-spa

Le desimos que si, y metemos la clave de administrador y se intalara en:
Aplicaciones / Graficos / gscan2pdf

La abrimos y pulsamos el icono del escaner, (Tenemos que tener el escaner funcionando)

Con la siguientes opciones he tenido muy buenos resultados en el reconocimiento:

- Tenemos que seleccionar Tsseract como programa OCR y Español para el idioma.

- En las opciones de escaneo, he puesto 300 de Resolución y Escala de Grises en vez de Blanco y Negro