HELLO, I’M SERHAT AND THIS IS MY FANCY TITLE.

Ubuntu için OCR Okuyucu Çözümleri

Aynı sayfada hem İngilizce hemde Türkçe içerik barındıran basılı bir derginin İngilizce text içeriğine dijital ortamda ihtiyacım oldu. Amele gibi dergiyi önüme alıp yazmak yerine istediğim sayfaların fotoğrafını çekip bilgisayarıma attım. Gerisini OCR araçları halletti. Ubuntu'da OCR işleri şöyle:

Öncelikle çektiğiniz fotoğrafların exif bilgilerine göz atacaksanız:

sudo apt-get install exif
exif /path/file.jpg

gscan2pdf

GUI'siz yapamam, hemde pdf export istiyorum derseniz gscan2pdf'yi kurun:

apt-get install gscan2pdf

Avantajları:

  • Direk scanner'dan görüntü alabilirsiniz, scanner'ları tanıyor.
  • jpg - png - pnm - gif - tif - tiff - pdf - djvu - ps uzantılarını destekliyor.
  • Toplu dosyaları istediğiniz isim şablonuna göre export edebiliyor.
  • GOCR, tesseract (en iyisi) ve cuneiform olmak üzere 3 OCR motorunu kullanabiliyor.
  • Tesseract ve cuneiform OCR motorları ile İngilizce imajlarda süper isabet.

Dezavantajları:

  • 175mb olması. Bağımlılıklarının çok fazla olması.
  • OCR ile okutacağınız imajda yazı haricinde derinlik varsa sıçabiliyor.
  • OCR output penceresinde, eğer başarısız bir işlemi görüntülemek isterseniz pencere genişliği sapıtıyor.
  • Command-line seçenekleri çok az.
  • Tesseract'in Türkçe desteği de olması lazımdı. Oysa ki sadece cuneiform'un Türkçe desteğini koymuşlar.

tesseract

GUI olmasada olur, önemli olan OCR motorunun başarısıdır, desteklediği dil sayısıdır diyorsanız tesseract alanında en iyisi. Distronuza bağlı olarak depolarda tesseract veya tesseract-ocr adıyla bulabilirsiniz. Ubuntu için kurulum;

sudo apt-get install tesseract-ocr

Türkçe dosyaları var mı yok mu kontrol edin:

/usr/share/tesseract-ocr/tessdata

Yoksa indirin: http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.tur.tar.gz&can=2&q=

Dosyaları arşivden çıkartın ve tur.traineddata dosyasını /usr/share/tesseract-ocr/tessdata altında taşıyın.

tar zxf tesseract-ocr-3.02.tur.tar.gz
sudo mv tur.traineddata /usr/share/tesseract-ocr/tessdata/

Örnek bir imajı Türkçe olarak okutalım:

tesseract test.JPG metin -l tur

Avantajları:

  • Yüksek isabet başarısı, güçlü OCR motoru.
  • Geniş dil desteği.
  • bmp, jpeg, pbm, pgm, ppm formatlarını destekliyor.
  • HP Labs ve Google tarafından destekleniyor olması.
  • Geniş 3rd-party desteği.
  • GUI uygulamalara göre daha hızlı yanıt.
  • .txt veya .pdf olarak (pdf için eklenti kurmalısınız) OCR çıktısı verebilmesi.

Dezavantajları:

  • Toplu dosya işlemleri için pratik bir yol bulunmuyor.
  • Bir imajda birden çok dil varsa problem oluyor (Türkçe+İngilizce gibi).
  • Command-line seçenekleri yeterli değil.

OCRopus

OCRopus'un tesseract'ten aşağı kalır yanı yok. Python, Numpy ve Scipy ile yazılmış. Sample sayfaları gerçekten şahane. Şuradan inceleyebilirsiniz:

http://iupr1.cs.uni-kl.de/~tmb/iv/eigenscan.html http://iupr1.cs.uni-kl.de/~tmb/iv/literaturv.html http://iupr1.cs.uni-kl.de/~tmb/ocropus-results/g1000p22/

Sisteminizde mercurial (dağıtık sürüm kontrol sistemlerinden biri) kurulu olmalı. Kurulu değilse:

sudo apt-get install mercurial

Kuruluma geçelim:

$ hg clone -r ocropus-0.6 https://code.google.com/p/ocropus
$ cd ocropus/ocropy
$ sudo apt-get install $(cat PACKAGES)
$ python setup.py download_models
$ sudo python setup.py install
$ ./run-test
  • En büyük dezavantajlarından biri, dosya boyutu çok yüksek olduğu için kurulum uzun sürüyor.
  • Oldukça güçlü command-line seçenekleri var.
  • Özellikle kitap, dergi vb. materyal odaklı hazırlanmış.
  • Bilimsel ve akademik özel karakterleri en iyi tanıyan OCR yazılımı.

Devamı için: http://code.google.com/p/ocropus/wiki/FrequentlyAskedQuestions

Online OCR servisleri

  • https://drive.google.com
  • http://www.freefileconvert.com/
  • http://www.newocr.com/
  • http://www.sciweavers.org/free-online-ocr
  • http://code.google.com/p/tesseract-ocr/wiki/3rdParty

Başarılar.

Date:
Categories: tech, other, linux

Share this post!


Blog Comments powered by Disqus.