Ubuntu için OCR Okuyucu Çözümleri

Aynı sayfada hem İngilizce hemde Türkçe içerik barındıran basılı bir derginin İngilizce text içeriğine dijital ortamda ihtiyacım oldu. Amele gibi dergiyi önüme alıp yazmak yerine istediğim sayfaların fotoğrafını çekip bilgisayarıma attım. Gerisini OCR araçları halletti. Ubuntu’da OCR işleri şöyle;

Çektiğiniz fotoğrafların exif bilgilerine göz atacaksanız:

1) gscan2pdf

http://gscan2pdf.sourceforge.net/

GUI’siz yapamam, hemde pdf export istiyorum derseniz gscan2pdf’yi kurun:

Avantajları:

  • Direk scanner’dan görüntü alabilirsiniz, scanner’ları tanıyor.
  • jpg – png – pnm – gif – tif – tiff – pdf – djvu – ps uzantılarını destekliyor.
  • Toplu dosyaları istediğiniz isim şablonuna göre export edebiliyor.
  • GOCR, tesseract (en iyisi) ve cuneiform olmak üzere 3 OCR motorunu kullanabiliyor.
  • Tesseract ve cuneiform OCR motorları ile İngilizce imajlarda süper isabet.

Dezavantajları:

  • 175mb olması. Bağımlılıklarının çok fazla olması.
  • OCR ile okutacağınız imajda yazı haricinde derinlik varsa sıçabiliyor.
  • OCR output penceresinde, eğer başarısız bir işlemi görüntülemek isterseniz pencere genişliği sapıtıyor.
  • Command-line seçenekleri çok az.
  • Tesseract’in Türkçe desteği de olması lazımdı. Oysa ki sadece cuneiform’un Türkçe desteğini koymuşlar.

2) tesseract

http://code.google.com/p/tesseract-ocr/

GUI olmasada olur, önemli olan OCR motorunun başarısıdır, desteklediği dil sayısıdır diyorsanız tesseract alanında en iyisi. Distronuza bağlı olarak depolarda tesseract veya tesseract-ocr adıyla bulabilirsiniz. Ubuntu için kurulum;

Türkçe dosyaları var mı yok mu kontrol edin:

Yoksa indirin: http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-3.02.tur.tar.gz&can=2&q=

Dosyaları arşivden çıkartın ve “tur.traineddata” dosyasını “/usr/share/tesseract-ocr/tessdata” altında taşıyın.

Örnek bir imajı Türkçe olarak okutalım:

Avantajları:

  • Yüksek isabet başarısı, güçlü OCR motoru.
  • Geniş dil desteği.
  • bmp, jpeg, pbm, pgm, ppm formatlarını destekliyor.
  • HP Labs ve Google tarafından destekleniyor olması.
  • Geniş 3rd-party desteği.
  • GUI uygulamalara göre daha hızlı yanıt.
  • .txt veya .pdf olarak (pdf için eklenti kurmalısınız) OCR çıktısı verebilmesi.

Dezavantajları:

  • Toplu dosya işlemleri için pratik bir yol bulunmuyor.
  • Bir imajda birden çok dil varsa problem oluyor (Türkçe+İngilizce gibi).
  • Command-line seçenekleri yeterli değil.

3) OCRopus

http://code.google.com/p/ocropus/

tesseract’ten aşağı kalır yanı yok. Python, Numpy ve Scipy ile yazılmış. Sample sayfaları gerçekten şahane.

Sisteminizde mercurial (dağıtık sürüm kontrol sistemlerinden biri) kurulu olmalı. Kurulu değilse;

Kuruluma geçelim:

  • En büyük dezavantajlarından biri, dosya boyutu çok yüksek olduğu için kurulum uzun sürüyor.
  • Oldukça güçlü command-line seçenekleri var.
  • Özellikle kitap, dergi vb. materyal odaklı hazırlanmış.
  • Bilimsel ve akademik özel karakterleri en iyi tanıyan OCR yazılımı.

Devamı için: http://code.google.com/p/ocropus/wiki/FrequentlyAskedQuestions

4) Bazı online OCR servisleri

Diğer bir takım servisler için:

http://code.google.com/p/tesseract-ocr/wiki/3rdParty

Leave a Reply