Koliko sam ja skužio tebi treba program kojim možeš iz skenirane stranice izvući tekst, ne kao sliku nego 'slovo po slovo'. Za to je možda najbolji ABBYY Fine Reader (ABBYY FineReader Professional Edition 8 je zadnja verzija), ali čini mi se da je skup, ima i drugih poput ScreenOCR, a općenito takva 'radnja' se označava sa OCR stoga Google i...
Evo ti za početak nešto sa Wikipedije i službene stranice. A za ditgitalne knjige je uobičajen .pdf format.
http://en.wikipedia.org/wiki/Optical...er_recognition
http://www.abbyy.com/products/