Thursday, 1 October 2015

சமீபத்தில் தமிழர்களின் நெடுநாள் கனவான எழுத்துணரியை (OCR) கூகிள் இலவசமாக வெளியிட்டுள்ளது. கூகிள் இயக்ககத்தில் (Google Drive) ஒரு படத்தை ஏற்றி, அதை கூகிள் டாக்சாகத் (Google Doc) திறந்தால் எழுத்துணரி (OCR) செய்யப்பட்டு, படமும் அதற்கான உரையும் கிடைக்கிறது. தமிழ் உள்ளிட்ட 200 மொழிகளில் கிடைக்கிறது :)

இதற்கான செய்முறை இதோ :

http://www.thewindowsclub.com/google-drive-convert-image-to-text

கூகிள் இயக்ககத்தில் (Google Drive) 2MB இற்கு குறைவான படக்கோப்பினை தரவேற்றம் செய்யுங்கள். பின்னர் அந்த கோப்பில் வலது சுடுக்கி  கூகிள் டாக்சாகத் (Google Doc) திறந்தால் அது சொற்கோப்பாக மாறிவிடும்.

ஒரு பெரிய நூலின் ஒவ்வொரு படமாக ஏற்றி, அதை எழுத்துணரி (OCR) செய்து உரையாக மாற்றி சேமிப்பது கடினம். அதை தானியக்கமாகச் செய்ய ஒரு மென்பொருள் உருவாக்கியுள்ளார் தமிழக நண்பர் சீனிவாசன். லினக்சு இயங்குதளத்தில் பைதான் மொழியில் எழுதிய இக்கட்டற்ற மென்பொருளின் மூலநிரலை இங்கே பதிவிறக்கலாம் :

https://github.com/tshrinivasan/google-ocr-python

யூடியூப் காணொளியில் கூகுள் எழுத்துணரியைக் கொண்டு ஒரு முழு PDF கோப்பை தானியகமாக உரையாக மாற்றும் நிரலைப் பயன்படுத்தும் முறையையும் அவர் விளக்கியுள்ளார் :

https://www.youtube.com/watch?v=PH9TnD67oj4
இதனை மேம்படுத்தவும், பிற இயக்குதளங்களுக்கு மாற்றவும் விரும்புவோர் செய்து கொள்ளலாம்.

மிக்க நன்றி சீனிவாசன்.

No comments:

Post a Comment