ಸೆಂಪ್ಟೆಂಬರ್ ೧೭, ೨೦೧೯‍ 
ಕುತೂಹಲಿ – ಸುದ್ಧಿ ಪತ್ರಿಕೆಯಲ್ಲಿ ಪ್ರಕಟಗೊಂಡ ಲೇಖನ‍ (ಸಂಚಿಕೆ ೧ | ಸಂಪುಟ ೧ | ಸೆಪ್ಟೆಂಬರ್ ೨೦೧೯)

ಕನ್ನಡದಲ್ಲಿ ಪ್ರಕಟವಾಗಿರುವ ಹಳೆಯ ಪತ್ರಿಕೆಗಳು, ಪುಸ್ತಕಗಳು, ಈಗಾಗಲೇ ಅನ್ಲೈನ್ ಇರುವ ಪುಸ್ತಕಗಳಲ್ಲಿರುವ ಅಮೂಲ್ಯ ಮಾಹಿತಿಗಳನ್ನು ಗೂಗಲ್ ಸರ್ಚ್ ಮಾದರಿಯಲ್ಲೇ ಹುಡುಕಿ ತೆಗೆಯಲು ಸಾಧ್ಯವಾದರೆ ಹೇಗಿರುತ್ತದೆ ಒಮ್ಮೆ ಊಹಿಸಿಕೊಳ್ಳಿ. ಇದನ್ನು ಕೇವಲ ಊಹೆಯಷ್ಟೇ ಆಗಿ ಉಳಿದಿಲ್ಲ.  ಇಂದು ನೀವಿದನ್ನು ತಾಂತ್ರಿಕವಾಗಿ ಬಳಸಿ ನೋಡಬಹುದು ಕೂಡ. ಇದನ್ನು ಸಾಧ್ಯವಾಗಿಸಿರುವುದೇ  ಆಪ್ಟಿಕಲ್ ಕ್ಯಾರೆಕ್ಟರ್ ರೆಕಾಗ್ನಿಷನ್ ಅಥವಾ . ಸಿ. ಆರ್(‍Optical Character Recognition / OCR) ತಂತ್ರಜ್ಞಾನ
ಚಿತ್ರರೂಪದಲ್ಲಿರುವ ಅಕ್ಷರಗಳ ಗುಣಲಕ್ಷಣಗಳನ್ನುಗುರುತಿಸಿ, ಅವುಗಳನ್ನು ಆಯಾ ಭಾಷೆಯ ಯುನಿಕೋಡ್ ಅಕ್ಷರಗಳಲ್ಲಿ ಮರುರೂಪಿಸುವುದೇ ತಂತ್ರಜ್ಞಾನದ ಮುಖ್ಯ ಕೆಲಸ. ‍ಕನ್ನಡಕ್ಕೆ ತಂತ್ರಜ್ಞಾನವನ್ನು ಒದಗಿಸಿಕೊಡವಲ್ಲಿ ಮುಂಚೂಣಿಯಲ್ಲಿರುವುದು ಮುಕ್ತ ಹಾಗೂ ಸ್ವತಂತ್ರ ತಂತ್ರಾಂಶವಾಗಿರುವ ಟೆಸೆರಾಕ್ಟ್ (Tesseract).  ಟೆಸೆರಾಕ್ಟ್ ಯೋಜನಾ ಪುಟ ಇಲ್ಲಿದೆhttps://github.com/tesseract-ocr/tesseract ‍. ಭಾರತೀಯ ವಿಜ್ಞಾನ ಸಂಸ್ಥೆ, ಕೇಂದ್ರ ಸರಕಾರದ ಸಿ-ಡ್ಯಾಕ್‌ ಸಂಸ್ಥೆಗಳೂ ಈ ನಿಟ್ಟಿನಲ್ಲಿ ಕೆಲಸ ಮಾಡುತ್ತಿವೆ. ಹಲವು ಖಾಸಗಿ ಕಂಪೆನಿಗಳೂ ಪ್ರಯತ್ನಿಸುತ್ತಿವೆ. ಇವುಗಳಲ್ಲಿ ಸುಲಭವಾಗಿ ಎಲ್ಲರಿಗೂ ದಕ್ಕುವಂತೆ ಇರುವುದು ಟೆಸೆರಾಕ್ಟ್.
ಅಂತರ್ಜಾಲದಲ್ಲಿ ಇರುವ ಯಾವುದೋ ಒಂದು ಪಿ.ಡಿ.‌ಎಫ್ (P‌DF) ಅಥವಾ ಚಿತ್ರಗಳನ್ನು ಗೂಗಲ್ ಡಾಕ್ಸ್ (Google Docs) ಮೂಲಕ ತೆರೆದಾಗ ಪಿ.ಡಿ.‌ಎಫ್/ಚಿತ್ರಗಳಲ್ಲಿದ್ದ ಅಕ್ಷರಗಳನ್ನು ಯುನಿಕೋಡ್‌ಗೆ ಪರಿವರ್ತಿಸಿ ಕೊಡಲಾಗುತ್ತದೆ. ಇದಕ್ಕೆ ಕಾರಣ ಗೂಗಲ್ ತನ್ನ ಗೂಗಲ್ ಡ್ರೈವ್ ಸಂಬಂಧಿತ ತಂತ್ರಾಂಶಗಳಲ್ಲಿ ತನ್ನ .ಸಿ.‌ಆರ್ ತಂತ್ರಜ್ಞಾನವಾದ ಗೂಗಲ್ ವಿಷನ್ ಅನ್ನು ಬಳಸುತ್ತಿರುವುದು. ಮೇಲೆ ತಿಳಿಸಿದ ಟೆಸೆರಾಕ್ಟ್ ತಂತ್ರಜ್ಞಾನದ ಸೃಷ್ಟಿಕರ್ತ ರೇ ಸ್ಮಿತ್, ಗೂಗಲ್ ವಿಷನ್ ಯೋಜನೆಯ ಮುಂಚೂಣಿ ಡೆವೆಲಪರ್. ಹೀಗಾಗಿ ಟೆಸೆರಾಕ್ಟ್ .ಸಿ.‌ಆರ್ ಗೂಗಲ್‌ನಲ್ಲಿ ತಂತ್ರಾಂಶದ ಸುತ್ತ ನೆಡೆಯುತ್ತಿರುವ ಅಭಿವೃದ್ಧಿಗಳ ಪ್ರಯೋಜನವನ್ನು ಮತ್ತೆ ಹಿಂತಿರುಗಿ ಸಾರ್ವಜನಿಕವಾಗಿಯೂ ಲಭ್ಯವಾಗುವಂತೆ ಮಾಡುತ್ತಿದೆ. ಟೆಸೆರಾಕ್ಟ್ ಕನ್ನಡದ ೨೫ ಫಾಂಟ್‌ಗಳ ಮೇಲೆ ತರಬೇತಿ ಹೊಂದಿದ್ದು, ಅದರ ಟೆಸ್‌ಡೇಟಾ(ತರಬೇತಿ ದತ್ತಾಂಶ) ಬಳಕೆಗೆ ಲಭ್ಯವಿದೆ. ಇದರ ಜೊತೆಗೆ ಟೆಸೆರಾಕ್ಟ್ ಯಾಂತ್ರಿಕ ತರಬೇತಿ  (Machine Learning)  ಸಾಮರ್ಥ್ಯವನ್ನೂ ಹೊಂದಿದ್ದು ಆವೃತ್ತಿ . ರಿಂದ ಈಚೆಗೆಅನೇಕ ಭಾಷೆಗಳ ಅಕ್ಷರ ಗುರುತು ಹಿಡಿಯುವಿಕೆಯನ್ನು ಸುಲಭ ಸಾಧ್ಯವಾಗಿಸಿದೆ. ‍
ಮುಕ್ತ ಮತ್ತು ಸ್ವತಂತ್ರ ತಂತ್ರಾಂಶಗಳ ಶಕ್ತಿ ಸಾಮಾನ್ಯನಿಗೂ ಉನ್ನತ ತಂತ್ರಜ್ಞಾನವನ್ನು ಬಳಸಿ, ತನ್ನ ಭಾಷೆಗೂ ಅಳವಡಿಸಿಕೊಳ್ಳಲು ಮುಂದಾಗುವಂತೆ ಪ್ರೇರೇಪಿಸುತ್ತದೆ
ಟೆಸೆರಾಕ್ಟ್‌ ಅನ್ನು ಕನ್ನಡದ ಕಡತಗಳನ್ನು .ಸಿ.‌ಆರ್ಮಾಡಲು ಬಹಳ ಸುಲಭವಾಗಿ ಬಳಸಬಹುದು. ಲಿನಕ್ಸ್ ತಂತ್ರಾಂಶ ಬಳಸಲು ಬರುವವರಿಗೆ ಟೆಸೆರಾಕ್ಟ್‌ ನಿರ್ದೇಶಗಳನ್ನು ಬಳಸುವುದು ಇನ್ನೂ ಸುಲಭ. ಜೊತೆಗೆ ಸುಲಭವಾಗಿ ಪಿ.ಡಿ.ಎಫ್ , ಚಿತ್ರಗಳು ಇತ್ಯಾದಿಗಳನ್ನು ಯುನಿಕೋಡ್ ಪಠ್ಯವಾಗಿ ಬದಲಾಯಿಸಿಕೊಳ್ಳಬಹುದು. ಪಠ್ಯದ ನಿಖರತೆ ಪಿ.ಡಿ.‌ಎಫ್ ಅಥವಾ ಚಿತ್ರದ ಗುಣಮಟ್ಟವನ್ನು ಅವಲಂಬಿಸಿರುತ್ತದೆ. ಪುಸ್ತಕಗಳ ಸ್ಕ್ಯಾನ್‌ ಗಳ ಕಡತದಿಂದಲೂ ಶೇಕಡ ೯೯. ರಷ್ಟು ನಿಖರವಾಗಿರುವ ಪಠ್ಯವನ್ನು ಪಡೆಯಲಾಗಿದೆ.
ಇತ್ತೀಚೆಗೆ ಸಂಚಯ ಜಾಲತಾಣದಲ್ಲಿ ಪುಸ್ತಕಗಳ ಡಿಜಿಟಲೀಕರಣ ಯೋಜನೆಯ ಅಂಗವಾಗಿಸಿ. ಬೆನ್ಸನ್ ದೊರೆಗಳು ಮತ್ತು . . ರಾ. ಸಿ. ಕೆ. ಸುಬ್ಬರಾಯರು ೧೯೦೫ರಲ್ಲಿ ಬರೆದು ಮುದ್ರಿಸಿದ್ದ ಕೃಷಿಶಾಸ್ತ್ರದ ಪುಸ್ತಕವನ್ನು ಡಿಜಿಟಲೀಕರಿಸಲಾಯಿತು. ಅದನ್ನು ಓ.ಸಿ.‌ಆರ್ ಮಾಡಿ ಪಡೆದ ಫಲಿತಾಂಶವನ್ನು ಚಿತ್ರದಲ್ಲಿ  ಕಾಣಬಹುದು
ಪಿ.ಡಿಎಫ್‌ ರೂಪದಲ್ಲಿರುವ ಇಡೀ ಪುಸ್ತಕವನ್ನೂ .ಸಿ.‌ಅರ್ ಮಾಡಿ, ಅದರಲ್ಲಿನ ಕನ್ನಡ ಪದಗಳನ್ನು ಹುಡುಕುವಂತೆ ಕೂಡ ಮಾಡಬಹುದು.
ಭಾಷಾ ತಂತ್ರಜ್ಞಾನಗಳು ಮುದ್ರಿಸಿದ ಚಿತ್ರ ರೂಪದ ಅಕ್ಷರಗಳು ಯಾವ ಭಾಷೆಯದು ಎನ್ನುವುದುನ್ನು ಗುರುತಿಸಲು ನೆರವಾಗುತ್ತವೆ.  ಜೊತೆಗೆ, ಹಿಂದೆ ಪ್ರಕಟವಾಗಿದ್ದ ಎಲ್ಲ ಕೃತಿಗಳನ್ನು ತಂತ್ರಜ್ಞಾನದ ಸಹಾಯದಿಂದ ಹುಡುಕಲು, ಭಾಷೆಯ ಬೆಳವಣಿಗೆಯ ಬಗ್ಗೆ ಅರಿಯಲು, ಅದರಲ್ಲಿನ ಜ್ಞಾನದ ಹರಿವನ್ನು ಜನಸಾಮಾನ್ಯರೂ ತನ್ನದಾಗಿಸಿಕೊಳ್ಳುವುದಕ್ಕೆ ಹೊಸ ಆಯಾಮಗಳನ್ನು ಇವು ಕೊಡುತ್ತಿವೆ
ಇದುವರೆವಿಗೂ ವಿವಿಧ ಮಾಧ್ಯಮಗಳಲ್ಲಿ ಮುದ್ರಿತಗೊಂಡಿರುವ ವಿಜ್ಞಾನ ಲೇಖನಗಳು, ಪುಸ್ತಕಗಳು, ನಿಘಂಟುಗಳು ಯುನಿಕೋಡ್‌ನಲ್ಲಿ ದೊರೆಯುವಂತಾದರೆ ಏನಾಗಬಹುದು? ಈವರೆಗೆ ಬಳಸಿರುವ ವಿಜ್ಞಾನ ಪದಗಳ ಪಟ್ಟಿ ದೊರೆತು, ಅವುಗಳ ಸರಿಯಾದ ಬಳಕೆಯ ಬಗ್ಗೆ ವಿಜ್ಞಾನ ಲೇಖಕರಿಗೆ, ವಿದ್ಯಾರ್ಥಿಗಳಿಗೆ, ಸಂಶೋಧಕರಿಗೆ ಮತ್ತಷ್ಟು ಉತ್ತಮ ಲೇಖನಗಳನ್ನು ಕನ್ನಡದಲ್ಲಿ ಒದಗಿಸಲು ಇದು ಸಹಕಾರಿಯಾಗುತ್ತದೆ
ಓ.ಸಿ.ಆರ್‌ ಬಳಸಿದರೆ ಈಗಾಗಲೇ ಇರುವ ನಿಘಂಟುಗಳನ್ನು ತ್ವರಿತವಾಗಿ ಯುನಿಕೋಡ್‌ಗೆ ಪರಿವರ್ತಿಸಲು ಮತ್ತು ಅವುಗಳನ್ನು ಬಳಕೆಗೆ ಅನುವು ಮಾಡಿಕೊಡಲು, ಯುನಿಕೋಡ್‌ ರೂಪಕ್ಕೆ ಪರಿವರ್ತಿಸಲು ತಗಲುವ ಸಮಯ ಕಡಿಮೆ ಆಗುತ್ತದೆ
ಪಿ.ಡಿ.ಎಫ್ನಲ್ಲಿ ಹುಡುಕುವುದು ಸಾಧ್ಯವಾದರೆ ಇಡೀ ಪುಸ್ತಕದಲ್ಲಿ ನಮಗೆ ಬೇಕಿರುವ ಪದ ಎಲ್ಲೆಲ್ಲಿದೆ ಎಂದು ಹುಡುಕಬಹುದು.  ಮುಂದೆ ಇದೇ ಪುಸ್ತಕವನ್ನು  ಪುಸ್ತಕ ರೂಪಕ್ಕೆ ರೂಪಾಂತರಿಸಿದರೆ,  ಪದವನ್ನು ಹುಡುಕುವುದರ ಜೊತೆಗೆ ನಿಘಂಟುವಿನಿಂದ ಅದರ ಇತರೆ ಅರ್ಥಗಳೂ ಸಿಗುವಂತೆ ಮಾಡಬಹುದು. ಆಗ ವಿಜ್ಞಾನವನ್ನು ಓದುವುದರ ಮಜವೇ ಬೇರೆ ಅಲ್ಲವೇ? ಗೂಗಲ್ ಮಾಡುವಾಗಲೇ ಪುಸ್ತಕಗಳ  ಒಂದು ಮುನ್ನೋಟ (‌preview) ದೊರೆತರೆ, ನಮ್ಮ ಬರೆವಣಿಗೆಗೆ, ಸಂಶೋಧನೆಗೆ ಹೊಸ ಎಂಜಿನ್ ಅಳವಡಿಸಿದಂತಾಗುತ್ತದೆ.
ಮುಂದಿನ ದಿನಗಳಲ್ಲಿ ನೀವು ದಿನನಿತ್ಯ ಧರಿಸುವ ಕನ್ನಡಕಗಳಿಗೂ ‍ ಮಿಥ್ಯಾವಾಸ್ತವ (ಆರ್ಟಿಪಿಷಿಯಲ್ ಇಂಟೆಲಿಜೆನ್ಸ್, ವರ್ಚುಅಲ್ ರಿಯಾಲಿಟಿ, ಆಗ್ಮೆಂಟೆಡ್ ರಿಯಾಲಿಟಿ, ‍ಇಮ್ಮರ್ಸಿವ್ ‍ಟೆಕ್ನಾಲಜಿ ಹೀಗೆ ಹತ್ತು ಹಲವು ಮಿಥ್ಯಾವಾಸ್ತವ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಒಳಗೊಂಡ) ತಂತ್ರಜ್ಞಾನ ಬಳಸಿ, ನೀವು ನೋಡಿದ ಬೋರ್ಡ್ ಬರಹವನ್ನು ಚಿತ್ರೀಕರಿಸಿ, ಅದನ್ನು ಆಯಾ ಭಾಷೆಗೆ ಓ.ಸಿ.‌ಆರ್ ಮಾಡಿ, ಅನಂತರ ನಮ್ಮ ಕನ್ನಡಕ್ಕೆ ಅನುವಾದಿಸಿ ಓದಿ ಹೇಳುವ ದಿನಗಳನ್ನು ಕಲ್ಪಿಸಿಕೊಳ್ಳಿ. ಅಂತಹ ಕೆಲವು ತಂತ್ರಾಂಶಗಳನ್ನು ಈಗಾಗಲೇ ಬಳಸಲಿಕ್ಕೂ ಪ್ರಾರಂಭಿಸಿದ್ದೀರಿ.
ಎಲ್ಲವೂ ತ್ವರಿತವಾಗಿ ಪಡೆಯಲು ಹವಣಿಸುವ ಕಾಲದಲ್ಲಿ ಕನ್ನಡದ ವಿಜ್ಞಾನ ಸಾಹಿತ್ಯದ ಇತಿಹಾಸದ ಪುಟಗಳು ಕೂಡ ಎಲ್ಲರಿಗೆ ಸುಲಭವಾಗಿ, ತಂತ್ರಜ್ಞಾನದ ಎಲ್ಲ ಸಾಧ್ಯತೆಗಳನ್ನು ಬಳಸಿಕೊಂಡು ದೊರಕುವಂತಾಗಲಿ ಎನ್ನುವುದು ಎಲ್ಲರ ಹಂಬಲ. ಅದಕ್ಕೆ ಈ ಓಸಿಆರ್‌ ಎನ್ನುವ ತಂತ್ರ ನೆರವಾಗಲಿದೆ