Pages

Friday, July 27, 2012

Malayalam Unicode



ലോകഭാഷ
ഇംഗ്ലീഷില്‍ 26 അക്ഷരവും മലയാളത്തില്‍ 51 അക്ഷരങ്ങളും അടങ്ങിയിരിക്കുന്നു. ഇവ കൂടാതെ ചിഹ്നങ്ങളും, കൂട്ടക്ഷരങ്ങളും, രൂപങ്ങളും എല്ലാം ചേര്‍ന്നതാണു് സംസാരഭാഷ. ലോകത്തു് മൊത്തം എത്ര ഭാഷ ഉണ്ടു്? ഇവയിലെല്ലാത്തിലും കൂടി എത്ര ക്യാരക്ടറുകള്‍ ഉണ്ടാവും? ഇവയെല്ലാം എങ്ങനെ കംപ്യൂട്ടറില്‍ ഉള്‍പ്പെടുത്തും? തുടര്‍ന്നു വായിക്കുക...........


കംപ്യൂട്ടര്‍ഭാഷ 
ലോകജനത പല ഭാഷകള്‍ സംസാരിക്കുന്നതു് പോലെ കംപ്യൂട്ടര്‍ സംസാരിക്കുന്ന ഭാഷ രണ്ടേ രണ്ടക്ഷരങ്ങള്‍ മാത്രമാണു്. അതാണെങ്കില്‍ ഒന്നും പൂജ്യവും മാത്രം അടങ്ങിയ ബൈനറി കോഡ്. ഈ രണ്ടു് അക്കങ്ങളും ചേര്‍ന്നു വരുന്ന 16, 32, 64 സ്ഥാനങ്ങള്‍ അടങ്ങിയ ഒരോ സംഖ്യാസമൂഹവും ഓരോ അക്ഷരങ്ങളെയും പ്രതിനിധീകരിച്ചു് കംപ്യൂട്ടര്‍ മനസ്സിലാക്കുന്നു. 1010101010101010 എന്നിങ്ങനെ 16 സ്ഥാനങ്ങള്‍ ആകുമ്പോള്‍ 2^16 = 65536 ഉം, 32 സ്ഥാനങ്ങള്‍ ആകുമ്പോള്‍ 2^32 = 4294967296 ഉം, 64 സ്ഥാനങ്ങള്‍ ആകുമ്പോള്‍ 2^64 = 18446744073709551616 ഉം വിഭിന്ന അക്ഷരങ്ങളെയും, ചിഹ്നങ്ങളെയും, സിംബളുകളെയും, രൂപങ്ങളെയും കംപ്യൂട്ടറിനു് വേര്‍തിരച്ചു് മനസ്സിലാക്കാന്‍ സാദ്ധ്യതയുണ്ടു്. ഈ സാദ്ധ്യതകള്‍ കണക്കിലെടുത്തു് ഇംഗ്ലീഷിനു വേണ്ടി ആദ്യം രൂപപ്പെട്ട ഒരു ഏകീകൃത രീതിയാണു് ആസ്കി. ഇതേ അടിസ്ഥാനം മനസ്സിലാക്കി ഇന്ത്യന്‍ ഭാഷകള്‍ക്കായി രൂപപ്പെട്ടതാണു് ഇസ്കി. 1986ല്‍ ലോകത്തുള്ള സര്‍വ്വ ഭാഷകളും ഉള്‍ക്കൊള്ളിക്കാന്‍ രൂപപ്പെട്ട സമ്പ്രദായം ആണു് യൂണിക്കോഡു്.


ASCII
ASCII- American Standard Code for Information Interchange
അക്കങ്ങളെയാണു് കംപ്യൂട്ടര്‍ അടിസ്ഥാനപരമായി കൈകാര്യം ചെയ്യുന്നതു്, അതും പൂജ്യവും ഒന്നും ചേര്‍ത്തു് തിരിച്ചറിയാവുന്ന 16 ബിറ്റു്, 32 ബിറ്റു്, 64 ബിറ്റു് ഡിജിറ്റല്‍ രൂപത്തില്‍. ഭാഷയിലെ അക്ഷരങ്ങള്‍ക്കും അക്കങ്ങള്‍ക്കും ചിഹ്നങ്ങള്‍ക്കും ഓരോന്നിനും തനതായ ഒരു സംഖ്യാസമൂഹം നിശ്ചയിച്ചു് ലോകമൊട്ടാകെ അംഗീകരിക്കപ്പെട്ടിട്ടുണ്ടു്. ഈ സംഖ്യാസമൂഹത്തില്‍ നിന്നും അക്ഷരം ഏതാണെന്നു് കംപ്യൂട്ടര്‍ തിരിച്ചറിഞ്ഞുകൊണ്ടാണു് അതു് അതിനെ വിശകലനം ചെയ്യുന്നതും പ്രവര്‍ത്തിപ്പിക്കുന്നതും. ആദ്യകാല കംപ്യൂട്ടറുകളില്‍ ഇതിനായി പല കംപ്യൂട്ടര്‍ ഭാഷകളും ഉണ്ടായിരുന്നതിനാല്‍ ഒരു രീതി മറ്റനേകം രീതികളുമായി ഇണങ്ങാതെ മൊത്തം ആശയക്കുഴപ്പമായിരുന്നു. എല്ലാം കൂടി ചേര്‍ത്തു് പില്‍ക്കാലത്തു് അതു് ASCII എന്ന ഇംഗ്ലീഷു് ഭാഷാ എന്‍കോഡിംഗു് സമ്പ്രദായത്തില്‍ ലോകം ഒട്ടാകെ അംഗീകരിക്കപ്പെടുകയും അങ്ങനെ ഏകീകരണം സാധ്യമാവുകയും ചെയ്തു. പക്ഷെ ഇതു് ആംഗലേയഭാഷയ്ക്കു് മാത്രമായി ഉള്ള സംവിധാനമായിരുന്നു


ASCII ല്‍
മലയാളം
ഇതിന്റെ എന്‍കോഡിംഗ് രീതി ASCIIതന്നെ ആണു്. എന്നാല്‍ ഫോണ്ടിലെ ഇംഗ്ലീഷ് അക്ഷരങ്ങളെ മാറ്റി അതിന്റെ സ്ഥാനത്തു് മലയാളം അക്ഷരങ്ങളും ചിഹ്നങ്ങളും വരച്ചു് ചേര്‍ത്തു് കംപ്യൂട്ടര്‍ വായിക്കുന്ന ASCII ലെ ഇംഗ്ലീഷ് അക്ഷരത്തിന്റെ സ്ഥാനത്തു് മലയാളം പ്രത്യക്ഷപ്പെട്ടു് കംപ്യൂട്ടറിനെ തെറ്റിദ്ധരിപ്പിക്കുന്ന ഒരു തിരികിട രീതിയാണു് ഇതില്‍. ഈ ഡോക്യുമെന്റ് കംപ്യൂട്ടറില്‍ സേവ് ചെയ്യുന്നതു് ASCII കോഡായിട്ടാണു്. റ്റൈപ്പിടിക്കാന്‍ ഉപയോഗിച്ച കംപ്യൂട്ടറിലോ ഇതേ തരത്തിലുള്ള ഫോണ്ടുള്ള മറ്റു കംപ്യൂട്ടറിലോ ഈ കോഡ് വായിച്ചു് അക്ഷരങ്ങളായി മോണിറ്ററില്‍ കാണിക്കുമ്പോള്‍ ഇംഗ്ലീഷ് അക്ഷരത്തിന്റെ സ്ഥാനത്തു് പകരം അതില്‍ ചേര്‍ത്തിട്ടുള്ള മലയാളം അക്ഷരമായിരിക്കും മോണിറ്ററില്‍ കാണിക്കുക. അതേ സമയം സേവ് ചെയ്ത ഫൈല്‍ കോപ്പി ചെയ്തു് ഇത്തരം ഫോണ്ടില്ലാത്ത മറ്റു കംപ്യൂട്ടറുകളി‍ല്‍ വായിക്കുവാന്‍ ശ്രമിക്കുമ്പോള്‍ അവിടെ ഇംഗ്ലീഷിനെ മലയാളമക്കാനുള്ള ഫോണ്ടില്ലാത്തതിനാല്‍ പകരം ആ കോഡിനിണങ്ങിയ തത്തുല്യ ഇംഗ്ലീഷ് അക്ഷരമോ സിംബലോ ചോദ്യചിഹ്നമോ ചതുരപ്പെട്ടിയോ ആയിരിക്കും മലയാളത്തിനു പകരം മോണിറ്ററില്‍ തെളിയുക.


ചില മാധ്യമങ്ങള്‍ ഇന്റര്‍നെറ്റില്‍ ഉപയോഗിക്കുന്നതു് ഇത്തരം ASCII ല്‍ എന്‍കോഡു് ചെയ്ത ഫോണ്ടുകള്‍ ആണു്. അവരുടെ സൈറ്റു് ആദ്യമായി സന്ദര്‍ശിക്കുന്ന സമയത്തു് ഈ ഫോണ്ടുകള്‍ ഓട്ടോമാറ്റിക്കു് ആയി ഇന്റര്‍നെറ്റു് എക്സപ്ലോററില്‍ ഇന്‍സ്റ്റാള്‍ ആകും. മറ്റു ബ്രൗസറുകളില്‍ ഇതു് സംഭവിക്കുക ഇല്ല.


ISCII (1991)
ISCII- Indian Standard Code for Information Interchange
ഇന്ത്യന്‍ ഭാഷകള്‍ക്കായി ASCII രീതി പോല ഉള്ള ഒരു എന്‍കോഡിംഗു് സംവിധാനം ആണു് ഇതു്. ഈ സമ്പ്രദായത്തില്‍ റ്റൈപ്പടിക്കാന്‍ ഉപയോഗിച്ച കീബോര്‍ഡ് ലേയൗട്ടു് തന്നെയാണു് പില്‍ക്കാലത്തു് യൂണിക്കോഡ് ഇന്‍സ്ക്രിപ്റ്റ് ലേയൗട്ടു് ആയിട്ടു് ഇന്ത്യന്‍ ഭാഷകള്‍ക്കായി ഉപയോഗിച്ചു പോരുന്നതു്. ഈ സമ്പ്രദായം ഇന്ത്യന്‍ ഭാഷകള്‍ക്കു് മാത്രം ആണു് ഉള്ളതു് എന്നതിനാല്‍ യൂണിക്കോഡിന്റെ വരവോടെ ഇതിന്റെ ആവശ്യം ഇല്ലാതായി.


Unicode
(Research began in 1985)
ഇംഗ്ലീഷിനൊപ്പം ലോകമെമ്പാടുമുള്ള മറ്റനേകം ഭാഷകള്‍ക്കായി പില്‍ക്കാലത്തു് നിലവില്‍ വന്ന രീതിയാണു് യൂണിക്കോഡു് കണ്‍സോര്‍ഷ്യം നിര്‍ദ്ദേശിച്ച യൂണിക്കോഡു് സമ്പ്രദായം. ഓരോ ഭാഷാക്ഷരങ്ങള്‍ക്കും അക്കങ്ങള്‍ക്കും ചിഹ്നങ്ങള്‍ക്കും തനതായ ഒരു സംഖ്യ യൂണിക്കോഡു് കല്പിക്കുന്നു. ലോകത്തുള്ള പല ഭാഷകളും ചേര്‍ത്തു് 1,09,449 അക്ഷരങ്ങള്‍ യൂണിക്കോഡില്‍ ഇതു വരെ ഉള്‍ക്കൊള്ളിച്ചു കഴിഞ്ഞു. ഇതില്‍ മൊത്തം 11,14,112 അക്ഷരങ്ങള്‍ വരെ ഉള്‍ക്കൊള്ളിക്കാന്‍ സാധിക്കുമെങ്കിലും അധികമുള്ള 10,04,663 സ്ഥാനങ്ങള്‍ ഇതു വരെ ഉപയോഗപ്പെടുത്തിയിട്ടില്ല. (പൂജ്യവും ഒന്നും അടങ്ങുന്ന അക്കങ്ങള്‍ വച്ചു് 16 സ്ഥാനങ്ങള്‍ [16 bit] കല്പിക്കുമ്പോള്‍ 2 അക്കങ്ങള്‍ക്കും കൂടി 65,536 വിവിധതരം സംഖ്യാസമൂഹത്തിന്റെ സാദ്ധ്യതയുണ്ടു്. ഇങ്ങനെയുള്ള സ്ഥാനങ്ങള്‍ 17 ലേയറില്‍ ആയി ഗുണിക്കുമ്പോള്‍ കിട്ടുന്നതാണു് 11,14,112 എന്ന സംഖ്യ. ഉദാഹരണം 16 സ്ഥാനങ്ങള്‍ അടങ്ങുന്ന കോഡ് സംഖ്യകള്‍ 0101010101010101 ഉം 101010101010101010 ഉം വ്യത്യസ്ത സംഖ്യകളാണെന്നു് കാണാം. അതിനാല്‍ ഓരോന്നിനും ഓരോ അക്ഷരങ്ങള്‍ കല്പിക്കുവാന്‍ സാധിക്കും).


ഫോണ്ട്
ഡിജിറ്റല്‍ അക്കങ്ങളെ അക്ഷരങ്ങളാക്കി കംപ്യൂട്ടര്‍ മനസ്സിലാക്കിയാല്‍ അവയെ മോണിറ്ററില്‍ അക്ഷരങ്ങളാക്കി കാണിക്കണമെങ്കില്‍ അക്ഷരരൂപത്തിന്റെ ചിത്രവും വേണം. ഈ അക്ഷരരൂപങ്ങളുടെ പട്ടികയാണു ഫോണ്ടു് എന്നു പറയുന്നതു്. ഇതില്‍ എന്‍കോഡിംഗു് സംഖ്യ ഒരു വശത്തും മറുവശത്തു് തത്തുല്യ അക്ഷരരൂപങ്ങളും കൊടുത്തിരിക്കും. മോണിറ്ററിലോ പ്രിന്ററിലോ വളരെ ചെറിയ പിക്സലുകളായി (‍‍ഡോട്ടുകള്‍ ) വരയ്ക്കുന്നതാണു അക്ഷരമായി ഉപയോക്താവു് കാണുന്നതു്. ഫോണ്ടിനെപ്പറ്റിയുള്ള വിശദവിവരം ഇവിടെ വായിക്കുക.


മലയാളം
9 ഇന്ത്യന്‍ ഭാഷകള്‍ക്കായി 128 X 9 = 1152 കോഡുകള്‍ ( 2304 മുതല്‍ 3455 വരെ ) അലോട്ടു് ചെയ്തിരിക്കുന്നതില്‍ 3328 മുതല്‍ 3455 വരെയുള്ള 128 എണ്ണം മലയാള ലിപികള്‍ക്കാണു് തന്നിരിക്കുന്നത്. അംഗീകരിക്കപ്പെട്ട ഈ രീതിയില്‍ ഒരോ മലയാള അക്ഷരങ്ങള്‍ക്കും അക്കങ്ങള്‍ക്കും ചിഹ്നങ്ങള്‍ക്കും അതാതിന്റേതായ തനതായ സംഖ്യാസമൂഹം നിര്‍ണ്ണയിക്കപ്പെട്ടു. ഇതു് മനസ്സിലാക്കിയാണു് പല സോഫ്റ്റു് വേറും ഹാര്‍ഡു്വേറും ഡിസൈന്‍ ചെയ്തിരിക്കുന്നതു്. ഈ യൂണിക്കോ‍‍ഡു് അക്ഷരങ്ങളെയും അക്കങ്ങളെയും ചിഹ്നങ്ങളെയും നെറ്റിലും വെബു് പേജുകളിലും ഉപയോഗിച്ചാല്‍ അവയെ ലോകത്തുള്ള ഏതു് കംപ്യൂട്ടറിനും സര്‍ച്ചു് എന്‍ജിനും തിരിച്ചറിയുവാന്‍ സാധിക്കും. യൂണിക്കോഡു് ഉപയോഗിച്ചു് മലയാളത്തില്‍ എഴുതുകയും വായിക്കുകയും ചെയ്യാം, വെബു്സൈറ്റു് ഉണ്ടാക്കാം, ബ്ലോഗാം, ചാറ്റാം, ഈ മെയില്‍ ചെയ്യാം, ഗൂഗിളില്‍ മലയാളത്തില്‍ സര്‍ച്ചു് ചെയ്യാം, ഒരു മാതിരിപ്പെട്ട എല്ലാ ഓഫീസു് സോഫ്റ്റു്വേറിലും മലയാളം ഉപയോഗിക്കാം, വിന്‍ഡോസില്‍ ഫൈല്‍ റീനെം ചെയ്യാം.കംപ്യൂട്ടര്‍ ഓപ്പറേറ്റിങ്ങു് സിസ്റ്റം ഇത്തരം യൂണിക്കോണ്ടു് ഫോണ്ടുകളെ തിരിച്ചറിയേണ്ടതുണ്ടു്. അങ്ങിനെ തിരിച്ചറിയാന്‍ സാദ്ധ്യമായതിനാല്‍ യൂണിക്കോഡു് ഫോണ്ടുകള്‍ ആണു് ഇന്റര്‍നെറ്റില്‍ സര്‍വ്വസാധാരണമായി ഉപയോഗിക്കുന്നതു്.


ടൈപ്പടി
യൂണിക്കോഡ് ടൈപ്പടിക്കാന്‍ അടിസ്ഥാനപരമായി രണ്ടു് തരം ടൈപ്പടി രീതി ലഭ്യമാണു്. ആദ്യത്തേതു് ഏതൊരു ഭാഷയും ഉച്ചരിക്കുന്ന രീതിയില്‍ ഇംഗ്ലീഷ് അക്ഷരങ്ങള്‍ ടൈപ്പു് ചെയ്തു് ആവശ്യമുള്ള ഭാഷാക്ഷരം ലഭിക്കുന്ന ഫണറ്റിക്ക് ട്രാന്‍സ്ലിറ്ററേഷന്‍ രീതി. രണ്ടാമത്തേതു് അതാതു ഭാഷകളുടെ അക്ഷരങ്ങള്‍ തന്നെ ഉപയോഗിച്ചു ടൈപ്പു് ചെയ്യുന്ന രീതിയും. ഇതില്‍ ഇന്ത്യന്‍ ഭാഷകള്‍ നേരിട്ടു് ടൈപ്പടിക്കാന്‍ ഉപയോഗിക്കുന്ന രീതിയാണു് ഇന്‍സ്ക്രിപ്റ്റ് രീതി.


കീ ബോര്‍ഡ്
കംപ്യൂട്ടര്‍ ഉപയോഗിച്ചു് മലയാളം അല്ലെങ്കില്‍ മറ്റു് ഇന്ത്യന്‍ ഭാഷകള്‍ റ്റൈപ്പു് ചെയ്യുമ്പോള്‍ അതു് റ്റൈപ്പു് ചെയ്യാനുള്ള രീതി ഒരു പ്രശ്നം ആണു്. Qwerty കീബോര്‍ഡു് തന്നെ ഉപയോഗിച്ചു് മലയാളം റ്റൈപ്പു് ചെയ്യാന്‍ ഏക ആശ്രയം ഇന്‍സ്ക്രിപ്റ്റു് കീബോര്‍ഡാണു്. Qwerty കീബോര്‍ഡില്‍ ഇന്‍സ്ക്രിപ്റ്റു് വരാന്‍ വേണ്ടി വിന്‍ഡോസില്‍ അതിന്റെ Winscript (Inscript keyboard in Windows Operating System) സോഫ്റ്റു്വേര്‍ ഇന്‍സ്റ്റാള്‍ ചെയ്തു ആക്ടിവേറ്റ് ചെയ്താല്‍ മതി. വിന്‍‍ഡോസു് 7 നു ശേഷമുള്ള WinOS നു് പക്ഷെ ഈ നടപടി ചെയ്യാതെ തന്നെ ‍ഡിഫാള്‍ട്ടു് ആയി Winscript ഉണ്ടു്. ആക്ടീവു് ആക്കിയാല്‍ മതി. അഞ്ജലി ഓള്‍ഡു് ലിപിയാണു് ഇന്റര്‍നെറ്റില്‍ വളരെ സര്‍വ്വസാധാരണമായു് ഉപയോഗിച്ചു പോരുന്നതു്.


സേവ് ചെയ്യല്‍
നോട്ടു് പാഡില്‍ അടിക്കുന്ന മലയാളം ഫൈല്‍ സേവ് ചെയ്യുമ്പോള്‍ യൂണിക്കോഡിന്റെ എല്ലാ സ്വഭാവവും അതില്‍ നിലനിര്‍ത്തണം എങ്കില്‍ അതു് UTF-8 ആയിട്ടു തന്നെ സേവ് ചെയ്യണം





















.....................................................................................................................................................

ഇതു് കൂടി വായിച്ചു് നോക്കൂ -

൧.   മലയാളം മലയാളത്തില്‍ എഴുതാന്‍

൨. New code points for Malayalam Unicode

൩.

No comments:

Post a Comment

അഭിപ്രായങ്ങള്‍, ആശയങ്ങള്‍, നിര്‍ദ്ദേശങ്ങള്‍, സംശയങ്ങള്‍ എന്നിവ ഇവിടെ ഉന്നയിക്കാം. മറുപടി കഴിവതും വേഗം കിട്ടും.