मूल व्यञ्जनों (अ-ध्वनि रहित) के यूनिकोड कूट निर्धारण की आवश्यकता

ePandit | ई-पण्डित

unread,

Aug 16, 2010, 8:10:33 AM8/16/10

to IndiComs

मित्रों वर्तमान में यूनिकोड में केवल पूरे अक्षर (अकार युक्त व्यञ्जन) तथा हलन्त ही कोडित हैं। मूल व्यञ्जन (शुद्ध व्यञ्जन, अ-ध्वनि रहित, जिन्हें लेखन में हम आमतौर पर हलन्त लगा कर दिखाते हैं) कोडित नहीं हैं। इसकी अनेक हानियाँ हैं, मैं इनमें से एक हानि टैक्स्ट साइज का बड़ा होना बता रहा हूँ, बाकी हानियों पर हरिराम जी से निवेदन है कि प्रकाश डालें।

वर्ण भाषा की सबसे छोटी इकाई होता है, देवनागरी में स्वर तथा व्यञ्जन दो तरह के वर्ण होते हैं। व्यञ्जन अपने मूल रुप में हलन्त युक्त ही होते हैं (अर्थात हलन्त युक्त व्यञ्जन ही वर्ण है, सबसे छोटी इकाई है), हाँ व्यञ्जन का उच्चारण बिना स्वर के नहीं किया जा सकता, इसके लिये स्वर की सहायता लेनी पड़ती है। लेकिन लेखन में वह स्वतन्त्र रुप से सबसे छोटी इकाई है।

वर्तमान में यूनिकोड में पूरे अक्षर (और हलन्त) ही कूटबद्ध हैं, मूल व्यञ्जन नहीं जिस कारण आधे अक्षरों के लिये हलन्त जोड़ना पड़ता है जबकि (जैसा हरिराम जी ने बताया) हलन्त का असली कार्य 'अ' ध्वनि को हटाना/घटाना है।

व्याकरण के अनुसार होना यह चाहिये था: पूरा अक्षर = मूल व्यञ्जन+अ ध्वनि वर्ण
जबकि होता यह है: आधा अक्षर = पूरा अक्षर+हलन्त

जिस प्रकार हम लिखते हुये आधा अक्षर (जैसे आधा क) लिखने के लिये पहले पूरा लिखकर फिर आधा काटते नहीं वैसे ही कोडिंग प्रणाली में भी आधा अक्षर (मूल व्यञ्जन) होना चाहिये था न कि इसके लिये पूरे अक्षर के साथ हलन्त जोड़ना पड़े।

व्याकरण के अनुसार बारह-खड़ी इस प्रकार होती है: क = क्+अ, का=क्+आ, कि=क्+इ, की=क्+ई आदि
लेकिन वर्तमान ऍन्कोडिंग में यह होता है: का=क+ा, कि=क+ि, की=क+ी आदि जिन्हें जोड़कर प्रदर्शन हेतु स्क्रिप्ट प्रोसैसर (कॉम्पलैक्स स्क्रिप्ट लेआउट इञ्जन) द्वारा दिखाया जाता है।

देवनागरी का टंकण एवं प्रदर्शन एक तीन चरणों की व्यवस्था से होता है जिसे हरिराम जी त्रिआयामी समस्या बताते हैं। इस त्रिआयामी समस्या के कारण ही अक्सर विभिन्न सॉफ्टवेयरों में जैसे फोटोशॉप हिन्दी बिखरी हुयी दिखती है।

हरिराम जी द्वारा दिया गया उदाहरण देखें:

'स्व' टंकित करने में स + हलन्त +व ही प्रोसेस होता है = sa+(-a)+wa

यदि आधे अक्षर और 'अ' की मात्रा निराकार(invisible) और कण रूप में कोडित होती
तो स्व = s+w+a = स् (आधे रूप में खड़ी पाई रहित) + व् (आधे रूप में खड़ी पाई रूप
में) + अ (खड़ी पाई रूप में) ही टंकित/प्रोसेसिंग करना पड़ता।

जिस कारण आधा अक्षर जिसे एक इकाई स्थान घेरना था वह दो इकाई स्थान घेरता है। उपरोक्त उदाहरण में स्व को जहाँ दो इकाई स्थान घेरना चाहिये था, वह तीन इकाई घेर रहा है। इसके अलावा सामान्य संयुक्ताक्षर भी यूनिकोड में कोडित नहीं है जिस कारण संयुक्ताक्षरों में स्थिति और भी बुरी हो जाती है।

जैसे लक्ष्मण में आधा क्ष (क्ष्) = क+्+ष+्
अर्थात जहाँ आधे क्ष ने एक इकाई स्थान घेरना था वह चार इकाई स्थान घेर रहा है। यही स्थिति ज्ञ, त्र, श्र आदि के आधे अक्षरों में देखी जा सकती है।

मूल व्यञ्जनों और संयुक्तक्षरों के कूटबद्ध न होने से जो टैक्स्ट साइज बड़ा होने की हानि है उसका प्रत्यक्ष उदाहरण आप ट्विटर में ट्वीट टाइप करते समय देख सकते हैं। वहाँ 140 वर्णों की सीमा होती है और हम जैसे-जैसे टाइप करते जाते हैं यह कम होती जाती है जिसे ट्विटर साथ-साथ दिखाता रहता है। हम देख सकते हैं कि अंग्रेजी के बड़े से बड़े वाक्य जहाँ इस सीमा में आ जाते हैं वहीं हिन्दी के वाक्य अक्सर आ नहीं पाते जिस कारण हिन्दी में कोई बात कम शब्दों में लिखना बड़ा मुश्किल हो जाता है।

एक अन्य उदाहरण मुझे याद है जहाँ मुझे इस कारण समस्या हुयी थी - माइक्रोसॉफ्ट के कीबोर्ड बनाने वाले टूल MSKLC (Microsoft Keyboard Layout Creator) में dead key डिफाइन करते वक्त dead key value, base तथा composite के रुप में एकाधिक key को डिफाइन नहीं कर सकते जिस वजह से में s+hr (dead key+base) ='श्र' नहीं सैट कर सकते है (base=hr दो key हैं), यही नहीं S+r='श्र' भी नहीं होता क्योंकि 'श्र' में तीन कुञ्जी कोड हैं (श+्+र) यानि यदि मूल व्यञ्जनों का मानकीकरण हुआ होता तो श्र=श्+र होता तब बात बन जाती। यह समस्या अनेक संयुक्त वर्णों में आती है।

एक सामान्य उदाहरण जो हमें देखने को मिलता है कि वेब फॉर्मों अथवा किसी सॉफ्टवेयर के फॉर्म फील्ड जैसे नाम, पता आदि की लिमिट तय होती है इसलिये इस साइज बढ़ने की समस्या के कारण हिन्दी में प्रायः नाम आदि पूरे नहीं आ पाते।

ज्यादा साइज घेरने के कारण ही हिन्दी में SMS भेजना रोमन की बजाय महंगा पड़ता है।

साइज के अलावा सॉर्टिंग (Sorting) की समस्या भी है, वर्तमान में आधा अक्षर दो कूटों से बना होने के कारण सॉर्टिंग में पूरे अक्षर से बाद में आता है जो कि व्याकरण एवं वैज्ञानिक रुप से गलत है। इस पर अधिक प्रकाश हरिराज जी डाल पायेंगे।

हरिराम जी के अनुसार,

यदि मूल व्यञ्जनों को यूनिकोड में शामिल कर लिया जाता तो विण्डोज के USP (Unicode Script Processor) की आवश्यकता ही न होती।

हरिराम जी यह बात समझ नहीं आयी, माना मूल व्यञ्जनों तथा संयुक्ताक्षरों (क्ष, त्र, ज्ञ, श्र आदि) की भी कोडिंग हो जाय तब भी उन्हें सही रुप में स्क्रिप्ट प्रोसैसर के बिना कैसे दिखाया जा सकेगा। उदाहरण के लिये 'स्व' तो हो जायेगा पर द्व=द्+व्+इ (वर्तमान में द+्+व) होने पर भी उसे 'द्व' रुप में तो USP ही दिखा पायेगा न। यही बात अन्य संयुक्ताक्षरों आदि में है।

हरिराम जी के अनुसार,

इसीलिए मूल व्यंजनों (अ-ध्वनि रहित व्यंजनों) के कूट-निर्धारण की नितान्त आवश्यकता है। इसके बिना पाणिनी के शब्द रूप, प्रत्यय विधान, विभक्ति विधान के समस्त वैज्ञानिक सूत्रों की कम्प्यूटिंग गलत हो जाती है, लिपि ही अपंग हो जाती
है।

हरिराम जी कृपया इस बारे में और प्रकाश डालें।

आशा है मैं सदस्यों को मूल व्यञ्जनों के मानकीकरण न होने सम्बंधी समस्या समझा पाया होऊंगा। वर्तमान कोड़िंग के कारण शब्द जिस रुप में प्रकट किये जाते हैं वह देवनागरी लिपि के व्याकरण, बारहखड़ी तथा वर्णक्रम के अनुकूल नहीं है। यदि कम्प्यूटर में भी सही क्रम के अनुसार प्रक्रिया होती तो कोई समस्या न आती, टाइपिंग और सरल होती तथा हिन्दी के लिये सटीक श्रुतलेखन सॉफ्टवेयर (Speech to Text S/W) बनाये जा सकते।

सन्दर्भ: http://groups.google.com/group/technical-hindi/msg/51050e33261e4f22

--
Shrish Benjwal Sharma (श्रीश बेंजवाल शर्मा)
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
If u can't beat them, join them.

ePandit: http://epandit.shrish.in/

himanshu singh

unread,

Aug 16, 2010, 8:30:48 AM8/16/10

to indi...@googlegroups.com

इस मुद्दे पे तो बात करने से ही मेरा खून उबलने लगता है.

इसका बहुत ही सीधा सा कारण है. जापानी और चीनी के लिए यूनीकोड ग्रुप २००० कांजी को जगह दे सकता है. पर भारतीय भाषाओं के लिए उनके पास जगह नहीं है.

आप किसी भी जापानी / चीनी साईट पर जाइए, आप आसानी से उस साईट को देख सकते है, अगर आप के मशीन में जापानी या चीनी फोंट है तो. ज़रा आप चीनी फांट का आकार देखिएगा. कई कई मेगा बाईट के होते है. यानी की हर कांजी के लिए एक कोड मिला हुआ है उन लोगो को.

पर जब हिन्दी की बारी आती है तो सब चीज टूट फूट जाता है. कारण ? हिन्दी को दिखाने के लिए complex language layout engine की जरूरत होती है.

यही कारण है की मोबाइल में , DTP में हिन्दी की हालत कमजोर है. अगर आपका प्रोग्राम पूरी तरह से यूनीकोड सपोर्ट करता है तो भी यह पूरी गारंटी नहीं है की हिन्दी उसमे सही तरीके से दिखेगी.

पर यह ऐसा मुद्दा है की शायद इसपे बात करने से शायद ज्यादा कुछ फल नहीं मिलेगा, क्योकी जब तक यूनीकोड ग्रुप यह जब तक निर्णय नहीं लेगा तब तक हम लोगो के सर पटकने से कुछ नहीं होने वाला है. ४-५ साल पहले भी लोग इसी मुद्दे पर बहस करते थे और लोग अभी इस मुद्दे पर बात कर रहे है :(

हिमांशु

2010/8/16 ePandit | ई-पण्डित <sharma...@gmail.com>

--
You received this message because you are subscribed to the Google Groups "Indicoms" group.
To post to this group, send email to indi...@googlegroups.com
To unsubscribe from this group, send email to indicoms-u...@googlegroups.com
For more options, visit this group at http://groups.google.com/group/indicoms?hl=en
------
Discussion group for Standardisation needs for Computing in Indian Languages/scripts.

himanshu singh

unread,

Aug 16, 2010, 8:34:23 AM8/16/10

to indi...@googlegroups.com

श्रीश जी,

मेरे बातो को बुरा मत मानियेगा, पर आपने मेरी दुखती रग पर हाथ रख दिया था :)

हिमांशु

2010/8/16 himanshu singh <angular....@gmail.com>

sanjay kareer

unread,

Aug 16, 2010, 8:49:00 AM8/16/10

to indi...@googlegroups.com

2010/8/16 ePandit | ई-पण्डित <sharma...@gmail.com>

देवनागरी का टंकण एवं प्रदर्शन एक तीन चरणों की व्यवस्था से होता है जिसे हरिराम जी त्रिआयामी समस्या बताते हैं। इस त्रिआयामी समस्या के कारण ही अक्सर विभिन्न सॉफ्टवेयरों में जैसे फोटोशॉप हिन्दी बिखरी हुयी दिखती है।

विषयांतर के लिए क्षमा चाहूंगा लेकिन मैं यह जानना चाहता हूं कि फोटो पर लिखने का और क्‍या उपाय है... फोटोशॉप के बारे में तो आपने बता ही दिया कि नहीं लिखा जा सकता।

--

Sanjay Kareer
-----------------------------------------------------
Daily Hindi News : First online Hindi Newspaper from Sagar & Bundelkhand
Sagar: The Heart of India : All About Sagar
MP Newsline : News from Madhya Pradesh

narayan prasad

unread,

Aug 16, 2010, 8:53:59 AM8/16/10

to indi...@googlegroups.com

<<तो स्व = s+w+a = स् (आधे रूप में खड़ी पाई रहित) + व् (आधे रूप में खड़ी पाई रूप
में) + अ (खड़ी पाई रूप में)>>

व् (आधे रूप में खड़ी पाई रूप में) ??

<<जिस कारण आधा अक्षर जिसे एक इकाई स्थान घेरना था वह दो इकाई स्थान घेरता है। उपरोक्त उदाहरण में स्व को जहाँ दो इकाई स्थान घेरना चाहिये था, वह तीन इकाई घेर रहा है।>>

स्व दो इकाई स्थान कैसे छेकता है, कृपया स्पष्ट करें । वर्तमान स्थिति या संशोधित किसी भी रूप में हो इसे तीन इकाई स्थान छेकना चाहिए ।

----नारायण प्रसाद

2010/8/16 ePandit | ई-पण्डित <sharma...@gmail.com>

मित्रों वर्तमान में यूनिकोड में केवल पूरे अक्षर (अकार युक्त व्यञ्जन) तथा हलन्त ही कोडित हैं। मूल व्यञ्जन (शुद्ध व्यञ्जन, अ-ध्वनि रहित, जिन्हें लेखन में हम आमतौर पर हलन्त लगा कर दिखाते हैं) कोडित नहीं हैं। इसकी अनेक हानियाँ हैं, मैं इनमें से एक हानि टैक्स्ट साइज का बड़ा होना बता रहा हूँ, बाकी हानियों पर हरिराम जी से निवेदन है कि प्रकाश डालें।

**************Message curtailed *************

ePandit | ई-पण्डित

unread,

Aug 16, 2010, 1:36:38 PM8/16/10

to indi...@googlegroups.com

स्व दो इकाई स्थान कैसे छेकता है, कृपया स्पष्ट करें । वर्तमान स्थिति या संशोधित किसी भी रूप में हो इसे तीन इकाई स्थान छेकना चाहिए ।

----नारायण प्रसाद

मैंने दो इकाई यह मान कर लिखा है कि पूरा अक्षर 'व' (अकार सहित) तो पहले से है ही, 'स्' (शुद्ध व्यजञ्न) भी हो जाय तो दोनों से बना 'स्व' दो इकाई स्थान लेगा। क्योंकि मेरा अर्थ यह नहीं कि जो पूरे अक्षर (अकार सहित) यूनिकोड में शामिल हो चुके हैं, उन्हें हटाया जाय। उन्हें हटा भी नहीं सकते।

१६ अगस्त २०१० ६:२३ अपराह्न को, narayan prasad <hin...@gmail.com> ने लिखा:

--
You received this message because you are subscribed to the Google Groups "Indicoms" group.
To post to this group, send email to indi...@googlegroups.com
To unsubscribe from this group, send email to indicoms-u...@googlegroups.com
For more options, visit this group at http://groups.google.com/group/indicoms?hl=en
------
Discussion group for Standardisation needs for Computing in Indian Languages/scripts.

narayan prasad

unread,

Aug 16, 2010, 1:47:55 PM8/16/10

to indi...@googlegroups.com

हरिराम जी ने जो लिखा उसका उत्तर न तो आपने दिया और न उन्होंने । "व् (आधे रूप में खड़ी पाई रूप में) " का क्या मतलब है ? क्या यह टंकण की अशुद्धि है ? इतना ही नहीं हरिराम जी के और आपके विचार में विरोधाभास दिखता है । कृपया मेरे पूर्व सन्देश को फिर से पूरा पढ़ें ।
--- नारायण प्रसाद

2010/8/16 ePandit | ई-पण्डित <sharma...@gmail.com>

स्व दो इकाई स्थान कैसे छेकता है, कृपया स्पष्ट करें । वर्तमान स्थिति या संशोधित किसी भी रूप में हो इसे तीन इकाई स्थान छेकना चाहिए ।

----नारायण प्रसाद

ePandit | ई-पण्डित

unread,

Aug 16, 2010, 3:14:15 PM8/16/10

to indi...@googlegroups.com

१६ अगस्त २०१० ११:१७ अपराह्न को, narayan prasad <hin...@gmail.com> ने लिखा:

हरिराम जी ने जो लिखा उसका उत्तर न तो आपने दिया और न उन्होंने । "व् (आधे रूप में खड़ी पाई रूप में) " का क्या मतलब है ? क्या यह टंकण की अशुद्धि है ?

हाँ टंकण की अशुद्धि ही लगती है, शायद वे 'आधे रुप में खड़ी पाई रहित' लिखना चाह रहे थे।

इतना ही नहीं हरिराम जी के और आपके विचार में विरोधाभास दिखता है । कृपया मेरे पूर्व सन्देश को फिर से पूरा पढ़ें ।
--- नारायण प्रसाद

मैं आपकी बात समझ रहा हूँ, स्व वाले मामले में विरोधाभास दिख रहा है। इसका कारण ये है कि मैं ये मानकर चल रहा हूँ कि अगर मूल व्यञ्जन भी कूटबद्ध कर लिये जायें (और अकार सहित पूरे हैं ही) तो स्व=स् (मूल व्यञ्जन)+व (अकार सहित, वर्तमान) जिससे दो इकाई स्थान लेगा।

व्याकरण के वर्ण-विच्छेद के अनुसार, स्व=स्+व्+अ

हालाँकि उस स्थिति में (अर्थात, मूल व्यञ्जनों के शामिल होने के बाद), प्रोसैसिंग किस तरह होगी यह मैं भी नहीं समझ पा रहा।

स्व=स् (नया मूल व्यञ्जन, खड़ी पाई रहित)+व् (नया मूल व्यञ्जन)+अ
अथवा
स्व=स् (नया मूल व्यञ्जन, खड़ी पाई रहित)+व (मौजूदा अकार सहित व्यञ्जन)

इस मामले में हरिराम जी से अनुरोध है कि प्रकाश डालें।

2010/8/16 ePandit | ई-पण्डित <sharma...@gmail.com>

स्व दो इकाई स्थान कैसे छेकता है, कृपया स्पष्ट करें । वर्तमान स्थिति या संशोधित किसी भी रूप में हो इसे तीन इकाई स्थान छेकना चाहिए ।

----नारायण प्रसाद

मैंने दो इकाई यह मान कर लिखा है कि पूरा अक्षर 'व' (अकार सहित) तो पहले से है ही, 'स्' (शुद्ध व्यजञ्न) भी हो जाय तो दोनों से बना 'स्व' दो इकाई स्थान लेगा। क्योंकि मेरा अर्थ यह नहीं कि जो पूरे अक्षर (अकार सहित) यूनिकोड में शामिल हो चुके हैं, उन्हें हटाया जाय। उन्हें हटा भी नहीं सकते।

--
You received this message because you are subscribed to the Google Groups "Indicoms" group.
To post to this group, send email to indi...@googlegroups.com
To unsubscribe from this group, send email to indicoms-u...@googlegroups.com
For more options, visit this group at http://groups.google.com/group/indicoms?hl=en
------
Discussion group for Standardisation needs for Computing in Indian Languages/scripts.

Anunad Singh

unread,

Aug 17, 2010, 12:09:22 AM8/17/10

to indi...@googlegroups.com

देवनागरी एवं अन्य भारतीय लिपियों के यूनिकोड पर पहले भी एक विस्तृत चर्चा हुई थी। उसमें इस मुद्दे पर कोई स्पष्ट मतैक्य नही बन पाया था कि वर्तमान यूनिकोड 'अपंग' है।

हिन्दी, संस्कृत, मराठी आदि के शब्दों में आधे अक्षर और पूरे अक्षर - दोनो ही आते हैं। इसलिये यदि मूल व्यंजनों को एक कोड दिया जाता तो जहाँ-जहाँ पूर्णाक्षर आते वहाँ-वहाँ दो यूनिकोड की जरूरत पड़ती और जहाँ अर्धाक्षर होते वहां केवल एक। इससे तो मुझे लगता है कि वर्तमान प्रणाली में कम 'स्पेस' में ही काम चल जाता है और प्रस्तावित परिवर्तन के कारण अधिक जगह लगेगी। ऐसा इसलिये है कि मेरा मानना है कि अर्धाक्षर अपेक्षाकृत कम होते हैं।

दूसरी बात यह है कि 'कोडीकरण' का काम कप्यूटर और उसका कोई प्रोग्राम करता है, न कि कोई व्यक्ति। इसलिये " क् = क + हलन्त " व्याकरण की दृष्टि से थोड़ा अटपटा हो किन्तु प्रोग्राम में लागू करने की दृष्टि से न कठिन है न अटपटा।

मैं यह भी नहीं मानता कि 'बिखरे हुए' वर्ण आदि की समस्या देवनागरी के यूनिकोड के गलत निर्धारन के कारण है। यह तो प्रोग्राम की कमी या 'बग' के कारण थी / है।

Hariram

unread,

Aug 18, 2010, 4:01:34 AM8/18/10

to indi...@googlegroups.com

नारायण जी,

आपने सही पकड़ा है।

चाहे

स+हलन्त+व हो

या
स्+व्+अ हो

तीन ईकाई का ही स्थान घेरेंगे।

किन्तु स्+व्+अ सरल और सपाट तकनीकी और वैज्ञानिक क्रम में होगा

जबकि स+हलन्त+व जटिल वैज्ञानिक प्रक्रम में होगा।

-- हरिराम

Hariram

unread,

Aug 18, 2010, 4:06:56 AM8/18/10

to indi...@googlegroups.com

नारायण जी,

आपने एकदम सही बिन्दु को पकड़ा है।

कृपया ध्यान दें। ISCII के Invisible character code की तरह

'अ' वर्ण की मात्रा (चाहे खड़ी पाई रूप में हो या अदृश्य निराकार) रूप में) की भी Encoding करनी होगी।

स्व=स् (नया मूल व्यञ्जन, खड़ी पाई रहित)+व् (नया मूल व्यञ्जन)+अ (खड़ी पाई या निराकार)

-- हरिराम

Hariram

unread,

Aug 18, 2010, 4:12:11 AM8/18/10

to indi...@googlegroups.com

अनुनाद जी,

आपने समस्या को समझने का प्रयास किया है। थोड़ा और ध्यान से समझने का प्रयास करना होगा।

यथा - युनिकोड देवनागरी पाठ से pdf बनाई हुई किसी सामग्री से एक पंक्ति copy करके नोटपैड में paste करें। गड़बड़ी को देख आपकी समझ में शायद समस्या आ जाएगी।

-- हरिराम

On 8/17/10, Anunad Singh <anu...@gmail.com> wrote:

हिन्दी, संस्कृत, मराठी आदि के शब्दों में आधे अक्षर और पूरे अक्षर - दोनो ही आते हैं। इसलिये यदि मूल व्यंजनों को एक कोड दिया जाता तो जहाँ-जहाँ पूर्णाक्षर आते वहाँ-वहाँ दो यूनिकोड की जरूरत पड़ती और जहाँ अर्धाक्षर होते वहां केवल एक। इससे तो मुझे लगता है कि वर्तमान प्रणाली में कम 'स्पेस' में ही काम चल जाता है और प्रस्तावित परिवर्तन के कारण अधिक जगह लगेगी। ऐसा इसलिये है कि मेरा मानना है कि अर्धाक्षर अपेक्षाकृत कम होते हैं।

--
हरिराम
प्रगत भारत http://hariraama.blogspot.com

Hariram

unread,

Aug 18, 2010, 7:26:20 AM8/18/10

to indi...@googlegroups.com

हिमांशु जी,

कृपया इस वर्ग में ऐसी राग-द्वेष की बातें कदापि न करें।

हमारा उद्देश्य "सर्वसम्मति" से समस्याओं का समाधान करना है, किसी पर दोषारोपण करना नहीं।

हम इस्की, 8 bit अमानकीकृत फोंट, युनिकोड तथा अन्य सभी हिन्दी कम्प्यूटिंग की विधाओं का सम्मान करते हैं और उनके प्रति आभार प्रकट करते हैं, क्योंकि इन्हीं के योगदान के फलस्वरूप हम आज इस स्तर पर पहुँच पाएँ हैं कि आपस में हिन्दी (देवनागरी) में चर्चा, चैट, ईमेल आदि कर पा रहे हैं।

कुछ गलतियाँ या त्रुटियाँ रह जाना स्वाभाविक है। जिनका निष्पक्षता पूर्वक विचार-विमर्श करके "सर्वसम्मत" समाधान निकालना है।

देवनागरी तथा indic में जटिलताएँ कालक्रम में उपजे 'विकारों' के कारण आईं हैं, लेकिन भाषा/लिपि में आए 'विकार' को भी 'विकास' ही माना जाता है।

इन्हीं का सर्वसम्मति से समाधान निकालना हमारा एकमात्र लक्ष्य है।

-- हरिराम

ePandit | ई-पण्डित

unread,

Aug 18, 2010, 7:58:15 AM8/18/10

to indi...@googlegroups.com

पर जब हिन्दी की बारी आती है तो सब चीज टूट फूट जाता है. कारण ? हिन्दी को दिखाने के लिए complex language layout engine की जरूरत होती है.

यदि देवनागरी का यूनिकोड मानकीकरण सही तरीके से अर्थात मूल व्यञ्जनों, संयुक्ताक्षरों की कोडिंग तथा व्याकरण अनुसार वैज्ञानिक तरीके से किया जाता तो हिन्दी प्रदर्शन के लिये किसी USP (यूनिस्क्राइब आदि) जैसे दलाल (देखें: त्रिआयी समस्या) की जरुरत न होती। उस स्थिति में कम्प्यूटर, मोबाइल इत्यादि किसी भी कम्प्यूटिंग डिवाइस में केवल हिन्दी का फॉण्ट स्थापित करने से काम चल जाता और उसका सामान्य स्क्रिप्ट रेण्डरिंग इञ्जन हिन्दी दिखा सकता था। उदाहरण के लिये पीसी में रशियन आप केवल फॉण्ट स्थापित करके पढ़ सकते हैं, यदि देवनागरी को भी सही रुप से ऍन्कोडित किया जाता तो लगभग यही स्थिति होती।

१६ अगस्त २०१० ६:०० अपराह्न को, himanshu singh <angular....@gmail.com> ने लिखा:

Anunad Singh

unread,

Aug 18, 2010, 8:21:56 AM8/18/10

to indi...@googlegroups.com

रूसी और देवनागरी में तुलना नहीं की जा सकती। रूसी लिपि में मात्रा, अर्धाक्षर आदि का चक्कर नहीं है। यह पूर्णत: 'अल्फाबेटों के कम्बिनेशन' से लिखी जाती है जबकि देवनागरी में स्थिति अलग है।

इसके अलावा, यदि यह टूटने की समस्या देवनागरी यूनिकोड के गलत/अपर्याप्त मानकीकरण के कारण होती तो यह समस्या इन्टरनेट एक्सप्लोरर में क्यों नहीं आती थी जबकि मोजिला के ब्राउजरों में छोटी इ की मात्रा का स्थान बदल जाता था।

इसी तरह पीडीएफ से कॉपी करने की बात है। बात यह है कि हम कॉपी-पेस्ट को बहुत 'साधारण' और सहज काम मानकर चल रहे हैं। वैसा है नहीं। हमे नहीं कि इस कॉपी-पेस्ट की प्रक्रिया में कितनी प्रक्रियाएँ और कितने प्रोग्राम अन्दर-ही-अन्दर अपना काम कर रहे हैं।

यह ज्ञात तथ्य है कि रोमन के किसी पीडीएफ फाइल (थोड़ी जटिल फाइल) को केवल कॉपी करके ज्यों का त्यों वर्ड में नहीं ले जाया जा सकता। इसी सन्दर्भ में कई पीडीएफ-टू-वर्ड कन्वर्टर बने हैं जिनमें कोई कम कोई ज्यादा शुद्धता से पीडीएफ फाइल को वर्ड में बदलता है। पीडीएफ से वर्ड में बदलने के लिये केवल इनकोडिंग ही नहीं बल्कि सामग्री का प्रदर्शन (आर्कअप) को भी हैंडिल करना पड़ता है। जो प्रोग्राम सभी सम्भावित स्थितियों को ध्यान में रखकर नहीं लिखे गये होते वे ऐसी स्थितियों में गलत काम करेंगे ही।

ePandit | ई-पण्डित

unread,

Aug 18, 2010, 11:34:58 AM8/18/10

to indi...@googlegroups.com

@ अनुनाद सिंह,

मैं यह भी नहीं मानता कि 'बिखरे हुए' वर्ण आदि की समस्या देवनागरी के यूनिकोड के गलत निर्धारन के कारण है। यह तो प्रोग्राम की कमी या 'बग' के कारण थी / है।

देवनागरी डिवाइस के अन्दर तो मूल कूटों में ही स्टोर होती है लेकिन स्क्रीन पर प्रदर्शन कॉम्पलैक्स स्क्रिप्ट लेआउट इञ्जन यानि USP (Unicode Script Processor) द्वारा किया जाता है, उदाहरण के लिये यह इञ्जन 'ज, ् तथा ञ' को जोड़कर 'ज्ञ' दिखाता है। हिन्दी तब बिखरती है यदि डिवाइस के उपरोक्त इञ्जन में इण्डिक लिपियों हेतु प्रावधान न हो जैसे विण्डोज में बिना हिन्दी समर्थन सक्षम किये या फिर पुराने विण्डोज़ ९८ आदि में, या आंशिक/बिना हिन्दी समर्थन वाले फोन में नहीं होता।

यदि आप बिखरी हुयी हिन्दी देखें तो पायेंगे कि बिखरती या तो आधे अक्षर हैं या मात्रायें या फिर संयुक्त अक्षर। यदि यूनिकोड में देवनागरी के मूल व्यञ्जन तथा संयुक्ताक्षर आदि कूटबद्ध किये जाते तो फिर उन्हें जोड़कर दिखाने हेतु USP की आवश्यकता न होती। फिर हम भले ही अपने IME के द्वारा 'ज्ञ' को टाइप दो कुञ्जियों द्वारा क्रमशः 'ज्' तथा 'ञ' लिखकर ही करते (यह काम IME का होता कि वह 'ज्ञ' सिस्टम में भेजे) परन्तु यह डिवाइस में स्टोर एक इकाई (ज्ञ या ज्ञ्) के रुप में ही होता जिस कारण प्रदर्शन के समय इसे जोड़कर दिखाने हेतु किसी USP की आवश्यकता न होती। यही बात पूरी देवनागरी दिखाने पर लागू होती है।

१७ अगस्त २०१० ९:३९ पूर्वाह्न को, Anunad Singh <anu...@gmail.com> ने लिखा:

--
You received this message because you are subscribed to the Google Groups "Indicoms" group.
To post to this group, send email to indi...@googlegroups.com
To unsubscribe from this group, send email to indicoms-u...@googlegroups.com
For more options, visit this group at http://groups.google.com/group/indicoms?hl=en
------
Discussion group for Standardisation needs for Computing in Indian Languages/scripts.

Anunad Singh

unread,

Aug 18, 2010, 11:43:42 PM8/18/10

to indi...@googlegroups.com

श्रीश जी, आपकी इस बात से सहमत हूँ कि यदि सभी संयुक्ताक्षरों, ककहरा के सभी सदस्यों (ल, ला, लि, ... लं, लः ; ) के अलग-अलग यूनिकोड होते तो शायद यूएसपी की आवश्यकता न पड़ती। लेकिन इसके दुष्परिणाम भी तो होते? जैसे -

१) देवनागरी यूनिकोडॉं की संख्या हजारों तक पहुँच जाती। (चलो कोई बात नहीं, कम्प्यूटर को ही इसे झेलना है; आदमी को नहीं)

२) अकारादि क्रम में छांटने वाले प्रोग्राम (sorting) अधिक कठिन हो जाती।

३) सभी भारतीय भाषाओं एवं कई विदेशी लिपियों के लिये भी यही करना पड़ता। इसका अर्थ है कि पचासों हजार अतिरिक्त कोडॉं की जरूरत पड़ती।

४) इससे USP का काम तो आसान हो जाता किन्तु भाषा संसाधन के सभी प्रोग्राम अधिक बड़े, अधिक जटिल और अधिक गलती-की-संभावना-वाले बन जाते।

-- अनुनाद सिंह

++++++++++++++++++++

१८ अगस्त २०१० ९:०४ अपराह्न को, ePandit | ई-पण्डित <sharma...@gmail.com> ने लिखा:

Kakesh Kumar

unread,

Aug 19, 2010, 12:24:35 AM8/19/10

to indi...@googlegroups.com

मैं इस विषय को पिछले कुछ संदेशों द्वारा समझने की कोशिश कर रहा हूँ।

1. मेरे विचार में ककहरा के सभी संयुक्ताक्षरों के लिये अलग अलग युनिकोड की आवश्यकता नहीं होगी वरन हर व्यंजन के मूल रूप (बिना स्वर के) के लिये एक युनिकोड की आवश्यकता होगी। जैसे (ल हलंत के साथ)। बारहखड़ी लिखते समय यह होगा ल (हलंत) + अ, ल (हलंत) + आ, ल (हलंत) + इ आदि। [ मैं ल को हलंत के साथ नहीं लिख पा रहा हूँ)

2. अकारादि क्रम में छांटने वाले प्रोग्राम (sorting) अधिक कठिन नहीं होगी बल्कि ज्यादा आसान व वैज्ञानिक हो जायेगी, क्योंकि अब पहले ल (हलंत) आयेगा फिर ल (हलंत) + अ, ल (हलंत) + आ आदि।

3. जैसा कि मैं समझा हूँ विदेशी भाषाओं के लिये (जैसे चीनी, कोरियन) आदि के लिये ऐसा ही किया गया है। जबकि देवनागिरी के लिये नहीं।

4. एक बार यदि यह स्कीमा समझ में आ जाये तो भाषा संसाधन के कार्यक्रम ज्यादा आसान व वैज्ञानिक हो जायेंगे। हाँ वह अभी दिये गये लॉजिक पर काम नहीं करेंगे उनमें परिवर्तन करना पड़ेगा।

सादर

काकेश

--
You received this message because you are subscribed to the Google Groups "Indicoms" group.
To post to this group, send email to indi...@googlegroups.com
To unsubscribe from this group, send email to indicoms-u...@googlegroups.com
For more options, visit this group at http://groups.google.com/group/indicoms?hl=en
------
Discussion group for Standardisation needs for Computing in Indian Languages/scripts.

-- 
धन्यवाद सहित
सादर

काकेश
http://kakesh.com

Anunad Singh

unread,

Aug 19, 2010, 12:39:44 AM8/19/10

to indi...@googlegroups.com

काकेश जी,

मेरा संदेश श्रीश जी के संदेश के अन्दर के निम्नलिखित विचार के उत्तर में था-

यदि आप बिखरी हुयी हिन्दी देखें तो पायेंगे कि बिखरती या तो आधे अक्षर हैं या मात्रायें या फिर संयुक्त अक्षर। यदि यूनिकोड में देवनागरी के मूल व्यञ्जन तथा संयुक्ताक्षर आदि कूटबद्ध किये जाते तो फिर उन्हें जोड़कर दिखाने हेतु USP की आवश्यकता न होती।

आपका विचार वही है जो इस चर्चा के आरम्भ में था - अर्थात मूल व्यंजनों के लिये कोड दिये जाने चाहिये थे। इसमें संयुक्ताक्षरों और मात्रासहित वर्णॉं के लिये अलग-अलग यूनिकोड का सुझाव नहीं है।

इस विचार में यह स्पष्ट नहीं है कि इससे देवनागरी के 'टूटने-बिखरने' की समस्या कैसे स्वत: हल हो जाती?

-- अनुनाद

================================

१९ अगस्त २०१० ९:५४ पूर्वाह्न को, Kakesh Kumar <kakes...@gmail.com> ने लिखा:

himanshu singh

unread,

Aug 19, 2010, 6:25:21 AM8/19/10

to indi...@googlegroups.com

हरिराम जी,

मेरे गुस्सा होने या ना होने से शायद ही किसी को कोइ फर्क पड़ेगा. इसलिए मेरी बातों बार ध्याद मत दीजीये. मैं हर चीज मजाक में कहता हूँ, पर दुःख की बात है की इ-मेल पर आप मेरा हंसता हुआ चेहरा नहीं देख पाते :)

वैसे स्टैण्डर्ड रोज तो बननाए नहीं जाते हैं. इसलिए वर्त्तमान यूनीकोड standard को बदलने की जगह अब हम लोग इन चीजों पर ध्यान दें तो शायद कही बेहतर होगा:

१. फ्री layout engine :

ansi c में लिखा layout हुआ इंजिन जो bsd/lgpl लायसेंस में उपलब्ध हो ताकी मोबाइल कंपनिया बिना किसी परेशानी के उसे अपने सस्ते से सस्ते और महंगे से महंगे मोबाइल में उपयोग कर सके.

२. फ्री यूनीकोड फोंट

अभी भी सुन्दर यूनीकोड फोंट उपलब्ध नहीं हैं. कम से कम कुछ दर्जन तो फोंट उपलब्ध होने ही चाहिए जिसे लोग मुफ्त में प्रयोग कर सकें.

३. इनपुट का तरीका.

मोबाइल में हिन्दी लिखने के लिए t9 जैसा लाइब्ररी डिक्शनरी की साथ फ्री में उपलब्ध हो ताकी मोबाईल कम्पनिया हर मोबाइल में हिन्दी में लिखने को आसान बना सकें. यह भी ansi c में हो तो बेहतर ताकी हर प्रकार के embedded device में इसका उपोग कीया जा सके.

सरकार अगर यह तीन चीज फ्री में उपलब्ध कराती है, और कम्पनीयों को इन सौफ्टवेअर को integrate करने में सहायता करती है तो कौन मोबाइल कमपनी इन सब चीजों के लिए ना बोलेगी ?

अब बात यह है की या कदम सरकार को ही उठाना पड़ेगा. एक आम आदमी एक सीमा तक ही चीजें कर सकता है. नीती बनाना , उसको लागू करने का काम तो सरकार का ही होता है.

यूनीकोड के वर्त्तमान standard से मैं बहुत कुछ खुश हूँ. अब उन लोगों ने अपना काम कर दिया है पर अब हम लोगो को अपना काम करना पड़ेगा. हमें वह सारे टूल फ्री में उपलब्ध करना होगा जिससे यूनीकोड हिन्दी का प्रसार हो सके.

हिमांशु

2010/8/19 Anunad Singh <anu...@gmail.com>

himanshu singh

unread,

Aug 19, 2010, 6:31:55 AM8/19/10

to indi...@googlegroups.com

और हां,

एक बात और, मैं किसी को बुरा भला नहीं कह रहा हूँ. मैं कई लोगो को जानात हूँ जो की यूनीकोड को सफल बनाने में जी जान से लगे रहते हैं.

हम तो बस हिन्दी की बात करते हैं, इन लोगो को तो दुनिया के कितने ही भाषाओं के बारे में सोचना पडता है. यूनीकोड वर्त्तमान हालात में जिस हालत में है, वह भी कोइ चमत्कार से कम नहीं है. यह शायद एक दशक से भी ज्यादा लोगो के माथा पच्ची का नतीजा है :)

हिमांशु

2010/8/19 himanshu singh <angular....@gmail.com>

sanjay kareer

unread,

Aug 19, 2010, 6:36:06 AM8/19/10

to indi...@googlegroups.com

2010/8/19 himanshu singh angular....@gmail.com

२. फ्री यूनीकोड फोंट

अभी भी सुन्दर यूनीकोड फोंट उपलब्ध नहीं हैं. कम से कम कुछ दर्जन तो फोंट उपलब्ध होने ही चाहिए जिसे लोग मुफ्त में प्रयोग कर सकें.

अब बात यह है की या कदम सरकार को ही उठाना पड़ेगा. एक आम आदमी एक सीमा तक ही चीजें कर सकता है. नीती बनाना , उसको लागू करने का काम तो सरकार का ही होता है.

यूनीकोड के वर्त्तमान standard से मैं बहुत कुछ खुश हूँ. अब उन लोगों ने अपना काम कर दिया है पर अब हम लोगो को अपना काम करना पड़ेगा. हमें वह सारे टूल फ्री में उपलब्ध करना होगा जिससे यूनीकोड हिन्दी का प्रसार हो सके.

तकनीकी मसलों के बारे में कुछ नहीं कह सकता लेकिन हिमांशु जी की ऊपर लिखी कुछ बातों से सहमत हूं। अच्‍छे यूनिकोड फॉन्‍ट देखने को भी नहीं मिलते। इस बारे में यहां कई बार बात हो चुकी है लेकिन बात होने से क्‍या फायदा क्‍योंकि जैसा हिमांशु जी ने कहा ...

आम आदमी एक सीमा तक ही चीजें कर सकता है. नीती बनाना , उसको लागू करने का काम तो सरकार का ही होता है.

और

हमें वह सारे टूल फ्री में उपलब्ध करना होगा जिससे यूनीकोड हिन्दी का प्रसार हो सके.

यह आप जैसे ज्ञानी लोग कर सकते हैं जो तकनीकी जानकार हैं। मुझे लगता है कि क्‍यों न आप लोग इस बारे में भी बात करें कि यह जिम्‍मेदारी कॉन लेगा और इसे कैसे पूरा किया जाएगा। केवल विमर्श करने से तो मुझे नहीं लगता कि स्थिति बदलेगी।

-

himanshu singh

unread,

Aug 19, 2010, 6:56:43 AM8/19/10

to indi...@googlegroups.com

इसका मुझे लगता है की एक तरीका हो सकता है. एक संगठन बनाया जाए जो की मूल चार या पांच मुद्दों को ही बार बार सरकार के सामने उठाए. १०० मुद्दों को उठाने से अच्छा है की वही चार पांच मुद्दे बार बार सरकार के सामने रखा जाए.

सौफ्टवेअर डेवेलपमेंट एक बहुत महँगा और समय लगाने वाला काम है. एक आदमी की बस की तो बात नहीं है इतना सब करना. यूनीकोड फोंट बनाना भी सामान्य फोंट बनाने जैसा आसान नहीं है.

लोगो के बार बार आवाज उठाने से बहुत फर्क पडता है. उदाहरण के लिए, canon ने 5d mark II कैमरा निकाला, जिसमे कई कमियां थी जिसे साफ्टवेअर के द्वारा ठीक किया जा सकता था. लोगो ने इतना हल्ला मचाया की canon को अंत में हार कर वह सारे फीचर को अपने कैमरे में डालना पड़ा.

लोगो ने तो एक ग्रुप भी बना डाला जिसका सिर्फ एक काम था, हल्ला मचान और हर जगह पर कैमरे की कमी को गिनाना और canon को याद दिलाना की उनको इन गलतियों को ठीक करना है.

यह रहा इन बदमाशों की वेबसाईट:

http://5dmark2.wordpress.com/

देखिये कैसे इन लोगो ने हर बड़े ब्लॉग , हर फोरम पर अपना सन्देश लिखा. कई हजार लोगों से ईमेल और लिखित petition भेजवाया.

यही काम हम लोगों को भी करना पड़ेगा. जब तक ऐसा वजनी ग्रुप नहीं बनेगा जिसकी बातो को लोग और सरकार सीरीयसली नहीं ले, तब तक कुछ भी नहीं होगा.

इस वीडियो को देखिये, फिर मुझे कुछ भी बोलने की जरूरत नहीं पड़ेगी:

http://www.youtube.com/watch?v=fW8amMCVAJQ&feature=player_embedded

हिमांशु

2010/8/19 sanjay kareer <s.ka...@gmail.com>

--

Reply all

Reply to author

Forward