ASCII, UTF-8, ISO-8859… आपने इन अजीबोगरीब उपनामों को तैरते हुए देखा होगा, लेकिन वास्तव में उनका क्या मतलब है? आगे पढ़ें क्योंकि हम समझाते हैं कि वर्ण एन्कोडिंग क्या है और ये परिवर्णी कैसे सादे पाठ से संबंधित हैं जो हम स्क्रीन पर देखते हैं।
फंडामेंटल बिल्डिंग ब्लॉक्स
जब हम लिखित भाषा के बारे में बात करते हैं, तो हम अक्षरों के बारे में बात करते हैं जो शब्दों के निर्माण खंड होते हैं, जो तब वाक्य, पैराग्राफ आदि बनाते हैं। अक्षर प्रतीक हैं जो ध्वनियों का प्रतिनिधित्व करते हैं। जब आप भाषा के बारे में बात करते हैं, तो आप ध्वनियों के समूहों के बारे में बात कर रहे होते हैं जो किसी प्रकार का अर्थ बनाने के लिए एक साथ आते हैं। प्रत्येक भाषा प्रणाली में नियमों और परिभाषाओं का एक जटिल समूह होता है जो उन अर्थों को नियंत्रित करता है। यदि आपके पास कोई शब्द है, तो यह तब तक बेकार है जब तक आप यह नहीं जानते कि यह किस भाषा से है और आप इसका उपयोग अन्य लोगों के साथ करते हैं जो उस भाषा को बोलते हैं।
(ग्रंथ, तुलु और मलयालम लिपियों की तुलना, विकिपीडिया से छवि)
कंप्यूटर की दुनिया में हम चरित्र शब्द का प्रयोग करते हैं। एक चरित्र एक अमूर्त अवधारणा की तरह है, जिसे विशिष्ट मापदंडों द्वारा परिभाषित किया गया है, लेकिन यह अर्थ की मौलिक इकाई है। लैटिन 'ए' ग्रीक 'अल्फा' या अरबी 'अलिफ़' के समान नहीं है क्योंकि उनके अलग-अलग संदर्भ हैं - वे अलग-अलग भाषाओं से हैं और उनके उच्चारण थोड़े अलग हैं - इसलिए हम कह सकते हैं कि वे अलग-अलग वर्ण हैं। एक चरित्र के दृश्य प्रतिनिधित्व को ग्लिफ़ कहा जाता है और ग्लिफ़ के विभिन्न सेटों को फोंट कहा जाता है। पात्रों के समूह एक सेट या एक प्रदर्शनों की सूची से संबंधित हैं।
जब आप एक पैराग्राफ टाइप करते हैं और आप फ़ॉन्ट बदलते हैं, तो आप अक्षरों के ध्वन्यात्मक मूल्यों को नहीं बदल रहे हैं, आप बदल रहे हैं कि वे कैसे दिखते हैं। यह सिर्फ कॉस्मेटिक है (लेकिन महत्वहीन नहीं!) प्राचीन मिस्र और चीनी जैसी कुछ भाषाओं में विचारधाराएं होती हैं; ये ध्वनियों के बजाय संपूर्ण विचारों का प्रतिनिधित्व करते हैं, और उनके उच्चारण समय और दूरी के साथ भिन्न हो सकते हैं। यदि आप एक चरित्र को दूसरे के लिए प्रतिस्थापित करते हैं, तो आप एक विचार को प्रतिस्थापित कर रहे हैं। यह सिर्फ अक्षरों को बदलने से ज्यादा है, यह एक विचारधारा बदल रहा है।
अक्षरों को सांकेतिक अक्षरों में बदलना
(छवि विकिपीडिया से)
जब आप कीबोर्ड पर कुछ टाइप करते हैं, या कोई फ़ाइल लोड करते हैं, तो कंप्यूटर कैसे जानता है कि क्या प्रदर्शित करना है? यही चरित्र एन्कोडिंग के लिए है। आपके कंप्यूटर पर टेक्स्ट वास्तव में अक्षर नहीं है, यह युग्मित अल्फ़ान्यूमेरिक मानों की एक श्रृंखला है। वर्ण एन्कोडिंग एक कुंजी के रूप में कार्य करता है जिसके लिए मान किस वर्ण से मेल खाते हैं, बहुत कुछ जैसे कि कैसे शब्दावली तय करती है कि कौन से अक्षर किस अक्षर से मेल खाते हैं। मोर्स कोड एक तरह का कैरेक्टर एन्कोडिंग है। यह बताता है कि बीप जैसी लंबी और छोटी इकाइयों के समूह किस प्रकार वर्णों का प्रतिनिधित्व करते हैं। मोर्स कोड में, अक्षर केवल अंग्रेजी अक्षर, संख्याएं और पूर्ण विराम हैं। कई कंप्यूटर वर्ण एन्कोडिंग हैं जो अक्षरों, संख्याओं, उच्चारण चिह्नों, विराम चिह्नों, अंतर्राष्ट्रीय प्रतीकों आदि में अनुवाद करते हैं।
अक्सर इस विषय पर कोड पेज शब्द का भी प्रयोग किया जाता है। वे अनिवार्य रूप से वर्ण एन्कोडिंग हैं जैसा कि विशिष्ट कंपनियों द्वारा उपयोग किया जाता है, अक्सर मामूली संशोधन के साथ। उदाहरण के लिए, विंडोज 1252 कोड पेज (जिसे पहले एएनएसआई 1252 के नाम से जाना जाता था) आईएसओ-8859-1 का संशोधित रूप है। वे ज्यादातर मानक और संशोधित वर्ण एन्कोडिंग को संदर्भित करने के लिए एक आंतरिक प्रणाली के रूप में उपयोग किए जाते हैं जो समान सिस्टम के लिए विशिष्ट होते हैं। प्रारंभ में, वर्ण एन्कोडिंग इतना महत्वपूर्ण नहीं था क्योंकि कंप्यूटर एक दूसरे के साथ संवाद नहीं करते थे। इंटरनेट प्रमुखता की ओर बढ़ रहा है और नेटवर्किंग एक सामान्य घटना है, यह हमारे दिन-प्रतिदिन के जीवन का एक महत्वपूर्ण हिस्सा बन गया है, यहां तक कि हमें इसका एहसास भी नहीं हुआ है।
कई अलग-अलग प्रकार
(सारा सोसियाक से छवि)
वहाँ बहुत सारे अलग-अलग वर्ण एन्कोडिंग हैं, और इसके बहुत सारे कारण हैं। आप किस वर्ण एन्कोडिंग का उपयोग करना चुनते हैं यह इस बात पर निर्भर करता है कि आपकी ज़रूरतें क्या हैं। यदि आप रूसी में संवाद करते हैं, तो एक चरित्र एन्कोडिंग का उपयोग करना समझ में आता है जो सिरिलिक का अच्छी तरह से समर्थन करता है। यदि आप कोरियाई में संवाद करते हैं, तो आप कुछ ऐसा चाहते हैं जो हंगुल और हंजा का अच्छी तरह से प्रतिनिधित्व करता हो। यदि आप एक गणितज्ञ हैं, तो आप कुछ ऐसा चाहते हैं जिसमें सभी वैज्ञानिक और गणितीय प्रतीकों के साथ-साथ ग्रीक और लैटिन ग्लिफ़ भी हों। यदि आप एक मसखरा हैं, तो शायद आपको उल्टा पाठ से लाभ होगा। और, यदि आप चाहते हैं कि उन सभी प्रकार के दस्तावेज़ किसी दिए गए व्यक्ति द्वारा देखे जाएं, तो आप एक ऐसी एन्कोडिंग चाहते हैं जो बहुत ही सामान्य और आसानी से सुलभ हो।
आइए कुछ अधिक सामान्य लोगों पर एक नज़र डालें।
(ASCII तालिका का अंश, छवि asciitable.com से)
- ASCII - सूचना इंटरचेंज के लिए अमेरिकी मानक कोड पुराने वर्ण एन्कोडिंग में से एक है। यह मूल रूप से टेलीग्राफिक कोड के आधार पर तैयार किया गया था और समय के साथ विकसित किया गया था जिसमें अधिक प्रतीकों और कुछ अब पुराने गैर-मुद्रित नियंत्रण वर्ण शामिल थे। यह शायद उतना ही बुनियादी है जितना आप आधुनिक प्रणालियों के संदर्भ में प्राप्त कर सकते हैं, क्योंकि यह उच्चारण वर्णों के बिना लैटिन वर्णमाला तक सीमित है। इसका 7-बिट एन्कोडिंग केवल 128 वर्णों की अनुमति देता है, यही वजह है कि दुनिया भर में कई अनौपचारिक रूप उपयोग में हैं।
- ISO-8859 - मानकीकरण के लिए अंतर्राष्ट्रीय संगठन के वर्ण एन्कोडिंग का सबसे व्यापक रूप से उपयोग किया जाने वाला समूह संख्या 8859 है। प्रत्येक विशिष्ट एन्कोडिंग को एक संख्या द्वारा निर्दिष्ट किया जाता है, जिसे अक्सर एक वर्णनात्मक मॉनीकर द्वारा उपसर्ग किया जाता है, उदा। ISO-8859-3 (लैटिन-3), ISO-8859-6 (लैटिन/अरबी)। यह ASCII का सुपरसेट है, जिसका अर्थ है कि एन्कोडिंग में पहले 128 मान ASCII के समान हैं। हालाँकि, यह 8-बिट है, और 256 वर्णों के लिए अनुमति देता है, इसलिए यह वहाँ से बनता है और इसमें वर्णों की एक विस्तृत श्रृंखला शामिल होती है, जिसमें प्रत्येक विशिष्ट एन्कोडिंग मानदंड के एक अलग सेट पर ध्यान केंद्रित करती है। लैटिन -1 में उच्चारण अक्षरों और प्रतीकों का एक समूह शामिल था, लेकिन बाद में इसे लैटिन -9 नामक एक संशोधित सेट के साथ बदल दिया गया जिसमें यूरो प्रतीक जैसे अद्यतन ग्लिफ़ शामिल हैं।
(तिब्बती लिपि का अंश, यूनिकोड v4, unicode.org से)
- यूनिकोड - इस एन्कोडिंग मानक का उद्देश्य सार्वभौमिकता है। इसमें वर्तमान में कई ब्लॉकों में आयोजित 93 स्क्रिप्ट शामिल हैं, जिनमें से कई पर काम चल रहा है। यूनिकोड अन्य वर्ण सेटों की तुलना में अलग तरह से काम करता है जिसमें ग्लिफ़ के लिए सीधे कोडिंग के बजाय, प्रत्येक मान को एक कोड बिंदु पर आगे निर्देशित किया जाता है। ये हेक्साडेसिमल मान हैं जो वर्णों के अनुरूप होते हैं लेकिन प्रोग्राम द्वारा स्वयं ग्लिफ़ को अलग तरीके से प्रदान किया जाता है, जैसे कि आपका वेब ब्राउज़र। इन कोड बिंदुओं को आमतौर पर निम्नानुसार दर्शाया जाता है: U+0040 (जो '@' में अनुवाद करता है)। यूनिकोड मानक के अंतर्गत विशिष्ट एनकोडिंग UTF-8 और UTF-16 हैं। UTF-8 ASCII के साथ अधिकतम संगतता की अनुमति देने का प्रयास करता है। यह 8-बिट है, लेकिन एक प्रतिस्थापन तंत्र और प्रति चरित्र मूल्यों के कई जोड़े के माध्यम से सभी पात्रों के लिए अनुमति देता है। UTF-16 मानक के साथ अधिक पूर्ण 16-बिट संगतता के लिए सही ASCII संगतता को छोड़ देता है।
- ISO-10646 - यह वास्तविक एन्कोडिंग नहीं है, केवल यूनिकोड का एक वर्ण सेट है जिसे ISO द्वारा मानकीकृत किया गया है। यह ज्यादातर महत्वपूर्ण है क्योंकि यह HTML द्वारा उपयोग किए जाने वाले चरित्र प्रदर्शनों की सूची है। यूनिकोड द्वारा प्रदान किए गए कुछ अधिक उन्नत कार्य, जो बाएं-से-दाएं स्क्रिप्टिंग के साथ-साथ संयोजन और दाएं-से-बाएं की अनुमति देते हैं, गायब है। फिर भी, यह इंटरनेट पर उपयोग के लिए बहुत अच्छी तरह से काम करता है क्योंकि यह विभिन्न प्रकार की लिपियों के उपयोग की अनुमति देता है और ब्राउज़र को ग्लिफ़ की व्याख्या करने की अनुमति देता है। इससे स्थानीयकरण कुछ आसान हो जाता है।
मुझे किस एन्कोडिंग का उपयोग करना चाहिए?
ठीक है, ASCII अधिकांश अंग्रेजी बोलने वालों के लिए काम करता है, लेकिन बहुत कुछ के लिए नहीं। अधिक बार आपको ISO-8859-1 दिखाई देगा, जो अधिकांश पश्चिमी यूरोपीय भाषाओं के लिए काम करता है। ISO-8859 के अन्य संस्करण सिरिलिक, अरबी, ग्रीक या अन्य विशिष्ट लिपियों के लिए काम करते हैं। हालाँकि, यदि आप एक ही दस्तावेज़ में या एक ही वेब पेज पर कई स्क्रिप्ट प्रदर्शित करना चाहते हैं, तो UTF-8 बेहतर संगतता की अनुमति देता है। यह उन लोगों के लिए भी वास्तव में अच्छी तरह से काम करता है जो उचित विराम चिह्न, गणित प्रतीकों, या ऑफ-द-कफ वर्णों, जैसे वर्ग और चेकबॉक्स का उपयोग करते हैं।
(एक दस्तावेज़ में कई भाषाएँ, gujaratsamachar.com का स्क्रीनशॉट)
हालांकि, प्रत्येक सेट में कमियां हैं। ASCII अपने विराम चिह्नों में सीमित है, इसलिए यह टाइपोग्राफिक रूप से सही संपादन के लिए अविश्वसनीय रूप से अच्छी तरह से काम नहीं करता है। ग्लिफ़ के कुछ अजीब संयोजन के लिए कभी वर्ड से कॉपी/पेस्ट टाइप करें? यह ISO-8859 का दोष है, या अधिक सही ढंग से, OS-विशिष्ट कोड पृष्ठों के साथ इसकी कथित अंतर-संचालनशीलता (हम आपको, Microsoft को देख रहे हैं!) UTF-8 की प्रमुख कमी अनुप्रयोगों के संपादन और प्रकाशन में उचित समर्थन का अभाव है। एक और समस्या यह है कि ब्राउज़र अक्सर व्याख्या नहीं करते हैं और यूटीएफ -8 एन्कोडेड वर्ण के बाइट ऑर्डर चिह्न को प्रदर्शित करते हैं। इसके परिणामस्वरूप अवांछित ग्लिफ़ प्रदर्शित होते हैं। और निश्चित रूप से, एक एन्कोडिंग घोषित करना और किसी वेब पेज पर उन्हें ठीक से घोषित/संदर्भित किए बिना दूसरे से वर्णों का उपयोग करना ब्राउज़रों के लिए उन्हें सही ढंग से प्रस्तुत करना और खोज इंजन के लिए उन्हें उचित रूप से अनुक्रमित करना मुश्किल बनाता है।
अपने स्वयं के दस्तावेज़ों, पांडुलिपियों आदि के लिए, आप काम पूरा करने के लिए जो कुछ भी आवश्यक है उसका उपयोग कर सकते हैं। जहां तक वेब जाता है, ऐसा लगता है कि अधिकांश लोग यूटीएफ -8 संस्करण का उपयोग करने के लिए सहमत हैं जो बाइट ऑर्डर चिह्न का उपयोग नहीं करता है, लेकिन यह पूरी तरह से एकमत नहीं है। जैसा कि आप देख सकते हैं, प्रत्येक वर्ण एन्कोडिंग का अपना उपयोग, संदर्भ और ताकत और कमजोरियां होती हैं। एक अंतिम उपयोगकर्ता के रूप में, आपको शायद इससे निपटना नहीं पड़ेगा, लेकिन अब आप चाहें तो अतिरिक्त कदम आगे बढ़ा सकते हैं।
ज़्यादा कहानियां
क्रोम और आयरन में ड्रॉपबॉक्स सिंकिंग के साथ टेक्स्टमेट स्टाइल लाइटवेट टेक्स्ट एडिटर जोड़ें
क्या आप अपने ब्राउज़र के लिए निर्मित ड्रॉपबॉक्स सिंकिंग के साथ एक अच्छे टेक्स्ट संपादन वातावरण की तलाश कर रहे हैं? यदि उत्तर हाँ है, तो आपको सोर्सकिट - टेक्स्ट एडिटर इनसाइड क्रोम वेब ऐप को जरूर आज़माना चाहिए।
पाठकों से पूछें: आपकी सर्वश्रेष्ठ मैलवेयर फाइटिंग ट्रिक्स क्या हैं?
मैलवेयर तेजी से परिष्कृत और व्यापक हो गया है; इससे निपटने के लिए एक मजबूत टूलकिट होना पहले से कहीं अधिक महत्वपूर्ण है। इस सप्ताह हम मैलवेयर से निपटने के लिए आपके पसंदीदा सुझावों और युक्तियों के बारे में सुनना चाहते हैं।
रीडर पोल: क्या आप नया iPad 2 खरीदने जा रहे हैं?
स्टीव जॉब्स ने 2 क्षण पहले iPad की घोषणा की, जो नई खरीद, उन्नयन, और सामान्य Apple-केंद्रित बड़बड़ाहट और मुट्ठी हिलाने की हड़बड़ी को छूएगा। क्या आप आईपैड 2 खरीदेंगे?
Google Picasa वेब एल्बम अपडेट करता है; साझा करने और दिखाने पर जोर
Google ने Picasa वेब इंटरफ़ेस को धूल चटा दी है और इसे आपकी फ़ोटो और उन लोगों की फ़ोटो हाइलाइट करने पर ज़ोर देते हुए अपडेट किया है जिनमें आप रुचि रखते हैं।
Uwall.tv YouTube को एक वीडियो ज्यूकबॉक्स में बदल देता है
यदि आप अपने संगीत को ठीक करने के लिए अक्सर YouTube को हिट करते हैं, तो Uwall.tv एक वीडियो प्लेलिस्ट सेवा है जो YouTube को आपके व्यक्तिगत संगीत वीडियो ज्यूकबॉक्स में बदल देती है।
जूम सस्ता संपूर्ण एंड्रॉइड गाइड की सौजन्य [सस्ता]
यदि आप Android के प्रशंसक हैं और Android 3.0 टैबलेट स्कोर करना चाहते हैं, तो आप संपूर्ण Android मार्गदर्शिका के सौजन्य से Xoom टेबलेट जीतने के लिए प्रवेश कर सकते हैं।
Photoshop, GIMP, और Paint.NET में एक प्रो की तरह कंट्रास्ट को एडजस्ट करना सीखें
चमक और कंट्रास्ट टूल शुरुआती लोगों के लिए हैं! क्या आपने कभी सोचा है कि कौन से ग्राफिक्स प्रोग्राम उन्नत उपयोगकर्ताओं को यह सुनिश्चित करने की पेशकश करते हैं कि उनकी तस्वीरों की एक बड़ी मूल्य सीमा है? तीन प्रमुख कार्यक्रमों में स्तर, वक्र और हिस्टोग्राम के बारे में जानने के लिए पढ़ें।
थंडरबर्ड का उपयोग करके अपने वेब-आधारित ईमेल खाते का बैकअप कैसे लें
यदि इस सप्ताह की शुरुआत में जीमेल डराता है तो क्या आप अपने जीमेल या अन्य वेब-आधारित ईमेल खाते का बैक अप लेने के बारे में सोच रहे हैं, हम यहां मदद के लिए हैं। ओपन सोर्स ईमेल एप्लिकेशन थंडरबर्ड का उपयोग करके अपने वेब-आधारित ईमेल का बैकअप कैसे लें, यह जानने के लिए पढ़ें।
Firefox में अपने पसंदीदा एक्सटेंशन के विकल्पों तक आसानी से पहुंचें
क्या आप फ़ायरफ़ॉक्स में अपने पसंदीदा एक्सटेंशन के विकल्पों तक पहुँचने के लिए बहुत तेज़ तरीका पसंद करेंगे? अब आप ऐड-ऑन प्रबंधक टैब खोलना छोड़ सकते हैं और फ़ायरफ़ॉक्स के लिए एक्सटेंशन विकल्प मेनू ऐड-ऑन का उपयोग करके सीधे मेनू द्वारा उन तक पहुंच सकते हैं।
नींद न लें आपकी विंडोज मशीन को जगाए रखता है
स्लीप न करें एक अल्ट्रा लाइटवेट और पोर्टेबल एप्लिकेशन है जो एक विशिष्ट आवश्यकता को पूरा करता है: कभी-कभी आपको अस्थायी रूप से अपनी विंडोज मशीन को बंद करने या बिजली की बचत को बिना किसी स्थायी बनाए रखने की आवश्यकता होती है ...