هذه مقالة غير مراجعة.(مايو 2025) |
مجموعة الأحرف المشفرة العالمية ( UCS ، Unicode ) هي مجموعة قياسية من الأحرف تُعرّفها المعايير الدولية ISO / IEC 10646، تكنولوجيا المعلومات - مجموعة الأحرف المشفرة العالمية (UCS) (بالإضافة إلى التعديلات على هذا المعيار).
وتُعد هذه المجموعة أساسًا للعديد من أنظمة ترميز الأحرف ، إذ تُحدّث باستمرار بإضافة محارف من أنظمة كتابة لم تكن ممثلة سابقًا، مما يُحسّن من شمولية التمثيل الكتابي العالمي.
تحتوي مجموعة الأحرف المشفرة العالمية (UCS) على أكثر من 1.1 مليون نقطة رمز مُمكنة للاستخدام أو التخصيص، ولكن أول 65,536 منها فقط، وهي الطائرة المستوى متعدد اللغات الأساسي (BMP)، كانت قد دخلت في الاستخدام الشائع قبل عام 2000. بدأت هذه الحالة بالتغير عندما حكمت جمهورية الصين الشعبية في عام 2006 بأن جميع البرامج المباعة في نطاق ولايتها القضائية يجب أن تدعم المعيار GB 18030 . يتطلب هذا البرنامج المخصص للبيع في جمهورية الصين الشعبية أن يتقدم إلى ما هو أبعد من BMP. [ <span title="The text near this tag may need clarification or removal of jargon. (October 2023)">التوضيح مطلوب</span> ]
يترك النظام عمدًا العديد من نقاط الترميز غير مخصصة للأحرف، حتى في BMP. ويتم ذلك للسماح بالتوسع المستقبلي أو لتقليل التعارضات مع أشكال الترميز الأخرى.
عرّفت النسخة الأصلية من (UCS) الترميز UTF-16 ، وهو امتداد لـ UCS-2، لتمثيل نقاط الترميز البرمجية خارج BMP. ويظل نطاق من نقاط الترميز في المنطقة S (الخاصة) من الـ BMP غير مخصص للأحرف. يمنع UCS-2 استخدام قيم الكود لهذه النقاط الكودية، لكن UTF-16 يسمح باستخدامها في أزواج. اعتمد Unicode أيضًا UTF-16، ولكن في مصطلحات Unicode، تصبح عناصر منطقة النصف العالي "بدائل عالية" وتصبح عناصر منطقة النصف المنخفض "بدائل منخفضة". [ <span title="The text near this tag may need clarification or removal of jargon. (December 2021)">التوضيح مطلوب</span> ]
ترميز آخر،وهو UTF-32 الذي يُعرف سابقًا باسم ( UCS-4)، يستخدم أربعة بايتات (بمجموع 32 بت) لتشفير حرف واحد من مساحة الكود. وبالتالي، يسمح UTF-32 بتمثيل ثنائي لكل نقطة رمز (اعتبارًا من عام 2024) في واجهات برمجة التطبيقات وتطبيقات البرامج.
التاريخ
بدأت المنظمة الدولية للمعايير (ISO) العمل على إعداد مجموعة الأحرف العالمية في عام 1989، ونشرت المسودة الأولى للمعيار ISO 10646 في عام 1990. وكان هيو ماكجريجور روس أحد المهندسين المعماريين الرئيسيين.
تم هذا العمل بشكل مستقل عن تطوير معيار Unicode ،الذي كان قيد التطوير منذ عام 1987 بواسطة شركتي( Xerox وApple ).
كانت مسودة ISO 10646 الأصلية تختلف بشكل كبير عن المعيار الحالي. حيث كانت تُعرف:
- 128 مجموعة من
- 256 طائرة من
- 256 صفًا من
- 256 خلية،
لإجمالي ظاهري قدره 2,147,483,648 حرفًا، لكن المعيار في الواقع كان يُمكنه تَرميز 679,477,248 حرفًا فقط، لأن السياسة مَنَعتْ استخدام قِيم البايتات الخاصة برموز التحكم C0 وC1 (من 0x00 إلى 0x1F ومن 0x80 إلى 0x9F، في النظام السداسي عشر ) في أي من البايتات الأربعة التي تُحدد المجموعة والمستوى والصف والخلية. ومثال على ذلك،الحرف اللاتيني الكبير A الواقع في المجموعة 0x20، المستوى 0x20، الصف 0x20، الخلية 0x41.
كان بالإمكان ترميز أحرف هذا المعيار الأولي ISO/IEC 10646 بإحدى الطرق الثلاث التالية:
- UCS-4، أربعة بايتات لكل حرف، مما يتيح الترميز البسيط لجميع الأحرف؛
- UCS-2، بايتين لكل حرف، مما يتيح ترميز المستوى الأول، 0x20، المستوى متعدد اللغات الأساسي، الذي يحتوي على أول 36,864 نقطة رمز، بشكل مباشر، والمستويات والمجموعات الأخرى عن طريق التبديل إليها باستخدام تسلسلات الهروب ISO/IEC 2022 ؛
- UTF-1 ، الذي يقوم بترميز جميع الأحرف في تسلسلات من البايتات ذات الطول المتفاوت (من 1 إلى 5 بايتات، لا يحتوي كل منها على رموز تحكم).
في عام 1990، كانت هناك مبادرتان لمجموعة أحرف عالمية: Unicode ، مع 16 بتات لكل حرف (65,536 حرفًا ممكنًا)، وISO/IEC 10646. رفضت شركات البرمجيات قبول تعقيد ومتطلبات الحجم لمعيار ISO وتمكنت من إقناع عدد من الهيئات الوطنية التابعة للمنظمة الدولية للتوحيد القياسي بالتصويت ضده.[بحاجة لمصدر][ بحاجة لمصدر ] أدرك مسؤولو المنظمة الدولية للتوحيد القياسي أنهم لا يستطيعون الاستمرار في دعم المعيار بحالته الحالية، فتفاوضوا على توحيد معيارهم مع يونيكود. حدث تغيران: رفع القيد الذي فُرض على الأحرف (حظر قيم رموز التحكم)، مما فتح نقاط الترميز للتخصيص؛ ومزامنة مجموعة الأحرف متعدد اللغات الأساسية مع تلك الخاصة بـ Unicode.
مع مرور الوقت، تغير الوضع في معيار Unicode نفسه: أصبح عدد 5,536 حرفًا غير كافٍ، ويدعم المعيار ابتداءً من الإصدار 2.0 فصاعدًا ترميز 1,112,064 نقطة رمز من 17 مستوى عن طريق آلية UTF-16 البديلة. لهذا السبب، تم تقييد معيار ISO/IEC 10646 ليحتوي على عدد من الأحرف لا يتجاوز ما يمكن ترميزه بواسطة UTF-16 وليس أكثر، أي ما يزيد قليلاً عن مليون حرف بدلاً من أكثر من 679 مليون حرف. تم دمج ترميز UCS-4 الخاص بـ ISO/IEC 10646 في معيار Unicode مع الحد من نطاق UTF-16 وتحت اسم UTF-32 ، على الرغم من أنه لا يوجد له أي استخدام تقريبًا خارج البيانات الداخلية للبرامج.
روب بايك وكين تومسون ، مصمما نظام التشغيل Plan 9 ، ابتكر ترميزًا جديدًا سريعًا ومصممًا بشكل جيد بمزيج من عرض البتات، وهو متوافق مع ترميز ASCII المكون من 7 بت، والذي أصبح يُعرف باسم UTF-8 ، [1] وهو حاليًا ترميز UCS الأكثر شيوعًا.
الاختلافات عن Unicode
تحتوي معايير ISO/IEC 10646 وUnicode على مجموعة رموز وأرقام متطابقة - نفس الحروف بنفس الأرقام موجودة في كلا المعيارين، الرغم أن Unicode يصدر نسخًا جديدة ويضيف حروف جديدة بشكل متكرر. يحتوي Unicode على قواعد ومواصفات تتجاوز نطاق ISO/IEC 10646.
حيثُ إن ISO/IEC 10646 هو خريطة حروف بسيطة، تُعد امتدادًا لمعايير سابقة مثل ISO/IEC 8859 . في المقابل، يضيف Unicode قواعد للترتيب ، وتطبيع النماذج ، وخوارزمية ثنائية الاتجاه للنصوص من اليمين إلى اليسار مثل العربية والعبرية. لتحقيق التوافق بين المنصات، وخاصة إذا تم استخدام البرامج النصية ثنائية الاتجاه، فإنه لا يكفي دعم ISO/IEC 10646؛ يجب تنفيذ Unicode.
لدعم هذه القواعد والخوارزميات، يُضيف Unicode العديد من الخصائص لكل حرف في المجموعة، مثل الخصائص التي تحدد فئة الاتجاه الثنائي الافتراضية للحرف، وخصائص تحدد كيفية تفاعل الحرف مع الأحرف الأخرى. إذا كان الحرف يُمثل قيمة رقمية مثل الرقم الأوروبي "8"، أو الكسر العشري"¼"، تُضاف هذه القيمة العددية كخاصية للحرف. تهدف Unicode إلى استخدام هذه الخصائص لدعم التعامل مع النصوص المتداخلة مع مجموعة من اللغات.
بعض التطبيقات تدعم حروف ISO/IEC 10646 لكنها لا تدعم Unicode بشكل كامل. أحد هذه التطبيقات هو Xterm ، الذي يمكنه عرض جميع حروف ISO/IEC 10646 التي لها تطابق حرف إلى رمز واحد لواحد بشكل صحيح واتجاه واحد. يمكنه التعامل مع بعض علامات الدمج باستخدام طرق الضغط البسيطة، لكنه لا يستطيع عرض اللغة العبرية (ذات الاتجاه الثنائي)، أو الديفاناجاري (حرف واحد يُمثل بعدة رموز) أو اللغة العربية (كلا الميزتين). تستخدم معظم تطبيقات واجهة المستخدم الرسومية روتينات رسم النصوص القياسية لنظام التشغيل والتي تتعامل مع مثل هذه البرامج النصية، على الرغم من أن التطبيقات نفسها لا تزال لا تتعامل معها دائمًا بشكل صحيح.
الاستشهاد بمجموعة الأحرف المشفرة العالمية
ISO/IEC 10646 ، وهو تعبير عام و غير رسمي لعائلة معايير ISO/IEC 10646، مقبول في معظم النصوص. وعلى الرغم من كونه معيارًا منفصلًا، يُستخدم مصطلح Unicode بنفس القدر من التكرار ، بشكل غير رسمي، عند مناقشة UCS. ومع ذلك، يجب أن تشير أي مراجع معيارية لـ UCS باعتبارها منشورًا أن تُشير إلى سنة الإصدار في النموذج ISO/IEC 10646:{year} ، على سبيل المثال: ISO/IEC 10646:2014 .
العلاقة مع Unicode
منذ عام 1991، قامتْ اتحاد Unicode ومُنظمة ISO / IEC بتطوير معيار Unicode ("Unicode") وISO/IEC 10646 بالتوازي. تُتطابق مجموعة الحروف وأسماء الأحرف ونقاط الترميز في إصدار Unicode Version 2.0 تمامًا مع تلك الموجودة في ISO/IEC 10646-1:1993 مع أول سبع تعديلات مَنشُورة له. بَعد نشر Unicode 3.0 في فبراير 2000، دَخلتْ الأحرف الجديدة والمُحدَثة المقابلة إلى UCS عبر ISO/IEC 10646-1:2000. في عام 2003، تم دمج الجزأين 1 و2 من ISO/IEC 10646 في جزء واحد، والذي شهد منذ ذلك الحين عددًا من التعديلات التي تُضيف أحرفًا إلى المعيار في تزامن تقريبي مع مِعيار Unicode.
- ISO/IEC 10646-1:1993 = Unicode 1.1
- ISO/IEC 10646-1:1993 بالإضافة إلى التعديلات من 5 إلى 7 = Unicode 2.0
- ISO/IEC 10646-1:1993 بالإضافة إلى التعديلات من 5 إلى 7 = Unicode 2.1 باستثناء علامة اليورو وحرف استبدال الكائن ، والتي تم تضمينها في التعديل 18
- ISO/IEC 10646-1:2000 = Unicode 3.0
- ISO/IEC 10646-1:2000 و ISO/IEC 10646-2:2001 = Unicode 3.1
- ISO/IEC 10646-1:2000 بالإضافة إلى التعديل 1 وISO/IEC 10646-2:2001 = Unicode 3.2
- ISO/IEC 10646:2003 = Unicode 4.0
- ISO/IEC 10646:2003 بالإضافة إلى التعديل 1 = Unicode 4.1
- ISO/IEC 10646:2003 بالإضافة إلى التعديلات من 1 إلى 2 = Unicode 5.0 باستثناء أحرف الديفاناغارية GGA وJJA وDDDA وBBA، المضمنة في التعديل 3
- ISO/IEC 10646:2003 بالإضافة إلى التعديلات من 1 إلى 4 = Unicode 5.1
- ISO/IEC 10646:2003 بالإضافة إلى التعديلات من 1 إلى 6 = Unicode 5.2
- ISO/IEC 10646:2003 بالإضافة إلى التعديلات من 1 إلى 8 = ISO/IEC 10646:2011 = Unicode 6.0 باستثناء علامة الروبية الهندية
- ISO/IEC 10646:2012 = Unicode 6.1
- ISO/IEC 10646:2012 = Unicode 6.2 باستثناء علامة الليرة التركية ، والتي تم تضمينها في التعديل 1
- ISO/IEC 10646:2012 = Unicode 6.3 باستثناء علامة الليرة التركية، المضمنة في التعديل 1، وخمسة أحرف تحكم ثنائية الاتجاه (علامة الحرف العربي، عزل من اليسار إلى اليمين، عزل من اليمين إلى اليسار، عزل قوي أولًا، عزل اتجاهي)، المضمنة في التعديل 2
- ISO/IEC 10646:2012 بالإضافة إلى التعديلات 1 و2 = Unicode 7.0 باستثناء علامة الروبل
- ISO/IEC 10646:2014 بالإضافة إلى التعديل 1 = Unicode 8.0 باستثناء علامة Lari ، وتسعة رموز تعبيرية موحدة للغة الصينية واليابانية، و41 رمز تعبيري
- ISO/IEC 10646:2014 بالإضافة إلى التعديلات 1 و2 = Unicode 9.0 باستثناء Adlam و Newa ورموز التلفزيون اليابانية و74 رمزًا تعبيريًا
- ISO/IEC 10646:2017 = Unicode 10.0 باستثناء 285 حرفًا من Hentaigana و3 أحرف من Zanabazar Square و56 رمزًا تعبيريًا
- ISO/IEC 10646:2017 بالإضافة إلى التعديل 1 = Unicode 11.0 باستثناء 46 حرفًا كبيرًا من لغة Mtavruli الجورجية، و5 رموز تعبيرية موحدة للغة CJK، و66 رمزًا تعبيريًا
- ISO/IEC 10646:2017 بالإضافة إلى التعديلين 1 و2 = Unicode 12.0 باستثناء 62 حرفًا إضافيًا
- ISO/IEC 10646:2020 = Unicode 13.0
- ISO/IEC 10646:2020 بالإضافة إلى التعديلات 1 = Unicode 15.0
- ISO/IEC 10646:2020 بالإضافة إلى التعديلين 1 و2 = Unicode 16.0
انظر أيضًا
- المعايير ذات الصلة:
- ISO/IEC 646 (المواقع من 0 إلى 127 هي نفسها الموجودة في ISO/IEC 10646 وUnicode، والأرقام 646 و10646 متشابهة)
- ISO/IEC 2022 تكنولوجيا المعلومات - بنية رمز الحرف وتقنيات التمديد
- رموز التحكم ISO/IEC 6429 C0 وC1
- ISO/IEC 8859 (المواقع من 0 إلى 255 في UCS وUnicode هي نفسها الموجودة في ISO/IEC 8859-1، المعروفة أيضًا باسم ISO Latin 1)
- ISO/IEC 14651 تكنولوجيا المعلومات - ترتيب ومقارنة السلاسل الدولية
- ISO 15924 رموز تمثيل أسماء البرامج النصية (كل حرف مرتبط بأحد تلك البرامج النصية)
- مقارنة ترميزات Unicode
- قائمة مراجع كيانات الأحرف XML وHTML
- قائمة خطوط Unicode
- مجموعة الأحرف العالمية
- ISO/IEC JTC 1/SC 2
المراجع
- ^ Pike، Rob (3 أبريل 2003). "UTF-8 history". مؤرشف من الأصل في 2016-05-23.
الروابط الخارجية
- المعايير المتاحة للجمهور (ISO) - يتضمن نسخة من ISO/IEC 10646:2020/Amd. 1:2023(هـ)
- ISO/IEC JTC1/SC2/WG2 ، مجموعة العمل المسؤولة عن ISO 10646
- الأسئلة الشائعة حول UTF-8 وUnicode
- الخطوط والمحررين والوثائق المجانية من SIL
- مثال بسيط ولكن ممتع لاختبار UTF-8 الخاص بمتصفح الويب وقدرات الخط.
- إصدارات مجموعة الأحرف الخاصة بـ ADA 9x من أكتوبر 1989، تتناول بعض التفاصيل حول DIS ISO-10646 الأصلي قبل الاندماج
قالب:List of International Electrotechnical Commission standards