Сүүлийн үед хаа сайгүй л Unicode (Юникод?!) гэж яригдах боллоо. Энэ удаагийн хичээлдээ энэхүү чухал стандартын талаар товч бөгөөд тодорхой ойлголт өгөхийг хичээе. Unicode-ийг хэрэглээнд нэвтрүүлэхэд өнөө үед харьцангуй хялбар бөгөөд гол нь сурталчилгаа, нэгдсэн журам стандартаар баталгаажуулан олон нийтийг мэдээллээр хангаснаар маш бага зардлаар/бараг зардал чирэгдэл гаргалгүйгээр нэвтрүүлж болно гэж үзэж энэхүү нийтлэлийг сийрүүллээ.


Unicode-ийг энгийнээр тодорхойлох юм бол энэ нь бүх компьютерын систем, бүх програм, бүх хэлэн дээр тухайн үсгэн дээр хаана нь ч давтагдахгүй тусгай дугаар өгөх тэмдэгт кодчлолын (encoding) стандарт юм. Жишээ нь:

  • a U+0061 Латин “a”
  • ө U+04E9 Монгол “ө
  • ä U+00E4 a-umlaut
  • σ U+03C3 Грек “сигма”
  • א U+05D0 Еврей
  • ٣ U+0663 Араб “3”-н тоо
  • U+30AB Японоор “ka”
  • 退U+9000 Ханз үсэг

U + **** гэсэн тоо нь 16-тын тооллоор тухайн хэлний тухайн үсэгний код юм. Дэлхийн олон хэл дээрх үсгүүдийг давхцахгүй нэгдсэн стандарт тоонд оруулснаараа Unicode нь мэдээллийн технологийн хөгжил төдийгүй глобалчлалд үнэтэй хувь нэмрээ оруулж байгаа юм.

Иймэрхүү тэмдэгт кодчлолын зорилго, эх суурь гэвэл компьютер нь зөвхөн тоотой харьцаж ажилладагт оршиж байгаа юм. Тэгэхээр компьютер нь мэдээллийг тоон хэлбэрээр хадгалахад зориулан төрөл бүрийн тэмдэгт кодчлол гарсан. бөгөөд Америкийн хувьд ASCII (American Standard Code for Information Interchange), Европт latin-1 гэх мэтээр хэрэглэгдэж байсан. ASCII нь 1-байт хэрэглэн 128 тэмдэгтийг кодчилдог стандарт бөгөөд нилээд олон кодчлол үүн дээр суурилан боловсруулагдсан байдаг. Эдгээр кодчлолуудын зарим нь Англи хэлэн дээр суурилсанаараа ижилхэн хэдий ч тусгай техникийн тэмдэглэгээнээс эхлээд зарим талаараа ялгаатай байсан бөгөөд заримдаа нэг ижил кодоор өөр өөр тэмдэгтийг оноож байсан учраас тухайн нөхцөл (эсвэл програм) тус бүрт нэмэлт мета тохиргоо хэлбэрээр яг ямар кодчлол, ямар хэл дээр ажиллахыг зааж өгөх шаардлага гардаг байсан. Мөн түүнчлэн интернет дэлгэрэн, харилцаа холбоо хөгжин и-мэйлээр мэдээлэл эхлэхэд эдгээр хүндрэлүүд илүү тод томруун харагдах болсон. Үүний нэг тод жишээ нь бид нар Монгол вэбсайтуудаа бүтээх, үзэхдээ Оросын Windows-1251 кодчлолыг хэрэглэн буруугаа харсан “є” үсгээрөүсгийг орлуулан, “үүсгийг англи “v” үсгээр орлуулахаас өөр аргагүй байсан үе саяхан билээ.

Мөн бид өнөөг хүртэл ASCII кодчлол дээр суурилан тусгайлан бүтээсэн “Arial Mon”, “Times New Roman Mon” үсгийн фонтуудыг хэрэглэн, мөн тусгай хөрвүүлэгч програм буюу гарын драйвер (MonKey, RealMon, Parawin г.м.) ашиглан бичиг баримтаа хөтлөсөөр байгаа нь харилцаа холбоо, хамтын ажиллагаа бүүр цаашлаад хөгжил дэмшилд ялангуяа эх Монгол хэл дээрээ програм хангамж бүтээхэд нилээн төвөг учруулсаар байгаа билээ.

Unicode-ийн түүх нь 1987 онд Joe Becker (Xerox), Lee Collins (Apple), Mark Davis (Apple) нар анх дэлхий даяараа хэрэглэж болох энгийн кодчлолыг системийг судалж эхэлснээр эхэлжээ. Үүний дараа жил Joe Becker нэгэн нийтлэл гаргасан нь орчин үеийн соёл иргэншил бүрт хэрэглэгдэж байгаа бүх үсгийг багтаасан, нэг тэмдэгтэд 16-бит оноох замаар нийтдээ өнөөгийн хэрэглээнд байгаа ойролцоогоор 214=16384 тэмдэгтийг багтаан мөн цаашид тусгай хувийн тэмдэглэгээгээр өргөжүүлэх боломжтой кодчлолын систем “Unicode“-ийг санал болгожээ.

Ер нь Олон Улсын Стандартын Байгууллага – ISO болон Unicode нэгдэл (http://www.unicode.org) нь энэхүү олон улсын нэгдмэл стандарт кодчлол дээр салангид боловч нэгэн зэрэг ажиллаж эхэлсэн хэдий ч хэсэг хугацааны дараанаас нягт хамтран ажилласнаар хуучны ASCII, Latin болон Eastern Europe кодчлолуудыг бүрэн багтаасан сайн стандартыг гаргасан нь маш сайшаалтай хамтын ажиллагаа юм.

ISO/IEC 10646 стандарт буюу Unicode-ын хувилбарууд нь дараахи байдлаар өөрчлөгдсөн байна. Энэхүү стандарт болон түүнд харгалзах Unicode хувилбар нь дийлэнх шинж чанараараа нийцдэг бөгөөд зарим нэг жижиг ялгаа байдаг болно.

  • ISO/IEC 10646-1:1993 ≈ Unicode 1.1
  • ISO/IEC 10646-1:2000 ≈ Unicode 3.0
  • ISO/IEC 10646-2:2001 ≈ Unicode 3.2
  • ISO/IEC 10646:2003 ≈ Unicode 4.0
  • ISO/IEC 10646:2003 + Нэмэлт 1 ≈ Unicode 4.1
  • ISO/IEC 10646:2003 + Нэмэлт 1, 2, 3 ≈ Unicode 5.0
  • ISO/IEC 10646:2003 + Нэмэлт 1, 2, 3, 4 ≈ Unicode 5.1

Unicode-ийн кодчлол нь 16-битээр нийтдээ 1’114’112 кодыг 0hex -оос 10FFFFhex зурваст хувиариладаг бөгөөд дараахи хүснэгтд ерөнхий байдлаар харууллаа. Unicode-н салбар стандартуудаас хамгийн түгээмэл нь UTF-8 болон өргөжүүлсэн UTF-16 юм.

Монгол хэл нь 1800-ээс 18AF хүртэл буюу дээрх хүснэгтийн 18 тоон дээрх улаан хэсэг юм.
Хамгийн олон
үсэг, тэмдэгттэй гэгддэг Хятад ханз нь маш олон буюу бүдэг ягаан хэсгийг эзэлж байгааг та харж байгаа байх.

Unicode нэг гол давуу тал буюу аргачлал нь аливаа үсгийг түүний хэлбэр, бичилт, форматаас үл хамааран харин түүний ерөнхийлсөн дуудлагатай холбон кодлодогоороо хөрвөх боломжийг нэмэгдүүлдэг байна. Жишээ нь П үсгийг ерөнхий нэгэн хэлбэрээр тэмдэглэх хэдий ч хэл тус бүр дээр өөр хэлбэртэй байж болно. Жишээ нь:

Кирил үсгээр

Орос бичмэлээр

Серв бичмэлээр

 

 

 

Unicode-ийг үйлдлийн системүүд хэрхэн дэмждэг талаар товч үзүүлбэл дараахи байдалтай байна.

  • Windows
    Unicode-ийг анх Windows NT хувилбарт оруулсан б
    өгөөд Windows XP хувилбараас хойш илүү олон хэлийг өргөн дэмжих болжээ. Microsoft Office, Internet Explorer, Mozilla Firefox, Opera, Adobe Photoshop гэх мэт олон програм дээр чөлөөтэй ашиглаж болно.
    MSLU буюу Microsoft Layout for Unicode-ийг Windows 95/98/ME хувилбарт зориулан гаргасан б
    өгөөд http://go.microsoft.com/fwlink/?LinkId=14851 холбоосоор орон татаж болно.
  • Macintoch
    Mac OS X 10.2 хувилбараас хойш дэмждэг болсон б
    өгөөд ихэнх хэрэглээний програм дээр чөлөөтэй ашиглаж болно.
  • Linux
    С
    үүлийн үед түгээмэл хэрэглэгдэж байгаа Red Het Linux, Ubuntu, Mandriva, OpenSUSE, CentOS, Fedora гэх мэт олон Linux-н хувилбарууд нь илт сайжран суулгах, хэрэглэхэд хялбар GUI буюу хэрэглэгчийн интерфэйс (Gnome, KDE г.м.) хэрэглэх болсон бөгөөд сүүлийн үеийн хувилбарууд нь Unicode-ийг сайн дэмждэг болсон байна. Үнэгүй, чөлөөт нээлттэй эхийн OpenOffice 3.0 хувилбар нь MS Office 2003/2007-н бичиг баримтуудтай сайн зохицож ажилладаг. Linux дээр Unicode суулгах болон Монгол хэлийг тааруулах нь хувилбар тус бүрд янз бүр хэдий ч тохиргоо нь энгийн, мөн Unicode суугаагүй бол хэрэгтэй файлууд, фонтууд, програмаа үнэгүй татан авах боломжтой, гарын авлагууд интернетд олон байдаг.

    OpenOffice 3.0 хувилбарын Монгол хэл дээрх хувилбарыг http://mn.openoffice.org/about-downloads.html хаягаас татан авч үнэгүй хэрэглэж болно.

Unicode-д үсгийн фонт нь үйлдлийн системүүдэд багтсан байдаг бөгөөд үнэгүйгээр олон газраас татан суулгах боломжтой. Windows дээр “Arial Unicode MS”, “Times New Roman”, “Lucida Sans Unicode”, “Tahoma” фонтууд, Macintoch (Apple) дээр “Lucida Grande”, “Apple Symbols” гэх мэт олон фонтууд багтсан байна. Дараахи холбоосуудаас Unicode фонтууд (UCS fonts)-ын талаарх мэдээлэл үзэж, татан авч болно. Хэрвээ та Windows XP эсвэл Vista дээр Microsoft Office 2003/2007 хувилбартай бол шууд Arial, Times New Roman, Tahoma зэрэг фонтоор “MO – Mongolian Cyrillic” гарын драйверыг тохируулан шууд хэрэглэж болно.

Мөн та вэбсайтаа Монгол болон бусад олон хэл дээр гаргахыг хүсвэл UTF-8 (utf-8) кодчлолоор хялбар хийх боломжтой бөгөөд Joomla! Агуулгын Удирдлагын Системийн 1.5 хувилбар буюу одоо Нүүдэлчид 2.0 вэбсайтад ашиглаж байгаа хувилбар нь Unicode-ийг бүрэн дэмждэг болно. Joomla!-г http://www.joomla.org вэбсайтаас татан авч болох бөгөөд Монгол хэлний багцыгhttp://extensions.joomla.org/extensions/languages/translations-for-joomla/6045/details хаягаас авч болно.

Дараагийн нийтлэлдээ хамгийн түгээмэл хэрэглэгддэг Microsoft Windows XP/Vista, Mac OS X болон Ubuntu Linux дээр хэрхэн Монгол гарын драйвер (MO – Mongolian Cyrillic) тохируулан суулгахыг танилцуулъя.