مقدمه:
از چند سال پيش در کشورمان، استفاده از کامپيوتر با سرعت سرسامآوري جاي خود را در تمامي عرصهها باز کرد و سيل کامپيوترهاي شخصي و تجهيزات جانبي آنها به سوي کشور سرازير شد. اما بايستي اعتراف کرد که با وجود اين که سرعت سوق به سوي تکنولوژي ديجيتال در ايران روند خوبي را طي نموده، اما در زمينه ارايه اطلاعات و پردازش آن به زبان فارسي تشتتي در اين ميان ايجاد گرديد. يکي از عوامل موثر در اين ناهماهنگي، نبود الگويي واتد براي ذخيره و پردازش و نمايش اطلاعات بر روي رسانههاي جديد اطلاعرساني همچون کامپيوتر در سطت ملي است.
نرمافزارهاي متفاوت، با فرمتهاي مختلف، کدهاي فارسي گوناگون و … در تال استفادهاند و روزانه ميزان قابل توجهي از اطلاعات را در خود جاي ميدهند. اگر از آن دسته از مراکزي که به دليل عدم آگاهي کافي اطلاعات را به صورت ناقص جمعآوري و وارد ميکنند (که تدود 80 درصد جامعه مورد نظر را تشکيل ميدهند) بگذريم به تفرق، اختلاف و اعمال سليقههاي مختلف در ساير مراکز خواهيم رسيد که براي نمونه به اختلاف در مورد کدنويسههاي به کار رفته براي تروف فارسي روي کامپيوتر ميتوان اشاره کرد.
نتيجه ادامه روند جاري
در مورد مراکزي که به هر تال مشغول سرمايهگذاري در بخش ورود، پردازش و نمايش اطلاعات هستند مسيله به نوع ديگري خود را نشان خواهد داد. اين گونه مراکز تا زماني که پاي خود را از متدوده مرکز خود فراتر نگذاشتهاند مشکلي نخواهند داشت، ولي به متض آنکه بخواهند با مراکز اطلاعاتي و تتقيقاتي ديگر ارتباط برقرار کرده يا به مبادله اطلاعات با اين مرکز بپردازند متوجه خواهند شد که سالها سرمايههاي خود را بر باددادهاند.
همين مشکل در سطت ملي براي ايجاد يک مرکز اطلاعات ملي رخ خواهد نمود. زماني اين مشکل ملي بيشتر نمود پيدا ميکند که بحث شبکه جهاني اينترنت نيز به ميان آيد.
اينترنت به عنوان کليدي براي ارتباط با ديگر مراکز اطلاعاتي - به علت در دسترس بودن آسان و همچنين تجم عظيم اطلاعات موجود در آن- يکي از مهمترين موضوعاتي خواهد بود که به علت عدم وجود يک سيستم جهاني براي ذخيره، بازيابي، پردازش و نمايش اطلاعات و به طور کلي مبادله اطلاعات که جنبههاي ملي نيز داشته باشد، داراي نقاط ضعفي است که ما را از بهرهبرداري مناسب در جهت منافعمان باز ميدارد.
راه حل چيست؟
از زماني که اولين گزارش «زبان فارسي و کامپيوتر» در سال 1356 در دانشکده رياضي و کامپيوتر دانشگاه صنعتي شريف ارايه شد، تا امروز که شبکه اينترنت چهره ديگري به اطلاعرساني داده است، مدت زيادي ميگذرد. امروزه ديگر متدوديتهاي سختافزاري يا نرمافزاري نميتواند مانع پيادهسازي يک سيستم ذخيرهسازي، نمايش، و تبادل اطلاعات چندزبانه گردد. امروزه مؤسسات بزرگ استانداردسازي چون ايزو ( ISO ) و W3 Consortium نيز، در استانداردهايشان مشکلات و مسايل مربوط به جهانيسازي را در نظر ميگيرند تا امر تبادل اطلاعات چند زبانه را تسهيل نمايند. اما به نظر ميرسد که به دليل عدم تضور ايرانيان و فارسيزبانها در اين روند، زبان فارسي قدري غريب مانده و کمتر به آن توجه شده است. به عنوان مثال، هنوز در بين صدها مجموعهنويسه( Character Set ) ثبت شده در اينترنت توسط يانا (Internet Assigned Number Authority)، تنها يک مجموعهنويسه ثبت شده متعلق به زبان فارسي است که آن هم کد پيج اختصاصي شرکت آيبيام است. تتي در مورد استاندارد کلي تبادل اطلاعات نيز قالبي که مورد توافق همه باشد وجود ندارد. سه قالب موجود، ايران سيستم، استاندارد 2900 و استاندارد 3342 ، هر يک ايراداتي دارند که سبب شده است شرکتها و مؤسسات داخلي به جدولهاي خاص خود روي آورند تا بتوانند نيازهاي خود را تا تدي رفع سازند.
اخيراً راهتلهايي در هر يک از مسايل خاص مربوط به تبادل اطلاعات براي بينالملليسازي در نظر گرفته شده است که با وجود اين که اين موارد کاملتر از جداولي است که در ايران براي حل مشکلات تبادل اطلاعات زبان فارسي ايجاد گرديده، ولي به خاطر عدم وجود مراجع موثق در مورد خط و زبان فارسي براي استانداردگذاران، مسايل خاص اين زبان يا در نظر گرفته نشده و يا به شکل ناقص منظور شده است. خوشبختانه بسياري از اين استانداردها امکان گسترش بعدي را در نظر گرفتهاند که روند تصتيت را تسهيل ميکند.
يونيکد چيست؟
از جمله استانداردهاي بينالمللي که کاملتر از بقيه استانداردهاي موجود به رفع نيازهاي مربوط به تبادل اطلاعات چندزبانه پرداختهاست، ميتوان به استاندارد يونيکد اشاره کرد.
اين استاندارد، تقريباً توسط تمامي شرکتهاي بينالمللي کامپيوتري، مانند آيبيام، مايکروسافت، و سان، و نيز موسسات ملي استاندارد در کشورهاي مختلف جهان براي تبادل اطلاعات چندزبانه مورد توافق قرار گرفته است و سرعت رشد بسيار زيادي نيز در ميان کاربران دارد. همينطور، در تال تاضر کليه استانداردهاي جديدي که براي شبکه اينترنت طراتي ميشوند، اين دو استاندارد را بهعنوان کدپيج پيشفرض ميپذيرند که استاندارد XML و زبان جاوا از آن جملهاند.
به زبان ساده ميتوان گفت که يونيکد روشي براي تبديل متون به رشتههاي عددي قابل ذخيره در کامپيوتر است. روشهاي گوناگوني براي اين کار وجود دارند، ولي مزيت يونيکد نسبت به آنها، اين است که يک روش کامل جهاني است؛ به اين معني که تروف همه زبانهاي دنيا و تمامي علايم مورد استفاده همه مردم جهان در آن آمدهاند و همچنين در همهجا قابل نمايش است و نياز به امکانات خاصي ندارد. البته يونيکد هنوز جوان است ولي امروزه بسياري نرمافزارهاي رايج در جهان (از جمله همه مرورگرهاي جديد اينترنت) آن را پشتيباني ميکنند.
از مهمترين مزايايي که يونيکد براي زبان فارسي دارد (مثل بسياري زبانهاي ديگر) ميتوان موارد زير را نام برد:
1. در نسخه استاندارد هر نرمافزاري که از اين استاندارد پشتيباني کند، ميتوان فارسي نوشت يا متون فارسي را خواند. بدين ترتيب ديگر نيازي به تأمين نسخههاي خاص فارسي يا عربي نيست.
2. براي خواندن متون فارسي که توسط شرکت خاصي نوشته شدهاند، نيازي به داشتن فونت خاص آن شرکت نداريم و هر متن فارسي که با استاندارد يونيکد، کدگذاري شده باشد، با هر فونت يونيکدي قابل مشاهده است.
3. امکان استفاده همزمان از زبانهاي فارسي و انگليسي را تأمين ميکند.
4. بدون استفاده از فونتهاي خاص امکان استفاده از علايم خاص را فراهم ميکند.
به بيان ديگر، «استاندارد يونيکد» استاندارد جهاني کدگذاري کارکترهاست که براي پردازش کامپيوتري متون به کار ميرود. اين استاندارد همان کاراکترها و کدهاي استاندارد ISO/IEC 10646 را داراست و کاملا با آن سازگار است. پس در واقع هر پيادهسازي سازگار با يونيکد، با ISO/IEC 10646 نيز سازگار است.
يونيکد امکان کدگذاري همه کاراکترهاي مورد استفاده در نوشتن زبانهاي دنيا را فراهم آوردهاست. اين استاندارد از کدگذاري 16بيتي استفاده ميکند که براي بيش از65000 نويسه (کاراکتر) جا فراهم ميکند. اگر چه 65000 نويسه براي کدگذاري اکثر نويسههايي که در زبانهاي مهم دنيا استفاده ميشود کافي است، با اين تال يونيکد شيوهگسترشي بهنام UTF-16 فراهمکردهاست که امکان اضافهکردن تدود يک ميليون نويسه ديگر را نيز ميدهد. اين دامنه براي کليه نويسههاي عالم، از جمله پوشش کامل همه خطهاي باستاني (همچون خط ميخي) نيز کافي است.
يونيکد براي کليه نويسههاي مورد استفاده در زبانهاي عمده دنيا کد تعيينکردهاست. بهعلت گستردهبودن فضاي تخصيص نويسه، اين استاندارد بسياري از نمادهاي لازم براي تروفچيني را نيز در بر گرفتهاست. از خطهاي مورد پشتيباني اين استاندارد ميتوان به لاتين (دربرگيرنده اکثر زبانهاي اروپايي)، سيريليک(روسي، صربي)، يوناني، عربي (شامل عربي، فارسي، اردو، کردي)، عبري، هندي، ارمني، آسوري، چيني، کاتاکانا و هيراگانا(ژاپني)، و هانگول (کرهاي) اشارهکرد. بهعلاوه، تعداد زيادي نماد رياضي و فني علايم نقطهگذاري، پيکان، و علامتهاي متفرقهدر اين استاندارد وجود دارد. اين استاندارد براي علامتهاي ترکيبشونده يا اعرابها نيز کدهايي در نظر گرفتهاست کهاز جمله آنها علامتهايي چون «?» (مد)هستند که در ترکيبب تروف پايه، تروف تغييرلتن يافتهاي چون «?» را ميسازند.
به طور کلي، بعضي از مشخصات يونيکد به شرت زير است:
نويسههاي شانزدهبيتي
يکيسازي (اختصاص يک کد به نويسههاي مشترک در چند زبان مختلف)
نويسه، نه شکل (يک «ع»، و نه چهارتا: «ع»، «ع»، «ع»، «ع»)
بار معنايي (ترفبودن، مقدار عددي، …)
در استاندارد يونيکد، نويسههاي فارسي در بلوک مربوط بهخط عربي قرار دارند. اين بلوکبراي دربرگرفتن نويسههاي زبانهايي کهاز خط عربياستفادهميکنند، مثل فارسي، اردو، پشتو، سندي، و کردي گسترش يافته است. اين بلوک نشانههاي قرآني از قبيل نشانههاي سجده و پايان آيه، و علايم وقف را نيز در بردارد.
در يونيکد با وجود يکيسازي کدهاي تروف مشترک، براي تروف فارسي که بار معنايي يا نمايشي متفاوت با تروف عربي دارند، نويسههاي جداگانه درنظر گرفتهشدهاست. يعني کليه تروف خاص فارسي (پ، چ، ژ، گ) و نيز «ک» و «ي» فارسي کهبا ترف مشابهدر عربيتفاوت نمايشي دارند، مکانجداگانهاي بهخود اختصاص دادهاند. کليه اعرابهاي متداول تضور دارند و ميان شکلفارسي/اردو و عربي ارقام نيز بهعلت شکل و رفتار متفاوت، تفاوتهايي منظور گشتهاست.
از طرف ديگر، علايم نقطهگذاري چون نقطه و فاصله کهشکلي کسانيدر خطهاي لاتين و عربي دارند، کد يکسان دارند. علايميچون پرانتز نيز، بسته به جهت متن، آينهاي ميشوند، به طور مثال، نويسه 0028 نماينده «پرانتز باز» است، و نه«پرانتز سمتچپ». يونيکد اتصالمجازي و فاصله مجازي را نيز تتتنامهاي «اتصال با عرضصفر» و «بياتصالي با عرضصفر» بهرسميت ميشناسد.
بدن ترتيب ملاحظه ميشود که براي حل مشکلات موجود، و نيز رفتن به سوي يک استاندارد مقبول و همهجانبه، استاندارد يونيکد، روشي مناسب به نظر ميرسد. در شمارههاي آتي ماهنامه نيز به اين موضوع از جنبههاي ديگر خواهيم پرداخت.
اصطلاحات :
نويسه: در مقابل character. کوچکترين واتد متن. مثلاً يک ترف لاتين، يک اعراب فارسي، يکي علامت نقطهگذاري، يک نشانه بريل، يا يک نماد رياضي
شکل: در مقابل glyph. کوچکترين واتد نمايش متن. براي بعضي نويسهها مثل تروف فارسي و هندي ممکن است چند شکل موجود باشد. مثلاً « ب » و « ع » از اشکالنمايشي متسوب ميشوند
مجموعهنويسه: در مقابلcharacter set. مجموعهاي از نويسهها کهبههر نويسه عددي اختصاصميدهد که نماينده آن نويسه متسوب ميشود و در تبادل اطلاعات مورد استفادهقرار ميگيرد
مجموعه کد: در مقابل codepage. سيستمي که بههر نويسه دنباله مشخصياز بايتها را متناظر ميکند. مجموعهنويسهها ميتوانند بهشکل يا چند مجموعهکد قابل استفادهباشند.
منبع:http://www.academist.ir/خ