نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشیار گروه زبان شناسی دانشگاه پیام نور
2 کارشناس ارشد گروه کامپیوتر دانشگاه پیام نور
چکیده
کلیدواژهها
عنوان مقاله [English]
نویسندگان [English]
Today, linguistic corpora play a crucial role in solving different types of linguistic issues thanks to emerging computer technology. Bilingual parallel corpora aligned at sentence and word level can be retrieved for single-word as well as multi-word units making easier further applications in different computer and language areas.In this paper we address the problem of exploiting English-Persian parallel corpus in making an efficient bilingual concordance using mutual information measure. Here, a mutual information statistics is used to add word level alignments between English and Persian sentence pairs in our parallel corpus. A parallel corpus with alignments on the word level has certainly many applications among which phrase-based translation memory software, terminology management, cross-language information retrieval, statistical machine translation system and the like. We conducted an experiment using our algorithm and compared alignment outputs with manually aligned sentences. Experimental results revealed that our concordancing program gained the accuracy rate of 75% which seems very encouraging.
کلیدواژهها [English]
در سالهای اخیر ساخت و استفاده از انواع مختلف پیکرههای زبانی، از جمله کاربردهای رایانهای هستند که در اختیار پژوهشگران حوزه ترجمه ماشینی، آموزش و یادگیری زبان، مطالعات ترجمه، بازیافت اطلاعات دو زبانه، واژهنگاری و غیره قرارگرفتهاند. تا قبلاز توسعه فناوری اطلاعات و ارتباطات، پیکرهها و نرمافزارهای کشفاللغات بندرت در دسترس پژوهشگران زبان قرارداشتند تا بتوانند در مورد زبان، محتوا، و یا امور مربوط به ترجمه اطلاعاتی را از درون آنها استخراج نمایند.
ولی امروزه با ظهور فناوریهای رایانهای و تولید حجم وسیع متون ترجمه، منابع پیکرهای قابلدسترس برای محققان اشتیاق زیادی را در آنان برای ساخت و بهرهبرداری از پیکرهها به وجود آورده است. پیکرههای ترجمه یا پیکرههای موازی در رشته زبانشناسی رایانهای بویژه در سیستمهای ترجمه ماشینی کاربردهای وسیعی دارند. در حقیقت، پیکرههای موازی ابزار اصلی برای انتخاب ترجمههای ممکن واحدهای واژگانی و متعاقب آن یافتن محتملترین ترجمهها در یک سیستم ترجمه ماشینی مبتنی بر آمار هستند.
مطابقه نرمافزاری است برای مشاهده پیکره که فهرستی از رخدادهای یک واژۀ خاص، قسمتی از یک واژه یا ترکیبی از چند واژه را در بافت نشانمیدهد. به واحد جستار کلیدواژه گفته میشود. رایجترین شکل نمایش در یک مطابقه نشاندادن تعدادی سطر است با ساختار کلیدواژه در بافت[1] که در آن هر کلیدواژه با طول بافت معینی از هر دو طرف در مرکز سطر نشان داده میشود. نمونهای از یک مطابقه دو زبانه انگلیسی– فارسی (موسوی میانگاه، 2009) در شکل (1) نشان داده شدهاست.
شکل 1( رکوردهای تولیدشده توسط مطابقه موازی درسطح جمله برای جستار "حقوق بشر"
تمام پیکرههای ماشینخوان[2] به محققان در محاسبه فراوانی رخداد واژه یا عبارت مورد جستجو (جستار) کمک میکنند تا با انتخاب واژه یا عبارت مورد نظر تمام رکوردها (سطور) مطابقه که در آن جستار مورد نظر وجود دارد در صفحه نمایش ظاهر شود. بعلاوه، اکثر بستههای تحلیل پیکره شامل مطابقه نیز میباشند که محققان را در یافتن تمام رخدادهای جستارهای موردنظر با امکان مرتبکردن دادههای نمایش داده شده در صفحه و نیز همراه با محدوده بافت متعلقه از سمت چپ و راست یاری مینمایند (هیرویوکی و توشیکو، 1996). واژههای خاص، قسمتی از یک واژه، یا گروهی از واژهها که توسط برنامه مطابقه نمایش داده میشوند همه از یک پیکرۀ متنی استخراج میشوند. بدیهی است که هرچه حجم پیکره بیشتر باشد، برونداد برنامه دقیقتر خواهد بود. درواقع، مطابقههای دوزبانه از جمله ابزاری هستند که کار سخت ترجمه را آسانتر مینمایند.
یک مطابقه موازی از این جهت با یک مطابقه یکزبانه متفاوت است که درمورد اول برنامه مطابقه براساس مجموعهای از متون یکزبانه ساخته میشود مثل برنامه مایکروکانکورد (جونز، 1986) و ورد اسمیت (اسکات، 2000)، درحالیکه درمورد دوم برنامه مطابقه براساس مجموعهای از متون موازی دو یا چندزبانه ساخته میشود. این بدان معناست که در مطابقههای موازی کاربر میتواند جستار خود را به یک زبان نوشته و جملات متناظر برای آن جستار را نه تنها به همان زبان بلکه به زبان یا زبانهای دیگر دریافت نماید. دو نمونه از پرکاربردترین مطابقههای موازی پاراکانکورد (بارلو، 2002) و مولتیکانکورد (جونز، 1998) هستند.
از طرف دیگر، مطابقه موازی در سطح واژه نوع خاصی از مطابقه دوزبانه است که در آن جستجوی کاربر برای یک زنجیره در زبان مبدأ منتهی به یافتن جملات متناظر با آن جستار در هر دو زبان مبدأ و مقصد شده، درحالیکه زنجیره جستار در جمله زبان مبدأ و ترجمه آن در جمله مقصد پررنگ و کاملاً مشخصشده است. داشتن این توانایی برای مطابقهها مستلزم دستیابی به فنون پیشرفته همترازسازی[3] در سطح واژه است. البته در بسیاری از موارد هم شناسایی ترجمۀ دقیق جستار مورد نظر امکان پذیر نمی باشد.
در سالهای اخیر بسیاری از سیستمهای ترجمۀ ماشینی با استفاده از همترازسازی در سطح واژه، پیکرههای موازی که توسط مدلهای آیبیام (براون و همکاران، 1993) و بسته جیزاپلاسپلاس[4] (اوچ، 2000 و اوچ و نی، 2003) تولید شده طراحی شدهاند. اما این پژو هش روشی نسبتاً ابتکاری و نوین برای استخراج تناظرها در سطح واژه از پیکره موازی همترازشده در سطح جمله و با استفاده از آماره اطلاعات متقابل[5] ارائه مینماید. در بخشهای زیر پس از مرور تحقیقات انجامگرفته در این حوزه، پیکره دوزبانهای که برای این پژوهش مورداستفاده قرارگرفته معرفیمیشود و متعاقب آن روش تحقیق بکاررفته برای انجام آزمایشی در رابطه با ارزیابی کیفی این برنامه مطابقه همراه با ارائه الگوریتم آن مورد بحث قرارخواهدگرفت. آزمایش و نتایج حاصل از آن در بخش 4 و 5 گزارشخواهندشد. این مقاله با ملاحظات جمعبندی و بحث در مورد کارهای آتی به پایان خواهد رسید.
تاکنون تحقیقات زیادی در زمینه پیکرههای موازی صورتگرفتهاست. تلاش تمام این تحقیقات به سمت استفاده از کاربردهای چنین پیکرههایی به منظور حل مسائل مختلف زبانشناسی رایانشی مانند ترجمه ماشینی مبتنی بر آمار (براون و همکاران، 1993)، بازیابی اطلاعات دوزبانه (نظارات و موسوی میانگاه، 1390)، یادگیری زبان (وو و همکاران، 2003)، ترجمۀ انسانی (موسوی میانگاه، 2006) و نظیر آن بوده است. برخی از محققان سعیکردهاند تا روشهای جدیدی برای همترازسازی پیکرههای دوزبانه در سطح جمله بیابند (سیمارد و پلامندن، 1998 و اوچ و نی، 2001 ). برخی دیگر از آنها به سمت استفاده از روشهای آماری (گیل و چرچ، 1991؛ کاپیک، 1993؛ داگان و همکاران، 1993؛ اینو و ناگایتو، 1993 و فانگ، 1995) یا زبانی (یاماماتو و ساکاماتو، 1993؛ کومانو و هیراکاوا، 1994 و ایشیماتو و ناگااو، 1994) برای همترازسازی پیکرههای دوزبانه در سطح واژه رویآوردهاند. روشهای آماری از فراوانی واژهها استفاده میکنند و میزان ارتباط بین واژههای متناظر در دوزبان موجود در پیکره موازی را محاسبه مینمایند. این در حالیست که روشهای زبانی تناظرهای واژگانی در دو زبان را با استفاده از یک واژهنامه دوزبانه پیدا میکنند.
ونگ لکسم یک برنامه مطابقه موازی انگلیسی _ چینی طراحی نموده است و کاربردهای آموزشی آن در زبانهای انگلیسی و چینی را از طریق مثالهایی از آزمایشهای آموزش و یادگیری نشان داده است، و بدین ترتیب روش یادگیری دادهمحور را پیادهسازی نموده است. درواقع، در پژوهش او، این ارزش آموزشی مطابقه موازی است که مورد توجه قرارگرفته و نه روش یافتن تناظرهای واژگانی در پیکره موازی (ونگ، 2001 ).
همینطور یک سیستم مطابقه انگلیسی-چینی مبتنی بر شبکه بنام توتالریکال[6] به منظور افزایش استفاده مجدد از ترجمهها و نیز تشویق به استفاده از منابع موثق و طبیعی در نگارش زبان دوم توسط وو و همکارانش طراحیشدهاست. توتالریکال پیشرفتهتر از مطابقههای قبلی است چرا که در این سیستم کاربر نه تنها میتواند تمام سوابق مربوط به واحد واژگانی مورد جستجو را ببیند بلکه میتواند معادلهای ترجمانی آن را به صورت برجسته مشاهده نماید. این سیستم در حقیقت نوعی مطابقه موازی همترازشده در سطح واژه است که نسبت به مطابقههای قبلی کاربردهای بسیار بیشتری دارد (وو و همکاران، 2003).
پاراکانکورد مطابقۀ موازی و چندزبانهای است که چهار متن موازی از چهار زبان متفاوت، یا یک متن اصلی و سه ترجمۀ متفاوت از سه زبان دیگر را میپذیرد. این برنامه دربرگیرنده نوار ابزاری برای برجستهسازی ترجمههای کاندید شده و نیز یک بخش خودکار بنام هات وردز[7] است که از اطلاعات بسامدی استفاده میکند تا اطلاعاتی در مورد ترجمههای ممکن جستار موردنظر فراهم نماید (بارلو، 2002).
موزر و همکارانش یک سیستم همترازسازی در سطح واژه برای ترجمۀ ماشینی آماری ارائهدادند که بطور همزمان جملۀ متن مقصد را طوری مجدداً مرتبسازی میکرد که با ترتیب واژهها در جمله متن مقصد متناظر خود منطبق باشد. ایده اصلی کار آنها تولید یک الگوریتم یکنواخت[8] بین جملۀ مقصد و یک شبکهبندی تبدیلی بود که نشاندهندۀ مرتبسازیهای مجدد متفاوت واژهها در جملۀ مبدأ باشد. آنها نشان دادند که سیستمهای ترجمهای که با روش پیشنهادی آنها کار میکنند بهتر و یا حداقل در همان حد سیستمهایی که با بستۀ نرم افزاری جیزاپلاسپلاس کارمیکنند عمل میکنند (مازر و همکاران، 2006).
پیکرۀ موازی انگلیسی-فارسی در ابتدا به صورت بانک دادهای متنی متشکل از متون اصلی به زبان انگلیسی و ترجمههای آنها به زبان فارسی و نیز متون اصلی به زبان فارسی و ترجمههای آنها به زبان انگلیسی گردآوری شد. اگرچه میزان دسترسی به متون دوزبانه که شامل زبان فارسی باشند به دلیل تراکم پایین متون فارسی در سراسر دنیا و وجودنداشتن چنین متونی در برخی گونهها و زمینههای خاص بسیار پایین میباشد، ما موفق به تهیۀ بانک دادهای دوزبانۀ نسبتاً حجیمی متشکل از صدهزار جمله انگلیسی و فارسی شدیم. متون در این پیکره به انواع زیر طبقهبندی شدهاند: مذهبی، ادبی، سیاسی، اقتصادی، علمی، شعر، اصطلاحات و ضربالمثلها، ورزشی، متفرقه، پزشکی، و فرهنگی. نوع متن با جستجوی هر جمله درکنار آن ظاهر میشود. پایگاه دادهای این پیکره بهصورت اکسس[9] و اس کیو ال[10] موجود میباشد و مطابقه مبتنی بر آن نیز بهصورت تحت ویندوز و تحت وب تهیهشده است. پیکرۀ تولیدشده پیکرهای درحال پیشرفت است، بدین معنا که پیکرهایست باز که برحسب نیاز و با گذشت زمان مطالبی به آن اضافه خواهد شد (موسوی میانگاه، 2009).
آمادهسازی و همترازسازی پیکره
متون خامی که از منابع گوناگون استخراج میشوند برای ورود به پیکره باید پیشپردازش شوند. دانلودکردن، تبدیل فرمت و هنجارسازی (عادیسازی) متون از جمله مراحل بسیار وقتگیر در آمادهسازی پیکره به شمار میرود. برخی از صفحات که نامربوط هستند و نیز تمام شکلها، جداول و عکسها قبل از اینکه وارد پیکره شوند باید حذفگردند. در برخی موارد که یک جمله یا قسمتی از آن ترجمه نشده باشد، قسمتهای ترجمه نشده باید حذف شوند. بعد از بازبینی و تأیید، تمام متون به طور هماهنگ به فرمت ایکس ام ال[11] رمزگذاری میشوند تا پیکره بتواند مستقل از کاربرد بوده و از طریق اینترنت به راحتی قابل مبادله باشد.
به منظور استخراج اطلاعات از پیکرۀ موازی، لازم است متون دوزبانۀ این پیکره در مرحلۀ نخست در سطوح پاراگراف، جمله و واژه همتراز شوند. منظور از همترازسازی ایجاد وابستگی بین قطعاتی از متن در یک زبان و ترجمهها یا متون معادل آنها در زبان دیگر است. همترازسازی در سطح پاراگراف کار نسبتاً سادهای است، چون مرزهای پاراگرافی معمولاً مشخص هستند، درضمن اینکه این نوع همترازسازی برای استفادههای بعدی از پیکرههای موازی در امر پژوهش خیلی هم مفید به نظر نمیرسند. همترازسازی در سطح واژه به معنای تعیینکردن جفتواژههای متناظر در دو زبان می باشد. این نوع همترازسازی کاری بسیار دشوار بوده و نیاز به الگوریتم های پیچیدهای دارد. بنابراین اکثر پیکرههای موازی در سطح جمله همتراز میشوند.
در پیکرۀ موازی انگلیسی- فارسی طراحیشده توسط نویسنده، همترازسازی در سطح جملات گرچه میتوانست با روشهای کاملاً خودکار یا نیمهخودکار انجام شود (رنسیک، 1998، 1999)، لیکن تماماً به طور دستی انجام شده است تا صحت همترازسازی به 100 درصد برسد. قصد ما این است که این پیکره در حل مسائلی مانند پردازش خودکار متن و ترجمۀ ماشینی آماری و ساختن نرم افزار حافظۀ ترجمه که در آنها دقت بالا بسیار مهم می باشد مورداستفاده قرارگیرد.
پیکرهی موازی انگلیسی– فارسی فوق در انجمن منابع زبانی اروپا به ثبت رسیده و دستیابی به آن از طریق مراجعه به کاتالوگ این انجمن که آدرس آن در زیر آورده میشود امکانپذیر میباشد:
http://catalog.elra.info/product_info.php?products_id=1111
ساخت یک پیکره بهخودیخود هدف محسوب نمیشود بلکه معمولاً به عنوان قسمتی از یک پروژه تحقیقاتی درنظرگرفته میشود. درواقع هنگامی که ساخت پیکره به پایان میرسد کار اصلی شروع میشود.
پس از اینکه همترازسازی پیکره مورد نظر در سطح جمله صورتگرفت، مرحلۀ بعدی تشخیص تناظرهای واژگانی در جفت جملات متناظر است. بهعبارت دیگر، هدف اصلی در اینجا این است که مشخص شود کدام واژه در جمله انگلیسی با کدام واژه در جمله فارسی متناظر آن مطابقت دارد. این دو واژه معادل در جفت جملات متناظر برجسته یا پررنگ میشوند.
از آنجاکه میان طول یک جستار و سرعت پاسخدهی رابطۀ عکس برقرار است، یعنی هرچقدر یک جستار تعداد واژههای بیشتری را دربرگیرد احتمال تهی بودن نتیجه بیشتر است، در این روش عمدتاً یک واژه به عنوان جستار درنظر گرفته شده است. همچنین، از آنجایی که واحد اصلی جستار در امور مربوط به نمایه از قبیل بازیابی اطلاعات در بیشتر موارد اسمهای مجزا هستند، تمام واژههای قاموسی[12] زبان فارسی باید با تمام واژههای محتوایی زبان انگلیسی مقایسه شوند تا از محاسبات اضافی و اختلال ممانعت بهعملآید. تشخیص واژههای محتوایی از واژههای دستوری[13] ازطریق برچسبزن اجزای کلام که با استفاده از سیستم برچسبزن کلاز[14] درمورد واژههای انگلیسی اعمال میشود براحتی امکانپذیر است. درمورد زبان فارسی نیز از سیستم برچسب زن اجزای کلام فارسیتگ[15] استفاده میشود (موسوی میانگاه، 2015). از آنجا که واژههای دستوری در هر زبانی مقولات بستهای را تشکیل میدهند با خارجکردن این مقولات از واژگان، بقیه واژهها محتوایی درنظرگرفته شدهاند. درمواردی که بین این دو گروه واژههای محتوایی و دستوری همپوشانی وجود داشته نیز سیستمهای برچسب زن مذکور که عمدتاً سیستمهای مبتنی بر قاعده هستند تاحد زیادی قادر به تشخیص آنها بودهاند.
اکنون زمان آن رسیده تا مطابقه موازی در سطح جمله به شکل یک بسته نرمافزاری ساخته شود تا کاربر قادر باشد بهوسیله آن واژۀ خاصی را در زبان انگلیسی یا فارسی جستجوکرده و فهرستی از تمام جملات به زبان موردجستجو شامل آن واژه خاص همراه با جملات متناظر به زبان دیگر را دریافت نماید و این در حالی است که جستار موردنظر و معادل آن به زبان دیگر به طور برجسته نشان دادهشده است. به عبارت دیگر، جستجو میتواند براساس هرکدام از زبانهای موجود در پیکره انجام شود.
اگر دو جملۀ انگلیسی و فارسی ترجمۀ یکدیگر باشند، انتظار میرود که یک واژۀ فرضی در جملۀ فارسی دارای یک ترجمۀ انگلیسی در جملۀ انگلیسی متناظر خود داشته باشد. جدول (1) پیوندهای مناسب در دو جملۀ متناظر انگلیسی و فارسی را که توسط مترجم انسانی همتراز شده نشان میدهد.
For true colonialism to exist two conditions are necessary.
8 7 6 5 4 3 2 1
جدول 1) همترازسازی در سطح واژه در یک نمونۀ ساده از جفت جملۀ انگلیسی و فارسی
Englishà Persian |
1à1 2à4 3à3 4à2 5à5 6à6 7à8 8à7 |
لازم به ذکر است که زبان فارسی زبانی هسته آغازین است که از راست به چپ نوشته میشود. در دو جملۀ همتراز انگلیسی–فارسی، یافتن ترجمه مناسب یک واژه فرضی فارسی در میان واژههای انگلیسی جمله معادل آن برای یک جستجوگر غیرانسانی تقریباً غیرممکن است، چرا که ترتیب عناصر در جملات انگلیسی و فارسی با هم تطابق ندارد. از اینرو، ما روشی نسبتاً بدیع برای یافتن مناسبترین و محتملترین معادل هر واژه با استفاده از آماره اطلاعات متقابل ارائه دادهایم. اطلاعات متقابل اساساً برای محاسبۀ میزان همبستگی میان واژهها با استفاده از آمار همرخدادی واژهها بکار برده میشود و بهصورت فرمول شماره (1) قابل تعریف است (چرچ و هنکس، 1990):
(1)
در اینجا x و y واژههای فرضی در بافت هستند. احتمالهای p(x) و p(y) با استفاده از شمارش تعداد رخدادهای x و y در پیکره یعنی f(x) و f(y) محاسبه میشوند. N حجم پیکره را نشان میدهد. با شمارش تعداد دفعاتی که x و y در بافت یکسانی ظاهر میشوند (در اینجا منظور از بافت همان رکورد است) محاسبه میشود. از آنجا که الگوریتم پیادهسازی شده برای این برنامه جملهها را شناسایی نموده و واژههای موجود در یک جمله که جستار به آن تعلق دارد را به عنوان بافت زبانی آن جستار در نظر میگیرد، در این تحقیق هر رکورد شامل یک جملۀ انگلیسی و معادل فارسی آن است.
استفاده از مقادیر اطلاعات متقابل براساس این فرض است که هنگامی که دو واژۀ انگلیسی و فارسی در محدودۀ بافت معینی (که در اینجا یک رکورد است) با فراوانی بالایی همرخداد میشوند، احتمال این که آنها ترجمه یکدیگر باشند بیشتر میشود. درحقیقت، برای یافتن معادل فارسی هر واژۀ محتوایی در زبان انگلیسی این برنامه جملاتی را در پیکره جستجو میکند که در آنها واژۀ انگلیسی مورد نظر وجود داشته باشد. سپس برنامه مقدار اطلاعات متقابل آن واژۀ انگلیسی با تمام واژههای محتوایی زبان فارسی که در جملات فارسی متناظر وجود دارند را محاسبه مینماید. بهعنوان مثال، جملۀ همتراز شده زیر را که در آن ترجمه واژه انگلیسی که زیر آن خط کشیدهشده باید از جمله فارسی متناظر آن استخراج شود را درنظر بگیرید:
جدول 2) نمایش یک رکورد تولیدشده توسط پیکره برای جستار "campaign"
English sentence |
Persian sentence |
UN has launched a global campaign against the poverty.
|
سازمان ملل مبارزه جهانی علیه فقر را آغازکرده است.
|
در جدول )2( مقدار اطلاعات متقابل واژه campaign و تمام واژههای محتوایی فارسی در طرف راست محاسبه شدهاند و جفت واژههایی که همبستگی زیادتری با یکدیگر دارند بعنوان ترجمههای یکدیگر انتخاب میشوند و بدین ترتیب ترجمههایی که احتمال درست بودنشان کمتر است حذف میشوند. نتایج این محاسبات را میتوان در جدول شمارۀ (3) مشاهده نمود. روش اجرای این برنامه برای واژه campaign در محیط نرمافزاری در شکل 2 نمایش داده شده است.
جدول 3) مقدار اطلاعات متقابل واژه "campaign" و 8 واژه در جمله فارسی متناظر
Word x |
Word y |
f(x) |
f(y) |
f(x, y) |
MI |
campaign |
سازمان |
32 |
1130 |
4 |
706/4 |
campaign |
ملل |
32 |
1604 |
7 |
915/4 |
campaign |
مبارزه |
32 |
195 |
11 |
4746/7 |
campaign |
جهانی |
32 |
310 |
2 |
428/4 |
campaign |
علیه |
32 |
159 |
4 |
49/5 |
campaign |
فقر |
32 |
173 |
2 |
89/5 |
campaign |
آغاز |
32 |
177 |
2 |
866/5 |
campaign |
کرده است |
32 |
4635 |
5 |
943/5 |
شکل 2)روش اجرای برنامه برای واژه campaign در محیط نرم افزاری
از جدول شمارۀ (3) میتوان دریافت که برای این جمله بیشترین مقدار اطلاعات متقابل به جفت "campaign" و "مبارزه" با مقدار 4746/7 متعلق میباشد و مقدار اطلاعات متقابل دیگر جفت واژهها بسیار پایینتر از آن است. بدین ترتیب، این الگوریتم قادر خواهد بود مناسبترین ترجمه یک واژه انگلیسی را در جمله فارسی متناظر آن برجسته نماید و با این کار یک مطابقه مستقل از زبان کاملاً مبتنی بر آمار تولید شده است. البته جستار میتواند هم به زبان انگلیسی و هم به زبان فارسی باشد. تعداد محاسبات موردنیاز برای یافتن معادل یک واژۀ خاص در یک جمله به یک زبان به تعداد واژههای محتوایی در جمله متناظر آن به زبان دیگر بستگی دارد.
به منظور ارزیابی میزان تأثیر این الگوریتم، آزمایشی بر روی پیکره موازی موجود ترتیب داده شد. در این آزمایش تنها واژههای محتوایی درنظرگرفته شدند چراکه واژههای اصلی که توسط کاربران در تقریباً تمام مطابقهها موردجستجو قرار میگیرند همین نوع واژهها هستند. هرچند واژههای دستوری نیز به انسجام متن کمک میکنند، اما همانطور که میدانیم در موتورهای جستجو و بهطور کلی در بازیابی اطلاعات چنین واژههایی قابل ملاحظه نیستند و اکثر قریب به اتفاق جستارها در زبانهای مختلف عمدتاً عباراتی متشکل از واژههای محتوایی مانند اسم و صفت هستند.
پیکره آزمون استفادهشده برای ارزیابی عملکرد این آزمایش مبتنی بر الگوی پیشنهادی شامل مجموعهای از 100 واژه انگلیسی در نقش جستار است که بهعنوان درونداد به الگوریتم داده میشود و برونداد سیستم مطابقه در سطح جمله است که در آن کاربر قادر است مجموعهای از جفتجملات به انگلیسی و فارسی را همراه با جستارهای مورد نظر و ترجمههایشان که برجسته نمایش داده میشوند را مشاهده نماید. با هر واژۀ انگلیسی در پیکرۀ آزمون فهرستی از ترجمههای ممکن ارائه میشود و انتخاب محتملترین آنها هدف نهایی سیستم است.
در سیستمهای بازیابی اطلاعات، معیار دقت و بازخوانی و معیارهایی شبیه به آنها به عنوان معیارهای اصلی ارزیابی بهکار میروند: معیار دقت به حاصل تقسیم «تعداد مستندات بازیابی شده واقعاً با ربط» بر «تعداد کل مستندات بازیابیشده» گفته میشود. معیار بازخوانیبه حاصل تقسیم «تعداد مستندات بازیابی شده با مرتبط بر تعداد تعداد مستندات مرتبط موجود در مجموعۀ اطلاعاتی » گفته میشود. درواقع دقت درصد متون بازیابیشدۀ مرتبط و فراخوانی درصد ارتباط متون بازیابی شده را نشان میدهند.
در این آزمایش عملکرد برنامهای که سعی دارد واحدهای واژگانی زبان انگلیسی را با استفاده از پیکره ترجمه نماید براساس دونوع معیار ارزشیابی، یعنی دقت و فراخوانی، طبق فرمولهای (2) و (3) موردارزیابی قرارگرفت.
(2)
(3)
دقت میزان دقیق بودن یا درستی را نشان می دهد، درحالی که فراخوانی میزان کامل بودن را نشان میدهد. از آنجایی که در این آزمایش پاسخهای تولیدشده (تعداد زنجیرههای تولیدشده توسط برنامه) با کل پاسخهای موردانتظار (تعداد زنجیرهها در پیکرۀ آزمون) یکسان هستند، دقت و فراخوانی یکی بوده و عملکرد برنامه با صحت اندازهگیری میشود:
نتایج به دست آمده از معادلیابی خودکار با همان مجموعه از واژهها که از جفت جملات انگلیسی و فارسی در پیکره بهصورت دستی در سطح واژه همتراز شده بودند مقایسه شد. نتایج آزمایش نشان داد که برنامه مطابقه ما صحتی معادل 75 درصد بدست آورده که بسیار امیدوار کننده است. طبیعی است در حالتی که این الگوریتم بر روی یک پیکره طبیعی از زبان انگلیسی که در آن انواع مختلف واژهها (هم واژههای محتوایی و هم واژههای دستوری) یافت میشوند اعمال شود، صحت این روش مسلماً تا حد زیادی افزایش خواهدیافت. شکل (3) نمونهای از یک مطابقه موازی در سطح جمله که شامل 5 جفت جمله با جستار انگلیسی campaign، معادلهای فارسی آن و مقدار اطلاعات متقابل آنها (در ستون چهارم) است را نشان میدهد
شکل 3) نمونهای از یک مطابقه موازی در سطح جمله
بیشک مطابقههای دوزبانه منابع ارزشمندی برای زبانشناسان، مترجمان و نیز کاربران رایانه در حوزۀ پردازش متن و بویژه بازیابی اطلاعات هستند. این مطابقهها از مجموعه حجیمی از جملات همترازشده در سطح جمله بهعنوان پایگاه دادهای قابلجستجو استفاده میکنند. کاربر میتواند یک واحد زبانشناختی یا زنجیرهای از واحدها در یک زبان را جستجو کند و مطابقه می تواند تمام جملات به آن زبان که در نها آنها ذلاا آنها واحد (های) مورد جستجو ظاهر شدهاند همراه با جملات متناظر آنها به زبان دیگر را نمایش میدهد.
در این مقاله تلاش بر این بود تا روشی نسبتاً نوین برای همترازسازی خودکار مجموعهای از جملات موازی با استفاده از رویکردی آماری بنام آمارۀ اطلاعات متقابل ارائه شود. برای این منظور یک پیکرۀ موازی انگلیسی– فارسی که بهطور دستی در سطح جمله همترازسازی شده است مورد استفاده قرارگرفت. مقدار اطلاعات متقابل نشاندهندۀ درجه همبستگی معنایی بین واژهها است.
همترازسازی در سطح واژه مطابقههای دوزبانه را غنیتر میسازد و کاربردهای گوناگونی از جمله ترجمۀ ماشینی آماری، بازیابی اطلاعات دوزبانه، یادگیری زبان، واژهنگاری رایانهای و مانند آن دارد. روش ارائهشده در این تحقیق روشی مستقل از زبان است که صرفاً تکیه بر مقیاسهای آماری دارد. از اینرو، الگوریتم این روش میتواند برای هر جفت زبان دیگری که پیکره موازی آنها موجود باشد بکار رود.
هنوز هم اصلاحات زیاد دیگری به این سیستم اضافه شود تا به تولید بروندادهای بهتری منجر شود. یکی اینکه نویسندگان قصد دارند پایگاه دادهای پیکره موجود را با اطلاعات جدید بیشتری بطور مداوم بروز رسانی نمایند بطوری که مطابقه موازی موجود که در سطح جمله قادر به معادلیابی است به مطابقه قدرتمندتری تبدیل شود. بهعلاوه، تفکیک حوزههای موضوعی نیز میتواند به بازدهی بیشتر و مؤثرتری منجر شود.
قدردانی
این پژوهش بااستفاده از اعتبارات دانشگاه پیام نور در قالب طرح پژوهشی انجام شده است.