مشکلات انطباق دسته‌های‌‌هم‌معنای فارس‌نت با دسته‌های‌‌هم‌معنای وردنت پرینستون

نوع مقاله : مقاله پژوهشی

نویسنده

استادیار، گروه زبان انگلیسی دانشگاه اصفهان

چکیده

در این پژوهش به بررسی مشکلات موجود در انتخاب معادل برای دسته‌های‌‌هم‌معنای (دسمعناهای) فارس‌نت پرداخته‌شد. اهمیت این پژوهش به این لحاظ است که نتایج آن می‌‌تواند در طرحهای آینده مربوط به تکمیل فارس‌نت و ساخت شبکه‌‌های‌واژگانی دیگر یا تخصصی مورد استفاده قرار گیرد. با توجه به وجود سه دسته از مشکلات جهت انطباق وردنتها بر همدیگر شامل الف. مشکلات ناشی از سختی در تمایز معنایی در وردنت مبدأ ب. مشکلات ناشی از اصول حاکم بر وردنت مبدأ و منابع زبان مقصد و ج. مشکلات ناشی از تفاوتهای ذاتی بین زبان مبدأ و مقصد، به تحلیل موارد یافت شده  در فارس‌نت پرداخته ‌شده‌ است. این پژوهش سعی بر پاسخ به سوالات زیر داشته است: مشکلات موجود بر سر راه انطباق دسمعناهای فارس‌نت با وردنت چه‌ می‌باشد؟ چه مشکلاتی بسامد بیشتری دارند؟ آیا تفاوتی بین مشکلات موجود در انطباق فارس‌نت با وردنت و انطباق در سایر وردنتهای موجود وجود دارد؟ حجم نمونۀ مورد بررسی که به شکل تصادفی انتخاب شده‌اند  1552 دسته‌ می‌باشد که شامل دسمعناهایی  است که اولین عضو آن‌ها با حروف >ع، غ، ف و ق< شروع شده‌‌اند. مشکلات یافته شده به هشت دسته تقسیم گردیدند و بسامد و درصد هر مشکل ارائه گردید و برای حل برخی از این مشکلات راههایی پیشنهاد شد. این راه حلها می‌‌تواند در فرایند تکمیل فارس‌نت و یا پیش از ساخت شبکه‌‌های‌واژگانی دیگر یا شبکه‌‌های‌واژگانی تخصصی مد نظر قرار گیرد.

کلیدواژه‌ها


عنوان مقاله [English]

Mapping Difficulties of Farsnet Synsets on Princeton Synsets

نویسنده [English]

  • Akbar Hesabi
University of Isfahan
چکیده [English]

In this research the difficulties in the mapping of Farsnet synsets with the Princeton WordNet synsets were investigated.  Regarding the three kinds of difficulties in mapping of synsets between the WordNets including 1. Difficulties related to the meaning distinction in the source WordNet 2. Difficulties related to the principles underlying the source WordNet and the target language resources and 3. Difficulties related to the intrinsic differences between the source and target languages, the synsets and their mappings were investigated. This research tried to answer three questions: What are the difficulties in the mapping Farsnet synsets with Princeton Synsets? Which difficulties were more frequent? Was there any difference between the difficulties in the mapping of Farsnet synsets and Princeton WordNet and mapping of synsets of other WordNets? Considering the large amount of the data a sample of 1552 synsets were chosen randomly. With regard to the overlap of words between synsets, only the first member of the synset was taken into account. The cases were divided into eight types. For solving the observed difficulties some suggestions were proposed that can be used for Farsnet enrichment and in designing and developing other WordNets for special disciplines.

کلیدواژه‌ها [English]

  • WordNet
  • Farsnet
  • Mapping
  • Persian
  • computational linguistics

1- مقدمه

با توجه به حجم عظیم اطلاعات موجود در جهان امروز و محدودیت انسان در بررسی آن‌ها، پردازش زبان طبیعی از نیازهای غیر قابل انکار جوامع‌ امروز می‌باشد؛ تا بدین طریق بتوانند سریعتر و به شکل بهینه به اطلاعات مورد نیاز خود دست یابند. اما پردازش زبان با این اهداف همیشه به راحتی ممکن نبوده و خود نیازمند ابزارهایی است تا نتایج حاصله دقیقتر و در واقع همان نتایجی باشد که کاربر مد نظر دارد. اگر به جستجوهای واژه‌ای در موتورهای جستجوی معمول توجه گردد متوجه حجم عظیمی از نتایج نامربوط در جستجو می‌شویم که ناشی از پردازش به لحاظ صورت یا فرم در موتورهای جستجو است.

جهت حل این مشکل و مسائل دیگر در پردازش زبان طبیعی خصوصا مشکل ابهام در واژه‌های مورد جستجو، دادگانی که توجه افراد بسیاری را در حوزه پردازش زبان طبیعی به خود جلب نموده است شبکۀ‌واژگانی [1] است.

این دادگان متشکل از واحدهایی به نام دسته‌هم‌معنا[2]  (دسمعنا) می‌‌باشد که عبارت از واژه‌های قابل جایگزینی در بافتهای خاص به جای یکدیگر است (فلباوم، 1988). دسته‌های‌هم‌معنا خود با روابط واژگانی از قبیل شمولیت، جزء‌واژگی، بخش‌واژگی، عضوواژگی و غیره پس از بررسی توسط آزمونهایی که به این منظور طراحی شده‌اند، به یکدیگر مرتبط شده و شبکه‌ای از واژه‌ها ایجاد می‌‌شود که تصور بر این است که با توجه به یافته‌های روان‌شناسی و عصب‌شناسی زبان شبیه آن چیزی است که انسانها در مغز خود دارند (حسابی و همکاران، 1388).

روابط موجود در شبکه‌‌های‌واژگانی به دو دسته روابط درون‌زبانی و روابط میان زبانی قابل تقسیم است. روابط  درون‌زبانی میان دسته‌های‌هم‌معنا باعث ایجاد شبکۀ‌واژگانی می‌گردد و روابط میان زبانی شبکه‌ای را به شبکۀ دیگر انطباق می‌دهد. روابط  درون‌زبانی بین دسته‌های‌هم‌معنا قابل تقسیم به روابط میان اسامی، روابط میان افعال، میان صفات و میان قیود می‌باشد. این روابط در شبکۀ‌واژگانی پرینستون که تمایز مشخصی بین مقوله‌های کلام لحاظ می‌گردید بیشتر برجسته بود ولی در شبکه‌‌های‌واژگانی بعدی مانند  شبکۀ‌واژگانی  اروپا و بالکان روابط بین مقوله‌ای نیز لحاظ گردیدند.

روابط  درون‌زبانی در پرینستون 5/1 عبارت‌اند از ترادف[3] (بین اعضای دسته‌های‌هم‌معنا)، تضاد[4]، شمول[5]،  جزء‌واژگی[6]، استلزام [7]، نوعی از[8] ، باعث شدن[9]، همچنین ببینید[10]، مشتق از[11]، مشخصه[12]، صفت مرتبط[13]، شبیه به[14] و صورت مصدری[15] (وسن، 2002: 15). این روابط بجز رابطۀ ترادف که بین اعضای یک دسته‌هم‌معنا وجود دارد در جدول 1 قابل مشاهده می‌باشند. در ادامه ضمن توضیح این روابط به ارائۀ مثال برای هر رابطه می‌پردازیم.

جدول 1) روابط معنایی در شبکۀ‌واژگانی‌ پرینستون 5/1 (برگرفته از وسن، 2002: 15)

 

 

همان‌طور که از جدول (1) برمی‌آید رابطۀ تضاد بین دسته‌های‌هم‌معنای متعلق به سه مقولۀ  اسامی، افعال و صفات وجود دارد که مثال‌های مرد/زن، وارد شدن/خارج شدن و زیبا/زشت دارای این رابطه می‌باشند (ستون چهارم اشاره به روابطی دارد که در یورونت حفظ گردیده یا تغییر نام پیدا کرده‌اند). رابطۀ دیگر شمولیت است که بین اسامی برقرار است و نمونۀ آن در انگلیسی رابطۀ  slicer/knife است و یا رابطۀ بین زنبق و گل در فارسی که زنبق نوعی از گل است. رابطۀ سوم رابطۀ جزء‌واژگی است که بین اسامی برقرار است و یک اسم جزئی از اسم دیگر است مانند رابطۀ بین "بینی" و "سر" که بینی جزئی از سر است. این رابطه به شکل کلی در نظر گرفته شده و به اقسام مختلف تقسیم نگردیده است. رابطۀ بعدی رابطۀ استلزام می‌باشد که بین افعال برقرار است مانند  رابطۀ خرید/فروش که یکی مستلزم دیگری است. رابطۀ دیگر رابطۀ باعث شدن است که بین افعال برقرار است، مانند رابطۀ بین کشتن و مردن. روابط دیگر  نیز همانطور که از جدول (1) بر می‌آید بین مقوله‌های مختلف کلام برقرار است.

موفقیت این دادگان طی دهه‌های گذشته چنان قابل توجه بوده است که شاهد این موضوع می‌باشیم که برای اغلب زبان‌های دنیا طرح‌های ایجاد آن به نتیجه رسیده است یا در حال انجام است. حتی برای زبان‌هایی با گویشوران محدود نیز این دادگان در حال ساخته شدن است (اوراو و همکاران 2014؛ فلبام و وسن 2012). با مراجعه به تارنمای انجمن جهانی شبکۀ‌واژگانی[16] می‌توان زبان‌هایی که برای آن‌ها شبکۀ‌واژگانی  طراحی و ایجاد شده است مشاهده نمود.

برای زبان فارسی نیز مانند سایر زبان‌ها طی طرحی شبکۀ‌واژگانی ساخته شد که در ادامه به آن پرداخته شده است.

 

2- ساخت شبکۀ‌واژگانی  بان فارسی (فارس‌نت)

ساخت شبکۀ‌واژگانی  برای زبان فارسی به سال 2007 و طرح کیوان و همکاران (2007) در دانشگاه پرینستون برمی‌گردد که به نتیجه عملی منجر نگردید. بعد از این طرح طی پژوهشی فامیان و آقاجانی (2007) طرحی را برای ساخت شبکۀ‌واژگانی  صفات ارائه دادند و سپس روحی‌زاده و همکاران (2008) ، منصوری (1387) و منصوری و همکاران (2011) اقدام به ارائۀ طرح برای شبکۀ‌واژگانی  افعال نموده و در انتها حسابی (2009) طرح ایجاد شبکۀ‌واژگانی  اسامی را ارائه نمود. اما آنچه جای خالی خود را نشان می‌داد ایجاد شبکۀ‌واژگانی  زبان فارسی در واقعیت بود. این امر سرانجام طی طرحی که گزارش آن (شمس‌فرد و همکاران، 2010) در کنفرانس بین المللی شبکۀ‌واژگانی  ارائه شد محقق گردید و با استفاده از نتایج طرحهای گذشته و همکاری گروهی متخصصان رایانه و زبانشناسان فارس‌نت پا به عرصه وجود نهاد. طی این طرح 10000 دسته‌هم‌معنا (دسمعنا) در دادگان فارس‌نت قرار داده شد و علاوه بر روابط درون زبانی با استفاده از روابط میان‌زبانی با دسمعناهای وردنت پرینستون (از این به بعد آن را وردنت می‌خوانیم) انطباق داده شد تا به این وسیله با تمامی وردنتهای جهان متصل گردند. مروگر برخط فارس‌نت[17] از طریق وب قابل مشاهده است. اخیرا اطلاعات مربوط به شبکۀ‌واژگانی  دیگری نیز برای زبان فارسی بر روی تارنمای جهانی شبکۀ‌واژگانی  قابل مشاهده است. این پژوهش به بررسی مشکلات موجود در انطباق دسمعناهای فارس‌نت با وردنت و دسته‌بندی آن‌ها پرداخته است و به دنبال پاسخگویی به سوالات زیر بوده است:

1- چه مشکلاتی در انطباق دسمعناها وجود دارد؟

2- بسامد کدام یک از مشکلات بیشتر است؟

3- آیا شباهتی بین مشکلات موجود در انطباق فارس‌نت با وردنت و انطباق دیگر شبکه‌‌های‌واژگانی و وردنت وجود دارد؟

در ادامه پس از مرور فرایند ساخت شبکۀ‌واژگانی  فارسی به روش پژوهش و بررسی داده‌ها  و سپس تحلیل آن‌ها پرداخته شده است.

 

3- چهارچوب نظری

انطباق در شبکه‌‌های‌واژگانی  عبارت از یافتن معادلی برای دسمعنای شبکۀ‌واژگانی  مبدأ در زبان مقصد می‌‌باشد که برای آن زبان شبکۀ‌واژگانی  در حال ساخته شدن است و یا برعکس یافتن معادلی در شبکۀ‌واژگانی  مبدأ برای دسمعنا در شبکۀ‌واژگانی  مقصداست. این امر با توجه به روشهای ساخت شبکه‌‌های‌واژگانی به شکلهای متفاوتی مدیریت می‌شود. سه روش  برای ساخت شبکه‌‌های‌واژگانی وجود دارد که عبارتند از تلفیق (ادغام)، گسترش (توسیع) و ساخت بالا به پایین. (حسابی، 2009).

در روش تلفیق، ساخت شبکۀ‌واژگانی به صورت مستقل بدون استفاده از شبکه‌‌های ‌واژگانی دیگر انجام می‌پذیرد مانند آنچه در شبکۀ‌واژگانی وردنت پرینستون به عنوان اولین شبکۀ‌واژگانی رخ داد . فامیان روش ساخت شبکه‌‌های‌ واژگانی هلندی، سوئدی و آلمانی را از این دست می‌داند (فامیان، 1386).

  در این روش بعد از ساخت، انطباق دسمعناها با سایر شبکه‌‌های‌واژگانی در صورت نیازانجام می‌پذیرد. این نوع انطباق را انطباق ثانویه می‌نامیم.

در روش گسترش، دسمعناهای وردنت پرینستون ترجمه شده (معادلیابی یا انطباق اولیه) و روابط معنایی بین آن‌ها نیز از این وردنت گرفته می‌شود و سپس شبکۀ‌واژگانی مقصد بر این اساس شکل می‌گیرد. نتیجه شبکۀ واژگانی‌‌ای است که سوگیری زیادی به وردنت دارد. وسن (2002) شبکه‌‌های‌واژگانی فرانسوی و اسپانیایی و بنتی ولی و همکاران (2000) ایتالیایی را از این نوع شبکه‌‌های‌واژگانی می‌دانند.

به گفتۀ حسابی (2009) در روش ساخت بالا به پایین مفاهیم پایۀ (دسمعناهای) مستقل از زبان که با بررسی شبکه‌های زبانی موجود به دست آمده و در همۀ آن‌ها مشترک بوده، در زبان مقصد معادل‌سازی شده و سپس واژگان پربسامد زبان با استفاده از منابع موجود(مانند پیکره‌های زبانی) شناسایی و واژگانی که دارای جایگاه بالایی در سلسله مراتب معنایی بوده و روابط معنایی زیادی با مفاهیم دیگر دارند شناسایی می‌گردند و با استفاده از آن‌ها دسمعناهای ویژۀ زبان ساخته می‌شوند. با بررسی و مقایسۀ دسمعناهای ویژۀ زبان با مفاهیم پایۀ مستقل از زبان و حذف موارد یکسان، هستۀ شبکۀ واژگانی شکل می‌گیرد. سپس با استفاده از منابع زبانی اقدام به گسترش این هسته می‌گردد. در این روش معادلیابی اولیه و ثانویه انجام می‌پذیرد که آن را متفاوت از دو روش دیگر می‌نماید.

با توجه به اینکه در ساخت فارس‌نت از روش ساخت بالا به پایین استفاده شده است (حسابی و همکاران، 1388) انطباق اولیه و ثانویه  هر دو وجود دارد. نکتۀ دیگر در انطباق شبکه‌‌های‌واژگانی بر یکدیگر مشکلات انطباق است. کریستیا و همکاران (2004) به مشکلات موجود بر سر راه انطباق دسمعناهای وردنت با شبکۀ‌واژگانی رومانیایی پرداخته‌اند و به وجود سه دسته از مشکلات جهت انطباق وردنت‌ها بر همدیگر اشاره نموده‌اند:

  1. مشکلات ناشی از سختی تمایز معنایی در وردنت مبدأ (وردنت پرینستون) شامل:

‌أ.                 دسمعناهای یکسان یا دارای اشتراک

‌ب.                 دارای تعاریف مشابه یا غیرمتمایز

‌ج.                 دارای تعاریف مکرر

‌د.                 مثالهای غیرممیز

‌ه.                 فقدان شامل‌های ممیز[18] یا داشتن شامل‌های یکسان

‌و.                 فقدان زیرشمول‌های ممیز

‌ز.                 اشتراک واژگانی بین دسمعناها و شامل‌هایشان

‌ح.                 تضاد بین اطلاعات مربوط به شامل‌ها و مثال‌ها

2.   مشکلات ناشی از اصول حاکم بر وردنت مبدأ و منابع زبان مقصد

‌أ.                 همۀ معانی در وردنت مبدأ یکسانند در حالی‌که منابع زبان مقصد حاوی معانی اصلی و مشتقی می‌باشند که ویژه‌تر هستند.

‌ب.                 منابع زبان مقصد برای اعضای دسمعناها دسته‌بندی‌های کلی‌تری (و نه با دقت) نسبت به وردنت مبدأ دارند

‌ج.                 همپوشی[19] معنایی نظام‌مند در منابع زبانی مقصد

‌د.                 معانی مجازی جدید که در زبان مقصد وجود ندارد

‌ه.                 عدم وجود اصطلاحات در منابع زبان مقصد

‌و.                 کلمات یا عبارات بسیار زشت که در منابع زبان مقصد وجود ندارند

‌ز.                 عبارتهای ساختگی در وردنت مبدأ

3.   مشکلات ناشی از تفاوت‌های ذاتی بین زبان مبدأ و مقصد

‌أ.                 معانی‌ای در زبان مبدأ که در زبان مقصد وجود ندارند

‌ب.                 معانی‌ای در زبان مقصد که در زبان مبدأ وجود ندارند

‌ج.                 معانی‌ای که در زبان مبدأ با یک کلمه بیان می‌شوند ولی در زبان مقصد با معادل‌های مرکب آورده می‌شوند.

در زمان طراحی و ایجاد شبکۀ‌واژگانی اروپا (وسن، 2002)جهت انطباق دسمعناهای مبدأ با دسمعناهای وردنت پرینستون چندین رابطه معرفی گردید که عبارت بودند از: معادل-مترادف (EQ_SYNONYM)که در موارد تطابق یک به یک مورد استفاده قرار می‌گرفت و مهم‌ترین رابطه بود و روابط پیچیده‌ای مانند معادل-نزدیک به مترادف (EQ_NEAR_SYNONYM) که مواقعی که یک دسمعنای مبدأ با چندین دسمعنای وردنت پرینستون تطابق داشته یا یک دسمعنای پرینستون با چندین دسمعنای مبدأ تطابق داشتند مورد استفاده قرار می‌گرفت؛ معادل-دارای-شامل (EQ_HAS_HYPERONYM) وقتی دسمعنا خاصتر از دسمعنای پرینستون بود یا خلاء واژگانی وجود داشت؛ معادل-دارای-زیرشمول (EQ_HAS_HYPONYM) که اشاره به دسمعنای مبدأئی داشت که تنها می‌‌توانست به دسمعنایی از وردنت پرینستون وصل گردد که به لحاظ معنایی خاص‌تر بود و تعدادی دیگر از روابط پیچیده مانند EQ_HAS_HOLONYM, EQ_HAS_MERONYM, EQ_INVOLVED, EQ_ROLE and EQ_CO_ROLE. این روابط برای ایجاد معادل برای مواردی بود که معانی دقیقاً منطبق بر همدیگر نبودند.

 

4- روش

در این پژوهش سعی گردید تا موارد خاص یافت شده در انطباق دسمعناهای فارس‌نت با وردنت مورد بررسی قرار گیرند و برای آن‌ها دسته‌بندی ارایه گردد. منظور از موارد خاص دسمعناهایی هستند که ارائۀ معادل برای آن‌ها با توجه به منابع موجود مشکل بوده است؛ به عبارت دیگر، معادل آن‌ها جهت انطباق با دسمعناهای وردنت در منابع موجود وجود نداشته است یا سازندگان با توجه به دانش زبانی و منابع نتوانسته‌اند برایشان معادلی پیدا نمایند. در این پژوهش معادل‌های ارایه شده برای دسمعناهایی که با کلماتی که با حروف >ع، غ، ف و ق> شروع شده‌اند، به کمک بررسی اعضای دسمعنا ، تعریف آن و مثال‌های مربوط به کاربرد کلمات مورد بررسی قرار گرفت. انتخاب دسمعناهای فوق به صورت تصادفی بوده است. برای جلوگیری از همپوشانی، هر دسمعنا با توجه به کلمۀاول موجود در آن مورد بررسی قرار گرفت. با توجه به اینکه جهت حرکت برای بررسی دسمعناها از سمت دسمعنای فارسی با توجه به تعریف و مثال یا مثال‌هایش به سمت دسمعنای پیشنهادی انگلیسی بود، مشکلات به چند دسته کلی تقسیم گردید.

 

5- نتایج

در زیر به تقسیم بندی و ذکر نمونه‌هایی از این موارد پرداخته شد و بسامد رخداد هر کدام مشخص گردید. کلیۀ نمونه‌ها از تارنمای فارس‌نت[20] گرفته شده است و مشکلات یافت شده به هشت دسته تقسیم گردید.

1- در مواردی برای دسمعنای فارسی هیچ معادل انگلیسی موجود نیست یعنی این موارد خلاء واژگانی[21] می‌باشند (مشکل 3-ب در قسمت چهارچوب نظری). بعضی از این نوع خلاء‌ها مانند آنچه در شبکۀ‌واژگانی اروپا انجام گرفت با استفاده از رابطۀ معادل-دارای-شامل به دسمعناهای شبکۀ مبدأ متصل گردیدند. این خلاءها از نوع خلاء‌های کاربردشناختی[22] بودند. هفتاد و پنج مورد از این نوع خلاء واژگانی یافت شد. اطلاعات اعلامی نظیر اسم افراد، شهرها و روستاها، رودها، مکان‌ها، اسامی غذاها و خوراکی‌ها (عدس پلو، قورمه سبزی، فسنجان، قابلی، قطاب، قیسی، قره قروت و...)، بعضی مشاغل (حوزوی، قاری، قالی باف)، بعضی اعمال (قرتی بازی، فتوا دادن، غسل کردن، قمه زنی) بعضی اسامی (فطریه، عده: مدت زمانی که زن بعد از طلاق نباید ازدواج کند، قنوت، قانون: نام ساز، قبضه: ریش) بعضی اشیا (علامت: در عزاداری جلو دسته حرکت می‌دهند) همه و همه از این دست هستند. به علاوه، مدخل‌هایی که مربوط به مراسم، سنن و مفاهیم ملی و مذهبی هستند هم جز این دسته محسوب می‌شوند. بررسی کاملتری از خلاءهای واژگانی در فارس‌نت را در حسابی (1394)‌ می‌توان یافت. نکتۀ مسئله آفرین این است که برای بعضی از آن‌ها معادل‌هایی آورده شده است که خالی از اشکال‌ نمی‌باشد. به مثال زیر توجه نمایید که از تارنمای فارس‌نت گرفته شده است و برای آن معادل نامناسب ارایه گردیده است:

فاتحه‌چی (Adjective)

ویژگی آن که در مجالس ترحیم، هنگام ورود اشخاص، فاتحه بر زبان می‌آورد و به دست حضار گلاب می ریزد یا جزوات قرآن برای قرائت به حضار می‌دهد

"پیرمرد فاتحه چی روی دستمان گلاب ریخت و برایمان قرآن آورد"

 

 

WordNet

, prayer , supplication
the act of communicating with a deity (especially as a petition or in adoration or contrition or thanksgiving); “the priest sank to his knees in prayer”

 

در مورد فوق واژۀ فارسی واژه‌ای فرهنگی است که ریشه در مذهب دارد. این واژه به لحاظ معنایی با دسمعنای انگلیسی معادل نیست و به نظر می‌رسد نمونه‌ای از خلاء واژگانی فرهنگی در انگلیسی باشد که قابل انطباق با دسمعنایی در انگلیسی نمی باشد مگراینکه قالب یا طرحواره مربوطه به انگلیسی وارد شده و سپس دسمعنا قرض گرفته شود. همچنین دسمعناهای غسل غسل ارتماسی عرصه قبله قبله یاب نیز برای انطباق دچار  همین مشکل هستند.  

 

2- مشکل دیگر مواردی است که چند مدخل مجزا برای یک مفهوم واحد وجود دارد به عبارت دیگر گسترۀ معنایی معادل انگلیسی وسیعتر از مفهوم دسمعنای فارسی است. این مشکلی است که تحت شماره 2-آ بیان گردیده است و در شبکۀ اروپا با رابطۀ معادل-دارای-شامل انطباق یافته است. برای روشن شدن این قضیه به مثال زیر توجه فرمائید:

عمل آمدن٬ فرورده شدن٬ پرورده شدن٬ پرورش یافتن (Verb)

درست و آماده شدن ماده‌ای غذایی مانند ترشی، مربا و امثال آن

"می دانی مربای توت فرنگی عمل می آید؟"

 

WordNet

, cure
prepare by drying, salting, or chemical processing in order to preserve; “cure meats”; “cure pickles”; “cure hay”

 

دسمعنای انگلیسی فعل  که در این مدخل مشاهده می‌کنیم به معنای "انداختن موادی مثل ترشی یا گوشت را دودی کردن و..." می‌باشد و مثال هم دال بر همین موضوع است. مدخل زیر نمونۀ‌ دیگری از این موارد است:

 

عمل آمدن (Verb)

ساخته یا آماده شدن و به شکل دلخواه در آمدن

"چند ماه لازم است بگذرد تا ترشی به خوبی عمل بیاید"

 

WordNet

 

ظاهراً این مورد هم چیزی جدای از مدخل بالا نیست، حال آنکه دو مدخل متفاوت به آن‌ها اختصاص داده شده است. در مورد مدخل دوم، همان‌طور که مشاهده می‌شود، معادل انگلیسی هم پیشنهاد نشده است که شاید با رفع مشکل شرح داده شده (ادغام دو مدخل) این مسئله هم حل شود: اگر دو مدخل جدا هستند پس معانی آن‌ها باید تفاوت‌هایی داشته باشد و این موضوع در مثال هم منعکس شود و اگر این‌طور نیست بهتر است دو مدخل یکی شوند.

این مشکل ناشی از تفاوت در گسترۀ معنایی واژه‌های زبان‌های مبدأ و مقصد می‌باشد. در فارسی هر مفهوم با استفاده از واژه‌ای خاص بیان‌ می‌گردد که ناشی از استفاده تخصصی‌تر از واژه‌ها  می‌باشد. موارد دیگر که این تفاوت گستره در آن‌ها مشاهده شده است  عبارتند از: دسمعناهای عائله، نانخور- عاریتی- عبور ممنوع- عصاکش- قاضی القضات- قبا که در مجموع 8 مورد را به خود اختصاص می‌داد.

 

3- مشکل جدیدی که قابل افزودن به مشکلات یافت شده در بررسی انطباق شبکۀ‌واژگانی  رومانیایی با وردنت است عبارت از بعضی از موارد است که دسمعنا فارسی معادل انگلیسی دارد (یعنی خلاء واژگانی نیست) ولی این معادل در وردنت انگلیسی ثبت نشده است. به نمونۀ زیر برگرفته از وبگاه فارس‌نت توجه کنید:

غوره (Noun)

میوه‌ نارس انگور، دارای رنگ سبز و طعم ترش

"غوره‌ انگورهای بی دانه را برای آبگیری استفاده می‌کنند "

 

WordNet

, sour_grapes
disparagement of something that is unattainable

 

معادل انگلیسی این واژه sour grapes می‌باشد ولی در وردنت انگلیسی sour grapes در معنایی اصطلاحی به کار رفته است و با وجود موجود بودن این معادل در انگلیسی در وردنت ثبت نشده است. این مسئله باعث شده یا معادلی برای این موارد در فارس‌نت ذکر نگردد یا معادل ذکر شده صحیح نباشد. دسمعناهای فازمتر، فازسنج فوتبال دستی از دیگر موارد این نوع خلاء در پرینستون است. در مجموع 19 مورد از این مشکل در داده‌های بررسی شده یافت شد. 

 

4- مشکل مشاهده شدۀ دیگر  منطبق با مشکل شماره 2-ج  در چهاچوب نظری است. در برخی موارد، دسمعنا انگلیسی پیشنهادی در فارس‌نت فاقد اشکال است اما دسمعنا(ها‌ی) دیگری هم وجود دارند که قابل انطباق با آن هستند. این موارد در یورونت با عنوان معادل-نزدیک به مترادف با دسمعناهای پرینستون انطباق یافتند. در چنین مواردی جهت تکمیل نقص موجود، ضمن حفظ دسمعناهای انگلیسی ارائه شده در فارس‌نت، دسمعنا(های) جدید هم باید اضافه شوند. به نمونه‌های که برگرفته از وبگاه فارس‌نت است توجه نمائید:

عاشق بودن (Verb)

علاقه زیاد به چیزی داشتن

"او عاشق بستنی است."

 

WordNet

، love , enjoy
get pleasure from; “I love cooking”

همان‌طور که پیداست دسمعنا انگلیسی موجود در فارس‌نت درست است ولی مورد زیر را هم می‌توان به آن افزود:

love – (have a great affection or liking for; “I love French food”; “She loves her boss and works hard for him”)

یک نمونۀ دیگر از حرف "ق":

قدر دانستن٬ قدرشناسی کردن (Verb)

ارزش چیزی را دانستن

"قدر مادرت را بدان."

 

WordNet

, acknowledge , recognize , recognise
express obligation, thanks, or gratitude for; “We must acknowledge the kindness she showed towards us”

 

دسمعنای پیشنهادی فارس‌نت درست است ولی دسمعنای appreciate هم قابل افزودن است:

appreciate – (recognize with gratitude; be grateful for)

 

 مدخل‌های "فاش کردن، هویدا کردن، افشا کردن، آشکار کردن، نمایان ساختن"، "فتنه انگیز، فتنه گر"، "فتوت، جوانمردی"، "فداکاری، ایثار"، "قابل استناد، مستدل..."، "قابل دسترس"، "قابل چاپ"، "عادلانه"، "عاشقانه، عاشق وار،..." هم از این دست هستند. در مجموع 11 مورد از این اشکال یافت گردید.

 

5- مشکل دیگر مطابق با مشکل 3-ج مطرح شده در چهارچوب نظری است. دلیل بروز چنین اشکالاتی تفاوت در گستره معنایی واژگان دو زبان است: واژه‌ای در فارسی طیف وسیعی از معانی مرتبط را در بر می‌گیرد ولی برای اشاره به چنین طیفی در انگلیسی بسته به کلمات همایند[23] آن باید از واژگان متفاوتی استفاده کرد. این وضعیت عدم  تطابق میان کلمات دو زبان را divergent polysemy می‌‌گویند. در یورونت از رابطۀ معادل-نزدیک به مترادف استفاده گردیده است. به مثال زیر برگرفته از وبگاه فارس‌نت توجه کنید:

غلاف (Noun)

پوشش

"علی شمشیر را در غلاف فرو کرد."

 

WordNet

, shell , case , casing
the housing or outer covering of something; “the clock has a walnut case”

در فارسی برای چاقو، شمشیر، گیاه... از کلمۀ  "غلاف" استفاده می‌شود، حال آنکه در انگلیسی کلمات متفاوتی به کار می‌رود:

 

sheath – (a protective covering for a knife or sword)

 

scabbard – (a sheath for a sword or dagger or bayonet)

 

pod, cod, seedcase – (the vessel that contains the seeds of a plant (not the seeds themselves))

 

6- مشکل دیگر ناشی از تقسیم بندی ویژه زبان فارسی است که منجر به این مسئله می‌شود که دسمعناهای معادل آن‌ها در وردنت پرینستون یافت نشود مانند تقسیم علوم به نقلی و عقلی و ایجاد دو دسمعنای علوم عقلی و علوم نقلی. این مشکل را می‌توان با مشکل 3-آ در چهارچوب نظری یکسان دانست.

7- مشکل جدید در انطباق مربوط به مواردی است که دسمعنایی در وردنت مبدأ وجود ندارد و برای انطباق آن از واژه‌ی متضاد بهره‌گیری می‌شود مانند دسمعنای غیرعشایری که با استفاده از دسمعنای urban  انطباق داده شده است.

8- مشکل دیگر تفاوت در بیان یک مفهوم با مقوله‌های کلامی متفاوت است. بسیاری از صفات در انگلیسی با اسامی بیان می‌شود. مانند کلماتsteel  و iron یا silver که در فارسی هم با اسم و هم صفت بیان می‌گردند و تمایز دقیق بین مقوله‌ها منجر به مشکل انطباق می‌گردد. هرچند در وردنت برای silver هم مقولۀ اسم و هم صفت لحاظ شده ولی برای  steel و  iron  اینچنین نیست و این عدم یکدستی منجر به مشکل انطباق مقولۀ صفت گردیده است. در یورونت با استفاده از رابطۀ معادل-نزدیک به مترادف این موارد انطباق داده شده‌اند.

جدول 2 حاوی بسامد و درصد دسمعناهایی است که برای انطباق آن‌ها مشکلات فوق الذکر مشاهده گردید.

 

جدول 2- بسامد و درصد مشکل‌های یافت شده در نمونه

مشکل

اول

دوم

سوم

چهارم

پنجم

ششم

هفتم

هشتم

کل

بسامد

75

8

19

1

2

2

1

1

109

درصد مشکل در مجموع مشکل‌ها

69

7.3

17.4

0.9

1.8

1.8

0.9

0.9

100%

درصد مشکل نسبت به کل دسمعناهای نمونه (1552 دسمعنا)

4.45

0.47

1.12

0.06

0.12

0.12

0.06

0.06

6.46%

در قسمت بعد به پاسخگویی سوالات مطرح شده در این پژوهش پرداخته شده است.

 

6- بحث و نتیجه‌گیری

در این قسمت ضمن پاسخگویی به سوالات مطرح شده سعی بر ارائۀ راه‌حلهایی برای موارد ذکر شده است. هرچند در نمونۀ مورد بررسی همۀ  مشکلات مطرح شده در چهارچوب نظری قابل بررسی نبود (به علت عدم وجود برخی موارد ذکر شده) اما متداول‌ترین مشکل در نمونۀ مورد بررسی، خلاءهای واژگانی در زبان انگلیسی و خلاءهای واژگانی وردنت (دسمعناهای موجود در انگلیسی که هنوز در وردنت وارد نشده‌اند) بود. مشکلات موجود در انطباق فارس‌نت با وردنت در قسمتی شبیه به مشکلات مطرح شده در انطباق شبکۀ‌واژگانی رومانیایی (کریستیا و همکاران، 2004) با وردنت بوده است که این موارد در قسمت نتایج و در زیربخش‌های 1، 2، 4، 5 و 6 آورده شده و به قسمت‌هایی که در چهارچوب نظری با آن مشابه هستند اشاره گردیده است.

علاوه بر اینکه مشکلات جدیدی (در زیر بخش‌های 3، 7 و 8) نیز مطرح گردیدند که قابل بررسی در وردنت رومانیایی یا زبان‌های دیگر می‌باشند. در ادامه راه‌حلهای زیر برای برطرف نمودن بخشی از مشکلات پیشنهاد‌ می‌گردد:

1. اگرچه در فارس‌نت از رابطۀ نزدیک به معادل (near equivalent) و در یورونت از معادل-نزدیک به مترادف برای رابطۀ بین دسمعناهای شبکۀ مبدأ و وردنت استفاده گردیده است اما به نظر می‌‌رسد برای حل مشکل 1‌ می‌توان از انواع معادل‌ها بهره گرفت. مانند معادل کامل (در مواردی که خلاء ناشی از عدم درج برخی واژه‌هادر وردنت بوده است مانند مورد معادل غوره)، معادل نسبی(در مواردی که تناظر یک به یک بین دسمعنای فارسی و انگلیسی وجود ندارد ولی می‌‌توان آن‌ها را از جهاتی معادل نسبی دانست مانند غسل کردن و ablution که هر دو از جنبه مذهبی نوعی شستشو می‌‌باشند) ، معادل فرهنگی (برای مثال برای آش معادل فرهنگی soup لحاظ گردیده است)و معادل متقابل (برای این معادل به مواردی مانند غیرشهری که با  rural انطباق یافته می‌‌توان اشاره نمود) بهره گرفت. نکته دیگر این است که ظاهراً به نظر می‌رسد برای بعضی از خلاء‌های واژگانی فرهنگی نمی‌توان هیچ معادل نزدیک یا دور واژگانی شده‌ای یافت که به نظر می‌‌رسد ناشی از خلاء قالب[24] یا طرحوارۀ[25] مربوطه در زبان انگلیسی است که برای بیان آن گاهی نیاز است از قالبها یا طرحواره‌های مشابه استفاده نمود و سپس براساس آن‌ها مفهوم جدید را معرفی کرد مانند طرحواره‌های مربوط به عزاداری.

2. مشکل 2: به نظر‌ می‌رسد راه‌حل این مشکل برقراری روابط یک به چند بین وردنت مبدأ و مقصد است به عبارت دیگر چند دسمعنای فارسی با یک دسمعنای انگلیسی انطباق یابند. در یورونت از رابطۀ معادل-دارای-شامل استفاده گردیده است در مواردی که دسمعنای فارسی خاصتر است مانند دسمعناهای عائله، نانخور- عاریتی- عبور ممنوع- عصاکش- قاضی القضات- قبا می‌توان از معادل عام بهره گرفت به عبارت دیگر دسمعنای وردنت را معادل عامتر نامید که شبیه به رابطۀ مورد استفاده در یورونت است. 

3. راه‌حل پیشنهادی برای مشکل 3 یافتن معادل مناسب برای آن در زبان انگلیسی و ثبت آن در فارس‌نت با برچسبی مانند خلاء وردنت است و سپس این موارد را‌ می‌توان به سازندگان وردنت گزارش نمود مانند معادلهای فازمتر که عبارتند از{test light, test lamp, voltage tester, mains tester}  و فوتبال دستی { table football, foosball, fussball}.

4. راه‌حل پیشنهادی برای مشکل 4 نیز افزدن امکان رابطۀ یک به چند بین دسمعنای فارسی و دسمعناهای انگلیسی است که در یورونت با رابطۀ معادل-نزدیک به مترادف انطباق یافته‌اند. به نظر می‌رسد این مسئله ناشی از دسمعناهای با تفاوت‌های جزئی در وردنت است که این تفاوت‌ها در زبان فارسی ممیز‌ نمی‌باشند.این رابطه را می‌توان معادل خاصتر نامید. برای مثال برای انطباق دسمعنای {سخاوت، بخشندگی، گشاده دستی، ...} معادل  {generosity , generousness} با تعریفthe trait of being willing to give your money or time آورده شده است . اما آن را با دسمعناهای دیگر وردنت که عبارتند از {generosity , unselfishness}  با تعریف  acting generously و{munificence, largess, largesse, magnanimity, openhandedness}   با تعریف liberality in bestowing gifts; extremely liberal and generous of spirit می‌‌توان انطباق داد.

5. مشکل 5: راه‌حل پیشنهادی برای این مشکل نیز ارتباط  یک به چند بین دسمعناهاست که یک معادل برای دسمعناهای متفاوت به کار‌ می‌رود و ناشی از کلمات همایند با آرگومان متفاوت در دسمعناهاست. در یورونت از رابطۀ معادل-نزدیک به مترادف استفاده گردید که در فارس‌نت آن را می‌‌توان معادل همایندی نامید.

6. مشکل 6: به نظر‌ می‌رسد برای این موارد نمی‌توان معادلی یافت.آن‌ها را می‌‌توان خلاء طبقه‌بندی نامید. مانند تقسیم اسلحه به سرد و گرم در فارس‌نت که در انگلیسی معادلی ندارد.

7. مشکل 7: با توجه به اینکه در ترجمه یکی از فنونی که مترجم‌ می‌تواند از آن بهره گیرد استفاده از کلمات متضاد‌ می‌باشد، در برخی موارد از این فن‌ می‌توان در انطباق بهره گرفت هرچند یافتن معادل‌های واژگانی‌‌‌شده از پیش نیازهای ساخت شبکۀ‌واژگانی است. مسئله این است که همۀ متضادها ضرورتا متقابل نیستند، به نظر‌ می‌رسد این نوع انطباق را‌ می‌توان تنها برای متقابل‌های غیر مدرج (non-gradable antonyms) استفاده نمود. این رابطه را می‌‌توان معادل- متضادمنفی نامید. برای مثال دسمعنای غیرعشایری را می‌‌توان با urban و rural منطبق نمود.

8. مشکل 8: راه‌حل این مشکل انطباق بین مقوله‌ای است که افزودن این امکان به فارس‌نت باعث پویایی بیشتر‌ می‌گردد. در یورونت این رابطۀ معادل-نزدیک به مترادف نامیده شده است که در فارس‌نت آن را می‌‌توان معادل بین مقوله‌ای نامید. 

با مرور روابط مطرح شده در یورونت جهت انطباق دسمعناهای دارای مشکل، قابل مشاهده است که در چهار مورد از رابطۀ معادل-نزدیک به مترادف استفاده شده است. به نظر‌ می‌رسد این راه‌حل‌ها بتوانند بخشی از مشکلات انطباق را حل نمایند، هرچند برای بررسی همۀ مشکلات مطرح شده در پژوهش بر روی شبکۀ‌واژگانی رومانیایی نیازمند بررسی کلیه دسمعناهای فارس‌نت و وردنت است که در پژوهشی محدود‌ نمی‌گنجد و نیازمند طرحی ملی است. اما می‌‌توان در انطباق بین شبکه‌‌های‌واژگانی از روابط دقیقتری مانند معادل عامتر، معادل خاصتر، معادل همایندی, معادل بین مقوله‌ای استفاده نمود. نتایج این پژوهش در تکمیل اطلاعات فارس‌نت‌ می‌تواند بکار گرفته شود و همچنین در طراحی و ایجاد شبکه‌‌های‌واژگانی تخصصی مورد استفاده قرار گیرد.[1] wordnet

[2] Synset or synonym set

[3]synonymy

[4] antonymy

[5] hyponymy

[6] meronymy

[7]entailment

[8] troponym

[9] cause

[10] Also see

[11] Derived from

[12] attribute

[13] Relational adjective

[14]Similar to

[15] participle

[16] http:// www.globalwordnet.org/gwa

[17] http://nlp.sbu.ac.ir/farsnet

[18] شامل‌های غیر ممیز عبارتند از دسمعناهایی یکسان که با توجه به آن‌ها نمی توان بین دسمعناهای زیرشمول آن‌ها تمایز قائل شد. برای مثال کریستیا و همکاران (2004: 133) به معانی (7) و (10)snap  اشاره می‌‌نمایند که دارای دسمعنای یکسانmove  به عنوان شامل می‌‌باشند و بنابراین نمی‌توان با استفاده از این رابطۀ شمولیت بین معانی آن‌ها تمایز قایل شد.  

snap(7) -- (move with a snapping sound; "bullets snapped past us")

snap(10), click, flick -- (cause to make a snapping sound; "snap your fingers")

move -- (move so as to change position, perform a nontranslational motion; "He moved his hand slightly to the right").

[19] clashing

[20] http://nlp.sbu.ac.ir/farsnet

[21] Lexical gap

[22] در شبکۀ اروپا خلاءها به دو نوع فرهنگی (مفهومی که در فرهنگ انگلیسی یا پرینستون موجود نیست) و کاربردشناختی (ناشی از تفاوت‌های واژگانی‌شدگی بین دو زبان است؛ به عبارت دیگر، مفهوم وجود دارد، اما با یک صورت واژگانی واحد بیان نمی‌گردد) تقسیم شدند.

[23] collocations

[24] frame

[25] script

حسابی، اکبر و عاصی، سید مصطفی و شمس فرد مهرنوش و عرب یارمحمدی، مهسا (1388). "طراحی و ایجاد شبکۀ‌واژگانی  اسامی زبان فارسی". مجله بین‌المللی ارتباطات و فناوری اطلاعات. جلد یکم. ش 3. صص 1-13.
حسابی، اکبر (1394). "واژه‌های ویژه زبان فارسی؟: خلأهای موجود در انطباق واژگانی فارس‌نت با شبکۀ‌واژگانی  پرینستون (وردنت)". جستارهای زبانی. دوره6. ش 6. صص 75-103.
فامیان‌، علی رضا قلی (1386). بررسی و تحلیل روابط معنایی صفت برای طراحی شبکه‌ واژگانی‌ صفات زبان فارسی. رساله‌ دکتری زبان‌شناسی همگانی. تهران. دانشگاه تربیت مدرس.
منصوری، نیلوفر (1387). بازنمایی معنایی افعال مرکب در وردنت فارسی . رساله‌ دکتری زبان شناسی همگانی. تهران. دانشگاه تهران.
Bentivogli, L., Pianta, E. and Pianesi, F. (2000). “Coping with lexical gaps when building aligned multilingual WordNets”. In: Proceedings of LREC 2000. Athens. Greece. pp: 12-20.
Cristea, D., Mihaila, C., Forascu, C., Trandabar, D., Husarcus, M., Haja, G. and Postolache, O. (2004) “Mapping Princeton WordNet Synsets onto Romanian Wordnet Synsets,” Romanian Journal of Information Science and Technology, 7)1-2(,125-145.
Famian, A. and Aghajani, D. (2007) “Towards Building a WordNet for Persian Adjectives,” Proceedings of the 3rd Global WordNet conference. Korea. pp: 307-308
Fellbaum, C. (ed.) (1998) WordNet: An Electronic Database. Cambridge, MIT press.
Fellbaum, C. and Vossen, P. (ed.) (2012) Proceedings: GWC2012 6th International Global WordNet Conference. Matsue, Japan.
Hesabi, A. (2009) Designing and Developing the Persian Noun WordNet. Unpublished PhD dissertation. Tehran. Allameh Tabatabai University.
Keyvan, F., Borjan, H., Kasheff, M. and Fellbaum, C. (2007) “Developing PersiaNet: the Persian Word-Net,” Proceedings of the 3rd Global WordNet conference. Korea. pp: 315-318.
Mansoory, N., Shamsfard,  M. and Rouhizadeh, M. (2011) “Compound verbs in Persian WordNet.” International Journal of lexicography. 1-18.
Orav, H., Fellbaum, C., and Vossen, P. (ed.) (2014) Proceedings of the Seventh Global WordNet Conference. Tartu, Estonia.
Rouhizadeh, M., Shamsfard, M. and  Yarmohammadi, M. (2008) “Building  a WordNet for Persian Verbs” A. Tanács, D. Csendes, V. Vincze, Ch. Fellbaum, P. Vossen (eds.) In: Proceedings  of  the  Fourth Global WordNet Conference, Szeged, Hungary. pp: 406-412.
Shamsfard, M., Hesabi, A., Fadaei, H., Mansoory, N., Famian, A., Bagherbeigi, S., Fekri, E., Monshizadeh, M. and Assi, M. (2010) “Semi Automatic Development of FarsNet; The Persian WordNet”,  The fifth Global WordNet conference. India. pp: 413-418
Vossen, P. ( 2002) EuroWordNet: General Document. Netherland, University of Amsterdam. Version 3, Final, July 1, 2002. http://hdl.handle.net/1871/11116.