روابط عمومی دانشگاه شیراز
سه شنبه ۲۵ مهر ۱۳۹۶
دستاورد جديد پژوهشگران زبان‌شناسي دانشگاه شيراز
نخستين پيكرهٔ به‌روزشونده در زبان فارسي
 
پژوهشگران زبان‌شناسي دانشگاه شيراز براي نخستين بار پيكره‌اي را براي متون فارسي ايجاد كرده‌اند كه هر روز به صورت خودكار و متوازن به‌روزرساني مي‌شود.
دكتر اميرسعيد مولودي، عضو هيئت علمي بخش زبان‌هاي خارجي و زبان‌شناسي دانشگاه شيراز و مدير پروژهٔ پيكرهٔ به‌روزشونده با بيان اينكه در اين پيكره استانداردهايي رعايت شده است كه پيش از اين در تهيهٔ پيكره‌هاي زبان فارسي مغفول مانده بود گفت: اين پيكره و جستجوگر آن ابزار پژوهشي مهمي براي تحقيقات زبان‌شناسي و ساير حوزه‌هاي علوم انساني است و علاوه بر اين براي اهداف پردازشي زبان فارسي نيز مي‌تواند مورد استفاده قرار گيرد.
وي افزود: ايدهٔ اوليهٔ اين طرح حدود دو سال پيش شكل گرفت و پس از انجام مراحل مطالعاتي در سال ۱۳۹۵، پياده‌سازي فاز نخست آن با تمركز بر متون خبري آغاز شد و ان‌شاءالله رونمايي از اين پيكره، مطابق برنامه‌ريزي‌هاي انجام‌گرفته، در هفتهٔ پژوهش امسال در آذرماه انجام خواهد شد.
مدير پروژهٔ پيكرهٔ به‌روزشونده با اشاره به اين نكته كه امروزه از پيكره‌هاي زباني تقريباً در تمامي حوزه‌هاي علوم انساني به طور عام و مطالعات زباني به طور خاص استفاده مي‌شود، گفت: بحث به‌روز بودن، توازن و نماينده بودن سه ويژگي مهم براي كارآمدي پيكره‌هاي زباني است كه در پروژۀ حاضر مورد توجه قرار گرفته است؛ بنابراين پيكرۀ حاضر از اين حيث كه تنوعات زباني را با انتخاب داده از ژانرهاي مختلف پوشش مي‌دهد، داده به ميزان مساوي از هر ژانر انتخاب مي‌شود و اينكه هر روز داده‌هاي آن افزايش مي‌يابد به‌ترتيب برخوردار از سه ويژگي نماينده‌ بودن، توازن و به‌‌روزشوندگي است. به‌روزشونده بودن پيكرۀ حاضر به پژوهشگر اين امكان را مي‌دهد كه بتواند تغييرات زباني و حتي فرهنگي-جامعه‌شناختي را با استفاده از آن بررسي و تحليل نمايد. وي همچنين خاطرنشان كرد كه در فاز نخست اين پروژه، هر روز متون خبري به صورت متوازن از ۶ حوزهٔ موضوعي و از خبرگزاري‌هاي مختلف به پيكره اضافه مي‌شود.
همچنين مرتضي رضائي شريف‌آبادي، دانشجوي دكتري زبان‌شناسي دانشگاه شيراز و مسئول فني پروژه با بيان اينكه مراحل اجرايي كار با همكاري تيمي قوي از مهندسان نرم‌افزار و با بهره‌گيري از جديدترين فناوري‌ها انجام شده است گفت: علاوه بر امكان دريافت دادهٔ پيكره، علاقه‌مندان مي‌توانند براي كاوش در پيكره از ابزار جستجوي برخط تهيه‌شده استفاده كنند.
وي افزود: تمام متون پيكره به صورت خودكار نرمال‌سازي و ريشه‌يابي مي‌شوند و برچسب اجزاي كلام به واژه‌هاي آن‌ها اختصاص مي‌يابد و براي توازن متون در سطح موضوع و زيرموضوع و همچنين توازن زماني نيز از روشي ابتكاري استفاده شده است.
آقاي رضائي تصريح كرد : هم‌اكنون پيكرهٔ به‌روزشونده و ابزار جستجوگر آن به صورت آزمايشي و با دسترسي محدود راه‌اندازي شده است .
گفتني است يكي از مهم­ترين گام ها در طراحي و ساخت سيستم هاي بازشناسي گفتار پيوسته با دايرۀ لغات بزرگ (LVCSR)، تعليم مدل زباني (Language Model) براي مدل كردن نحوۀ توالي كلمات در يك زبان خاصّ است. براي انجام چنين كاري، داشتن مقادير بسيار زيادي از دادگان متني (Text) از آن زبان همراه با برچسب هاي لازم ضروري است. از طرفي در بسياري از پروژه هاي تحقيقاتي در زمينۀ پردازش زبان طبيعي (Natural Language Processing)، چنين دادگاني مورد نياز است.
پيكره مجموعه‏اي از پاره‏هاي زباني است كه انتخاب و براساس معيارهاي زباني روشني مرتب مي‏شوند به ‏نحوي كه همچون نمونه‏اي از زبان به كار گرفته مي‏شوند.
پيكره شامل متن هاي پيوستة طبيعي است كه مي‏توان از آن اطلاعاتي دربارة عناصر زباني، هم واژگاني هم غيرواژگاني (مانند سبك، نقطه‏گذاري، دستور، گونة كاربردي)، به‏دست آورد.
كشف واژه‏هايي خاص يا كاربردهايي خاص از آنها در پيكره‏اي از متن هاي معتبر كه متخصصان هر زمينۀ موضوعي آن را نوشته‏اند، بسيار ارزشمند است زيرا نشان مي‏دهد اگرچه همه واژه‏ها در فرهنگ‏هاي لغت ظاهر مي‏شوند، در بافت‏هايي خاص نمي‏توان از آنها استفاده كرد، حتي اگر جمله به لحاظ دستوري درست باشد.

   تاریخ: ۱۵:۵۰ - ۰۳/۰۷/۱۳۹۶   بازدید: ۷۷۴

نظرات کاربران

نظر شما:
نام: *
ایمیل:
متن: *

(۳۰۰ کاراکتر)