آزمايش‌هايي درباره تأثير تحليل گفتمان بر الگوريتم‌هاي رده‌بندي و بازيابي اطلاعات

فصلنامه علوم اطلاع‌رساني. دوره 20

شمارهء 1 و 2  (پاييز و زمستان 1383) صفحه: 67-95

 
جي. موراتو، جي. لورنس، ج..جنوا، جي. ا.موريرو
ترجمه محمدعلي ايمان‌پور
كارشناس ارشد اديان و عرفان دانشگاه تهران

 

 چكيده
پژوهشگران نظام‌هاي نمايه‌سازي و بازيابي، به‌منظور بهبود نتايج [جستجو]، همواره از گنجاندن اطلاعات بافتاري بيشتر، پشتيباني كرده‌اند. افزايش شمار پايگاه‌هاي اطلاعاتي متن كامل و پيشرفت‌هاي به دست آمده در ظرفيت ذخيره‌سازي رايانه‌اي، تحليل متن را با بهره‌گيري از دانش زبان‌شناسي و فرا- زبان‌شناسي امكان‌پذير ساخته است. از ميانه دهه 1980، پژوهشگران توجه و گرايش بيشتري به بافتار پيدا كرده‌اند، و تحليل گفتمان نقش مهم‌تري يافته است. هدف پژوهش توصيف شده در اين مقاله، بررسي اين مسئله است كه آيا متغيرهاي گفتمان، بر الگوريتم‌هاي نوين بازيابي و رده‌بندي اطلاعات اثر مي‌گذارند يا نه. به‌منظور ارزيابي اين فرضيه، چارچوبي عملي براي تحليل اطلاعات در محيطي خودكار پيشنهاد شده است. در اين محيط، ان‌ـ گرام‌ها[4] (فيلتركردن) و  كي‌ـ مينز (ميانگين عددkا) و الگوريتم‌هاي رده‌بندي  و چن با زيرمجموعه‌هايي از مدارک، برپايه متغيرهاي گفتماني «گونه»، «سياق»، «اصطلاح‌شناسي حوزه» و «ساختار مدرک» مورد آزمون قرار گرفتند. نتايج حاصل از مطالعه الگوريتم‌هاي زيرمجموعه‌هاي مختلف، با ساختار اطلاعات « سرعنوان‌های موضوعی پزشکي» (مِش) مقايسه شد. اين نتايج نشان مي‌دهد كه ان‌ـ گرام‌ها وابستگي واضحي به متغيرهاي گفتمان ندارند؛ هرچند كه الگوريتم رده‌بندي كي‌ـ مينز چنين وابستگي را، البته فقط در «اصطلاح‌شناسي حوزه» و «ساختار مدرک» نشان مي‌دهد، و سرانجام اين‌كه «الگوريتم چن» وابستگي مشخصي به همه متغيرهاي گفتمان دارد. از اين اطلاعات مي‌توان براي طراحي بهتر الگوريتم‌هاي رده‌بندي كه بايد متغيرهاي گفتمان را مورد توجه قرار دهند، استفاده كرد. نتايج فرعي ديگري نيز از اين پژوهش حاصل شده است كه در مقاله ارائه مي‌گردد.


كليدواژه‌ها: الگوي گفتمان/ تحليل بافتار/ زبان‌شناسي رايانه‌اي/ روش‌هاي تحليل متن/ فيلتركردن/ ان –گرام‌ها/ كي – مينز/ هم- عبارت‌سازي[9]
 

Zip    

  PDF HTML