![]()
|
آزمايشهايي درباره تأثير تحليل گفتمان بر الگوريتمهاي ردهبندي و بازيابي اطلاعات |
فصلنامه علوم اطلاعرساني. دوره 20
شمارهء 1 و 2 (پاييز و زمستان 1383) صفحه: 67-95
جي. موراتو، جي. لورنس، ج..جنوا، جي. ا.موريرو
ترجمه محمدعلي ايمانپور
كارشناس ارشد اديان و عرفان دانشگاه تهران
چكيده
پژوهشگران نظامهاي نمايهسازي و بازيابي، بهمنظور بهبود نتايج [جستجو]،
همواره از گنجاندن اطلاعات بافتاري بيشتر، پشتيباني كردهاند. افزايش شمار
پايگاههاي اطلاعاتي متن كامل و پيشرفتهاي به دست آمده در ظرفيت ذخيرهسازي
رايانهاي، تحليل متن را با بهرهگيري از دانش زبانشناسي و فرا- زبانشناسي امكانپذير ساخته است. از ميانه دهه 1980، پژوهشگران توجه و گرايش بيشتري به بافتار
پيدا كردهاند، و تحليل گفتمان نقش مهمتري يافته است. هدف پژوهش توصيف شده در اين
مقاله، بررسي اين مسئله است كه آيا متغيرهاي گفتمان، بر الگوريتمهاي نوين بازيابي
و ردهبندي اطلاعات اثر ميگذارند يا نه. بهمنظور ارزيابي اين فرضيه، چارچوبي عملي
براي تحليل اطلاعات در محيطي خودكار پيشنهاد شده است. در اين محيط، انـ گرامها[4]
(فيلتركردن) و كيـ مينز (ميانگين عددkا)
و الگوريتمهاي ردهبندي و چن با زيرمجموعههايي از مدارک، برپايه متغيرهاي
گفتماني «گونه»، «سياق»، «اصطلاحشناسي حوزه» و «ساختار مدرک» مورد آزمون
قرار گرفتند. نتايج حاصل از مطالعه الگوريتمهاي زيرمجموعههاي مختلف، با ساختار
اطلاعات « سرعنوانهای موضوعی پزشکي» (مِش) مقايسه شد. اين نتايج نشان ميدهد كه
انـ گرامها وابستگي واضحي به متغيرهاي گفتمان ندارند؛ هرچند كه الگوريتم ردهبندي
كيـ مينز چنين وابستگي را، البته فقط در «اصطلاحشناسي حوزه» و «ساختار مدرک» نشان
ميدهد، و سرانجام اينكه «الگوريتم چن» وابستگي مشخصي به همه متغيرهاي گفتمان
دارد. از اين اطلاعات ميتوان براي طراحي بهتر الگوريتمهاي ردهبندي كه بايد
متغيرهاي گفتمان را مورد توجه قرار دهند، استفاده كرد. نتايج فرعي ديگري نيز از اين
پژوهش حاصل شده است كه در مقاله ارائه ميگردد.
كليدواژهها: الگوي گفتمان/ تحليل بافتار/ زبانشناسي رايانهاي/ روشهاي
تحليل متن/ فيلتركردن/ ان –گرامها/ كي – مينز/ هم- عبارتسازي[9]