النشر الحديث والالكتروني

الاثنين، 17 مايو 2010

التكشيف الآلي بناءً على تكرار تردد المصطلحات:-

إن معظم جهود التكشيف الآلي تتفق على أن مدى تكرار تردد الكلمات في نصوص اللغة الطبيعية دلالة على أهمية هذه الكلمات لأغراض التعبير عن المضمون .
وعندما يكون النص في شكل قابل للتداول بواسطة الحاسوب يستخدم عدد من البرامج البسيطة التي تقوم بمقارنة النص بقائمة استبعاد Stop List تشتمل على الكلمات النحوية أو الوظيفية لاستبعاد الكلمات التي لا تحمل دلالة موضوعية ومن ثم إحصاء عدد مرات تردد الكلمات التي لها دلالة موضوعية وترتب تنازلياً وفقاً لعدد مرات ترددها في النص، وتعد الكلمات التي ترد على القمة هي الكلمات التي اختيرت لتكون مصطلحات كشفية للوثيقة، ويمكن تحديد عدد المصطلحات الكشفية لكل وثيقة بناء على معايير محتملة، كتحديد عدد يتناسب وطول النص، أو الاكتفاء بالكلمات التي يزيد عدد مرات تكرارها عن حد معين، وكذلك يمكن إحصاء تكرار العبارات، حيث يمكن تكشيف الوثائق بالجمع بين الكلمات والعبارات.
وهناك مشاكل تنجم عن تعدد الأشكال النحوية للكلمات، وللتغلب عليها يمكن الاعتماد على برامج تتعامل مع جذور الكلمات، أي تجريد الكلمات من الصدور حيث يمكن استبعاد كواسع معينة من الكلمات مثال ذلك استبعاد ing ، ed، ...وغيرها.
أما في اللغة العربية فإن نظم التحليل الصرفي أو التجريد ما تزال في مراحلها المبكرة، وقد لاقت مؤيدين ومعارضين في إدخال الحركات في معالجة الكلمات العربية وانعكس هذا الانقسام إلى تطوير خوارزميات التحليل الصرفي في اللغة العربية، وليس التكشيف.
وقد كان استرجاع المعلومات سبباً من أسباب تطوير هذه الخوارزميات ولكنه كان الهدف الأساسي لتطوير أساليب العربية.
وأجريت بعض التجارب في هذا السياق تهدف إلى دراسة التكشيف واسترجاع البيانات الو رقية العربية وخلصت هذه الدراسة إلى النتائج الآتية :-
أن استعمال جذور الكلمات وجذوع الكلمات مصطلحاتِ كشفيةً يسفر عن نتائج أفضل.
ومن عيوب الاعتماد على تكرار الكلمات، أن الكلمات التي تتكرر كثيراً في وثيقة ما، لا تكون بالمصطلح المميز الذي يعبر عن الوثيقة، ويمكن لهذا المصطلح أن يتكرر كثيراً في مرصد بيانات ككل وليس في وثيقة بعينها.

0 تعليقات:

إرسال تعليق

الاشتراك في تعليقات الرسالة [Atom]



<< الصفحة الرئيسية