مقاله رایگان درمورد سلسله مراتب

ک های داده کاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویس‌های وب می‌باشد.
البته تکنیک‌های وب‌کاوی تنها ابزار موجود برای حل این مشکلات نیستند. بلکه تکنیک‌های مختلفی از سایر زمینه‌های تحقیقاتی همچون پایگاه داده‌ها، بازیابی اطلاعات، پردازش زبان طبیعی و غیره قابل استفاده در این زمینه می‌باشند. همچنین تکنیک‌های وب‌کاوی می‌توانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند. منظور از رویکرد مستقیم آن است که کاربرد تکنیک‌های وب‌کاوی به صورت مستقیم مشکلات مطرح شده را حل می‌نماید. یک عامل گروه خبری که مرتبط بودن یک خبر به یک کاربر را تعیین می‌کند، مثالی از این رویکرد می‌باشد. اما در رویکرد غیر مستقیم، تکنیک‌های وب‌کاوی به عنوان بخشی از یک روش جامع‌تر که به حل این مشکلات می پردازد، مورد استفاده قرار می‌گیرند.
3-2- مراحل وب کاوی
وب کاوی شامل چهار مرحله اصلی می باشد:
1. پیدا کردن منبع: این مرحله شامل بازیابی اسناد وب مورد نظر می‌باشد.
2. انتخاب اطلاعات و پیش‌پردازش: در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیش‌پردازش می‌شوند.
3. تعمیم : در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف می‌شود.
4. تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر می‌شوند.
در مرحله اول داده‌ها از منابع موجود در وب مانند خبرنامه‌های الکترونیکی، گروه‌های خبری، اسناد HTML، پایگاه داده‌های متنی و غیره بازیابی می‌شوند. مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده‌های بازیابی شده در مرحله قبل می‌باشد. این پیش‌پردازش می‌تواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده‌ها به قالب رابطه‌ای یا منطق مرتبه اول باشد. در مرحله سوم، از تکنیک‌های داده‌کاوی و یادگیری ماشین برای تعمیم استفاده می‌شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراج اطلاعات و دانش از وب ایفا می‌کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.
به این ترتیب وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده‌های وب می‌باشد. این فرآیند به طور ضمنی شامل فرآیند کشف دانش در پایگاه داده‌ها (KDD) نیز می‌شود. در واقع وب‌کاوی گونهی توسعه یافته KDD است که بر روی داده‌های وب عمل می‌کند.
3-2-1- انواع وب‌کاوی
روش‌های وب‌کاوی بر اساس آن که چه نوع داده‌ای را مورد کاوش قرار می‌دهند، به سه دسته تقسیم می‌شوند:
1. کاوش محتوای وب: کاوش محتوای وب فرآیند استخراج اطلاعات مفید از محتوای مستندات وب است. محتوای یک سند وب متناظر با مفاهیمی است که آن سند در صدد انتقال آن به کاربران است. این محتوا می‌تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست‌ها و جداول باشد. در این میان کاوش متن بیش از سایر زمینه‌ها مورد تحقیق قرار گرفته است. از جمله این تحقیقات می‌توان به تشخیص موضوع، استخراج الگوهای ارتباط ، خوشه‌بندی و طبقه‌بندی اسناد وب اشاره کرد. روش‌ها و تکنیک‌های موجود در این گروه، از تکنیک‌های بازیابی اطلاعات و پردازش زبان طبیعی نیز استفاده می‌کنند.
2. کاوش ساختار وب : وب را می‌توان به صورت گرافی که گره‌های آن اسناد و یال‌های آن پیوندهای بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرآیند استخراج اطلاعات ساختاری از وب می‌باشد.
3. کاوش استفاده از وب : کاوش استفاده از وب، کاربرد تکنیک‌های داده‌کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می‌باشد. این نوع از وب‌کاوی، داده‌های مربوط به استفاده کاربران از وب را مورد کاوش قرار می‌دهد.
باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیک‌های کاوش محتوای وب می‌توانند علاوه بر به کارگیری متن مستندات، از اطلاعات کاربران هم استفاده کنند. همچنین می‌توان از ترکیب تکنیک‌های فوق برای حاصل شدن نتایج بهتر استفاده کرد.
3-3- شخصی‌سازی وب
هر اقدامی که اطلاعات یا سرویس‌های فراهم شده توسط یک وب‌سایت را با نیازهای یک کاربر یا گروه خاصی از کاربران با به کارگیری دانش بدست آمده از رفتار گردشی کاربر و علایق خاص او به صورت ترکیب با محتوا و ساختار وب‌سایت سازگار می‌کند، شخصی‌سازی وب نامیده می‌شود (Eirinaki, 2003).
هدف یک سیستم شخصی‌سازی وب عبارت است از فراهم کردن اطلاعات دلخواه یا مورد نیاز کاربران بدون درخواست صریح آن‌ها.
با شخصی‌سازی وب، دسترسی به محتویات از صفحات وب و یا اصلاح محتویات وب، بهتر و با توجه به خواسته هر کاربر می‌تواند انجام شود. این امر ممکن است شامل ایجاد صفحات وب جدید باشد که هر کاربر با درخواست خود می‌تواند اسنادی از وب را بازیابی کند. شخصی‌سازی می‌تواند به‌عنوان نوعی از خوشه‌بندی، دسته‌بندی و یا حتی پیش‌بینی دیده شود. در دسته‌بندی، خواسته‌های کاربر براساس کلاس‌ها تعیین می‌شود. از طریق خوشه‌بندی، خواسته‌های تعیین شده براساس کاربرانی که خواسته‌های مشابه دارند، تعیین می‌شود. در نهایت، پیش‌بینی برای این مورد که کاربران چه چیزی واقعاً می‌خواهند ببینند، به کار می‌رود.
3-3-1- دلایل نیاز به شخصی‌سازی وب
دلایل نیاز به شخصی‌سازی وب را می‌توان بصورت زیر بیان کرد:
1. گرانبار شدن اطلاعات: وب جهانی منبعی عظیم از اطلاعات را فراهم آورده است. در بررسی‌های گوناگون انجام شده در زمینه‌ی گسترش وب تخمین زده شده است که روزانه بیش از یک میلیون صفحه به وب اضافه می‌شود و بیش از 600 گیگابایت از صفحات در هر ماه تغییر می‌کنند (Nasraoui, & et. Al., 2008) و (Achananuparp, & et. al., 2007). این پدیده که گرانبار شدن اطلاعات نامیده می‌شود مشکلاتی را برای کاربران وب بوجود آورده است.از مهم‌ترین این مشکلات عدم دسترسی آسان به اطلاعات مورد نیاز می‌باشد.
2. نیاز به جذب مشتری پابر‌جای برای وب‌سایت: ظهور سرویس‌های مبتنی بر وب مانند تجارت الکترونیکی، یادگیری تحت وب و بانکداری الکترونیکی موجب تغییرات اساسی در روش استفاده از اینترنت شده است و وب‌سایت ها را به محیطی برای تجارت تبدیل کرده است و موجب افزایش رقابت بین آن‌ها شده است. با وجود رقبایی که تنها یک کلیک از وب‌سایت مورد نظر فاصله دارند نیاز به افزودن خدمات اضافی به سرویس‌های وب به عنوان لازمه‌ی ایجاد مشتری پابرجای به وضوح احساس می‌شود. این خدمات اضافی تنها با تمرکز بر نیازها و علایق فردی مشتریان و فراهم کردن سرویس‌ها و محصولات متناسب با آن‌ها امکان‌پذیر است.
3-3-2- مراحل شخصیسازی وب
در سیستم شخصی‌سازی وب، انواع مختلفی از کارها می‌تواند اجرا شود. این تابع‌ها یا کارها تعدادی از نیازها را در سیستم شخصی سازی وب برآورده می‌کند که هدفش توسعه سیستم قدرتمند و انعطاف‌پذیر است ( شکل 2-1). در ادامه لیستی از نیازهای کلی برای شخصی سازی وب ارائه می‌شود.
شکل 3- 1: فرآیند شخصی سازی وب
3-3-2-1- جمع‌آوری داده
اولین مرحله در پروسه شخصی‌سازی وب، جمع‌آوری داده‌های مرتبط از طریق وب است که برای آماده کردن اطلاعات مفید از رفتار کاربران تحلیل می‌شود. دو منبع اصلی از داده برای کندوکاو وب وجود دارد: داده‌های روی وب سرور و داده‌های طرف کاربر. در وب سرور، داده‌ها جمع‌آوری می‌شوند و در فایل‌های لاگ ذخیره می‌شوند. این داده‌ها شامل انواع مختلفی از لاگ‌های تولید شده با استفاده از وب سرور است. این لاگ‌ها، صفحات وب ملاقات شده بوسیله کاربران را ثبت می‌کند. اکثر وب سرور‌ها به‌عنوان یک گزینه پیش‌فرض از فرمت فایل لاگ نگهداری می‌شود که شامل اطلاعاتی درباره آدرس IP مشتری که درخواست داده، نام میزبان، نام کاربری، زمان درخواست کاربر، اسم فایلی که درخواست کرده و اندازه فایل است.
ابزارهای وب کاوی از فایل‌های لاگ وب سرور به‌عنوان منبع اصلی داده برای کشف الگوهای مفید استفاده می‌کند. اما فایل‌های لاگ نمی‌تواند همیشه منبع قابل اعتماد از اطلاعات، درباره یک سایت باشد. داده‌های خوب و مفید یک مسئله جدی و مهم در شخصی‌سازی وب است که برای شناسایی کاربران به منظور کشف نیازها و علاقه‌مندی‌های آنها مورد استفاده قرار می‌گیرد.
داده طرف کاربر از هاست یا میزبان که در وب سایت قابل دسترس است، جمع‌آوری می‌شود. یکی از روش‌های رایج برای بدست آوردن داده‌های طرف کاربر، فرستادن یک مأمور یا عامل اطلاعاتی از راه دور است، که با جاوا یا جاوا اسکریپت پیاده‌سازی می‌شود. این عامل اطلاعاتی در صفحات وب جاسازی می‌شود. جاوا برای جمع‌آوری اطلاعات به طور مستقیم از سمت کاربر مورد استفاده می‌شود، برای مثال زمان که کاربر به صفحه وب دسترسی پیدا می‌کند یا صفحه وب را ترک می‌کند، لیستی از سایت‌های ملاقات شده قبل و بعد از سایت جاری و تاریخچه گشت و گذار کاربران جمع‌آوری و ذخیره می‌شوند. داده‌های طرف کاربر قابل اعتمادتر از داده‌های طرف سرور هستند.
3-3-2-2- پردازش داده
پیش‌پردازش داده‌ها یک پروسه پیچیده در داده‌کاوی است. پیش‌پردازش داده‌ها شامل از بین بردن و کاهش داده‌های نامرتبط، حذف نویز ، تبدیل و رمزگذاری داده‌ها و رفع هر گونه ناسازگاری است. تبدیل داده و رمزگذاری داده‌ها، مهمترین عامل در داده‌کاوی موفق است. در شخصی‌سازی وب، این مرحله شامل، فیلتر کردن داده، شناسایی کاربران و جلسات کاربر است که مراحلی مهم در کشف الگو است.
3-3-2-3- کشف الگو
در این پردازش، دانش با استفاده از یادگیری ماشین و روش‌های آماری مانند خوشه‌بندی، دسته‌بندی و کشف الگوهای ترتیبی کشف می‌شود. برخلاف ابزارهای پیش‌پردازش داده، روش‌های کشف الگو مستقل از دامنه هستند که می‌توانند برای تعداد زیادی از دامنه‌های مختلف اجرا شوند بدون این که به محتویات صفحات وب دسترسی وجود داشته باشد.
3-3-2-4- تحلیل دانش
در مرحله آخر، دانش استخراج شده ارزیابی شده و برای کاربر نهایی در شکلی که گزارش یا کلمات کلیدی پیشنهاد شده یا لینک‌ها ارائه می‌شود. برای شخصی‌سازی وب، دانش استخراج شده در یک مدل شخصی‌سازی به منظور آسان کردن عملکرد شخصی‌سازی ترکیب می‌شوند.
3-3-3- تکنیکهای مدلسازی کاربر در شخصی‌سازی وب
در این بخش تکنیکهای مورد استفاده در کارهای انجام گرفته در زمینه مدلسازی کاربر در حوزهی شخصیسازی وب با استفاده از محتوای صفحات مورد بررسی قرار می‌گیرند. مهمترین آنها عبارتند از تکنیک tf-idf برای تعیین وزن کلمات کلیدی، تکنیک تحلیل معنایی پنهان برای کاهش ابعاد بردار عبارات و یافتن ارتباطات نهفته بین آنها و تکنیکهای محاسبهی ارتباط معنایی بین دو کلمه در ساختارهای سلسله مراتبی. در ادامه در مورد هریک توضیح داده خواهد شد.
3-3-3-1- تکنیک tf-idf
فرض کنید D مجموعه مستندات وب باشد. به ازای تمام مستندات مانند j در D ابتدا تمامی عبارات آنها استخراج میشوند و سپس وزن هر عبارت i در سند j به‌صورت زیر محاسبه میشود:
(3-1)
که در آن برابر است با تعداد دفعات وقوع i در سند j و
(3-2)
که در آن |D| برابر است با تعداد اعضای مجموعهی D و برابر است با تعداد مستنداتی که شامل عبارت i میباشند.
3-3-3-2- تکنیک متا مدل و ابزار OLAP
فایل‌های لاگ وب یک سایت از میلیون ها ورودی که شامل اطلاعات زیادی درباره فعل و انفعالات کاربر در آن سایت است، تشکیل شده است. این فایل‌ها برای تحلیل داده‌های مورد کاربرد وب به منظور پشتیبانی از چندین کار برای مثال: بهبود گشت و

مطلب مرتبط با این موضوع :  منابع پایان نامه با موضوعمقدار خطا

دیدگاهتان را بنویسید