مقاله رایگان درمورد سلسله مراتب

ن دستهبندی، ارزیابی و فعالیتهای کاربر حاضر و مشخصات کاربر در فاز آنلاین این معماری معرفی شده است.
از رویکردهایی که می‌توان در وب‌کاوی از آنها بهره جست می‌توان به رویکرد بر مبنای کلمات کلیدی، رویکرد معنایی اشاره کرد. بسیاری از منابع علایق کاربر را به صورت مدل‌هایی در میآورند که از ویژگی‌های کلمات مانند تعداد تکرار آن‌ها یا همپوشانی آنها با کلمات دیگر در مستندات وب دیدهشده توسط کاربر بهره میبرند. از جملهی آنها میتوان به کارهای صورت گرفته در (Minio, & Tasso, 1996)، (Lieberman, & et. al., 1999)، (Miranda, & et. al., 1999) و (Mobasher, & et. al., 2000a) اشاره کرد. در این روشها معمولاً به کلمات موجود در وبسایت، براساس tf-idf وزن داده میشود و پس از حذف کلمات با وزن کمتر از یک حد آستانه، هر سند وب به صورت برداری از عبارات باقیمانده (یا کلمات کلیدی) در نظر گرفته میشود.
در سال های اخیر کوشش شده است که تکنیک‌های معنایی را که در ذخیره و بازیابی اطلاعات به کار می‌روند، جهت بهبود رویکرد بردار عبارات به کار ببرند. دو روش آماری و مبتنی بر سلسله مراتب برای این منظور ایجاد شدهاند. تکنیکهای آماری به دنبال ارتباطات نهفته بین اشیای همرخداد میگردند. معروف‌ترین آنها روش LSA است. از جمله کارهای صورت گرفته بر اساس این روش در زمینهی مدلسازی کاربر میتوان به (Zhang, & et. al., 2005) اشاره کرد. در این کار در سه مرحله‌ی تشخیص دادههای کاربردی، خوشه‌بندی جلسات کاربران و ساخت پروفایل، پروفایل کاربران ساخته میشود. لازم به ذکر است که در مرحلهی دوم با استفاده از الگوریتم جدیدی به نام Latent Usage Information (LUI) که بر مبنای الگوریتم k-means میباشد، جلسات کاربران خوشهبندی میشوند. برای این کار، پس از SVD بر روی ماتریس SP، برای هر جلسهی si برداری در فضای با بعد کمتر یعنی si` بدست میآید. معیار شباهت الگوریتم خوشهبندی با استفاده از شباهت کسینوسی بین دو بردار با ابعاد کمتر حاصل از si و sj محاسبه میشود. سپس الگوریتم بر روی آن اعمال میشود. همچنین در مرحله سوم، مرکز هر خوشه از طریق بردار میانگین آن محاسبه میشود و در نهایت پروفایل کاربر به صورت برداری از مشاهده صفحات و وزن آنها نشان داده می‌شود.
بهرنگ مسعودیفر (مسعودیفر، 1385) در پایان‌نامه خود سعی در حل مشکل مربوط به کاربر جدید در سیستمهای توصیه کننده تحت وب با استفاده از روشهای آماری نموده است، کاربر جدید یعنی کاربری که از او داده‌ها و سوابق تعاملات کاری کمی در دسترس است. با این حال، در این کار تلاشی برای بهبود مدل کاربر جهت بهبود فرآیند شخصیسازی وب انجام نشده است.
روشهای مبتنی بر سلسله مراتب معمولاً با استفاده از یک واژگان شناختی یا رده بندی مانند WordNet سعی در بهبود مدل فضای برداری دارند. در بیشتر این روشها، جهت نگاشت داده‌های کاربرد به اشیاء، از معیارهای ارتباط معنایی استفاده میشود. در (Nasraoui, & et. al., 2000) ادعا شده است که روش‌های یادگیری بدون ناظر مانند خوشه‌بندی، برای تحلیل دادههای کاربران ایدهآل میباشند و بر این اساس یک روش جدید برای خوشهبندی فازی به نام 3CARD جلسات کاربران ارائه شده است. در این مقاله به هر URL یک عدد یکتا نسبت داده میشود و جلسهی کاربر نیز به صورت یک بردار دودویی نسبت داده میشود که حضور یا عدم حضور یک URL را در یک جلسه نشان میدهد. این مقاله بیان میکند که در غیاب هر گونه دانشی در مورد داده‌های کاربران، دو نوع خوشهبندی میتوان به کار برد. نوع اول روشهایی هستند که با دادههای شیئی (یا بردار ویژگیها) کار میکنند و نوع دوم روشهایی که با دادههای رابطهای کار میکنند. در این مقاله ادعا شده که روشهای نوع دوم برای دادههای کاربرد وب مناسبتر هستند و از این رو برای تبدیل دادههای جلسات کاربران به شکل رابطهای نیازمند محاسبهی شباهت بین هر دو جلسه میباشد. در نتیجه معیار شباهت جدیدی در این مقاله ارائه میشود که هم URL صفحات و هم ساختار وبسایت در آن لحاظ می‌شود. از آنجا که مهمترین دستاورد این کار، الگوریتم خوشهبندی و معیار شباهت آن است، لذا از فاصلهی بین خوشهها و فاصلهی درون خوشه‌ها برای ارزیابی استفاده شده است. در این مقاله از محتوای صفحات، تنها در حد URL آنها استفاده میشود و نمیتوان آن را به صورت دقیق، یک روش محتوایی به شمار آورد.
در سیستم SiteIF ارائه شده در (Magnini, & Strapparava, 2004) از WordNetDomains به عنوان ردهبندی استفاده شده است. WordNetDomains یک نسخهی گسترش یافته و چند زبانی از WordNet است و در آن هر synset با حداقل یک برچسب دامنه حاشیهنویسی شده است. این مقاله سعی در نمایش مستندات وب براساس synset ها می‌کند و برای این کار از رفع ابهام دامنهی کلمه (WDD) استفاده می‌کند. استدلال این مقاله برای استفاده از دامنه این است که باعث کاهش پیچیدگی در رفع ابهام معنای کلمه میشود. WDD یک فرآیند دو مرحلهای برای رفع ابهام معنای کلمه است که در مرحلهی اول، دامنهی کلمه در متن را با استفاده از WordNetDomains مشخص میکند و در مرحله دوم با استفاده از آن مناسبترین معنای آن کلمه در آن مستند را پیدا میکند.
همچنین در سیستم SEWeP ارائه شده در (Eirinaki, & et. al., 2003) از یک ردهبندی دستساخته برای وب‌سایت و نیز از WordNet به عنوان فرهنگ جامع استفاده شده است. در این کار، برای مدل کردن کاربر از ثبت‌های انتزاعی معروف به C-log استفاده شده است.
برای دانش استخراج کردن، قابل فهم کردن و استفاده کردن، نیاز به تکنیکهای دادهکاوی خبره میباشد. تاکنون تحقیقات زیادی در حوزه‌های مختلفی مانند مدلسازی کاربر و وبکاوی کاربرد وب به منظور استفاده از رفتار کاربر در وب به منظور ایجاد مدلی از علایق وی به صورت ضمنی انجام گرفته است. در زمینه‌ی شخصیسازی وب، مدل کاربر را هم میتوان فقط بر مبنای دادههای کاربرد وب ساخت، مانند کار (Mobasher, & et. al., 2000b) که درکی سطحی از الگوها میدهد و هم میتوان از محتوای صفحات برای ایجاد مدل بهتر استفاده کرد. در (Dai, & Mobasher, 2002) یک چارچوب شخصیسازی وب معرفی شده است که پروفایل‌های کاربرد یک سیستم فیلترکردن جمعی را با استفاده از واژگانشناختی می‌سازد. این پروفایلها از طریق نمایش هر صفحه با یک مجموعه از اشیای واژگان شناختی به پروفایل های تجمعی سطح دامنه تبدیل می‌شوند. در این کار فرض شده است که نگاشت هر ویژگی محتوایی به اشیای واژگان شناختی، یا به صورت دستی و یا با استفاده از روشهای یادگیری با ناظر انجام میشود. واژگان شناختی تعریف شده، شامل کلاس‌ها و نمونههای آنها می‌باشد، از این رو تجمع از طریق گروهبندی نمونههای مختلفی که به یک کلاس تعلق دارند انجام میشود. در (Acharyya, & Ghosh 2003) یک چارچوب شخصیسازی وب برمبنای مدلسازی مفهومی از رفتار گردشی کاربر ارائه شده است. متدولوژی ارائه شده شامل نگاشت هر صفحهی ملاقات شده به یک عنوان یا مفهوم، اعمال یک سلسلهمراتب درختی (ردهبندی) بر روی این عنوانها و سپس تخمین پارامترهای یک فرآیند نیمهمارکف بر روی این درخت بر مبنای مسیرهای مشاهده شدهی کاربر میباشد. در این کار مبتنی بر مدل مارکف، تعیین مشخصات معنایی وب‌سایت به صورت دستی انجام میشود. علاوه بر این، از هیچ معیار شباهت معنایی برای بهبود فرآیند پیش‌بینی استفاده نمیشود و این امر فقط در تعمیم یا تخصیص عبارات واژگان شناختی استفاده میشود.
معمولاً لازم است تا رفتار دسترسی کاربر مدل شود تا سرویسهای آنلاین شخصیسازی شده هوشمند، مانند پیشنهادات وب مهیا شود. یکی از این روشها، کندوکاو استفاده از وب است که لاگهای وب را برای پیشنهاد به کاربر کندوکاو میکند. برخلاف اکثر سیستمهای پیشنهادی وب که بیشتر براساس خوشهبندی است، گانگ و همکارانش، یک سیستم شخصیسازی وب پیشنهاد کردند که از کندکاو الگوی دسترسی ترتیبی استفاده می‌کند. در سیستم پیشنهادی آنها الگوریتم کندوکاو الگوی ترتیبی مؤثر، برای تشخیص الگوهای دسترسی وب پیشنهاد شده است. الگوهای دسترسی در یک ساختار درخت فشرده ذخیره میشود که به آن درخت الگو گفته میشود، و سپس برای تطبیق و تولید لینکهای وب برای پیشنهادات استفاده میشود (Gang, & Yue, 2009).
پینگ و همکارانش یک مدل پیشنهادی شخصیسازی برای منابع مورد نظر کاربر، براساس لاگ دسترسی وب کاربر ارائه کردند. این مدل براساس الگوریتم اولویت و تکنولوژی tf-idf ساخته شده است که شامل سه قسمت است: توصیف منابع، استخراج اولویت کاربر و پیشنهادات شخصیسازی. سپس مدل آنها بردار فضای متنی منابع را با استفاده از تحلیل اطلاعات منابع دستیابی شده به وسیله لاگ دسترسی کاربر تولید میکند. سپس مجموعهی مورد نظر کاربر را با استفاده از الگوریتم اولویت به دست میآوردند. سرانجام منابع ذخیره شده و فیلتر شده برای کاربر را براساس مدل پیشنهادی، ارائه میدهند (Peng, & et. al., 2008).
در (Banerjee, & Pedersen, 2003) یک روش وب‌کاوی جدید برای شخص‌سازی وب ارائه شده است. روش پیشنهادی ابتدا یک مدل رفتار کاربر را با استفاده از مفهوم فرمال فازی شکل میدهد. براساس این روش، اکثر منابعی که در طول یک دوره زمانی مورد علاقه کاربر است، میتواند بدست آورده شود.
شیری و همکارانش (Suryavanshi, & et. al., 2006) روشهای خوشه‌بندی فازی را برای کشف پروفایلهای مناسب که مدل رفتار دسترسی کاربر را روی وب سایت نشان می‌دهد، به کار گرفتهاند. در این تحقیق، تحلیل آزمایشی از یک روش فازی برای کندوکاو کردن پروفایلها ارائه شده است. آنها در مورد استراتژی الگوریتم خود پارامترهای ورودی مورد نیاز، توانایی اداره کردن نویز، قابلیت مقیاس‌پذیری برای دیتاستهای بزرگ و وجود تشابه در ناحیهها بحث کرده‌اند.
در Baraglia, & Palmerini, 2010)) یک سیستم وبکاوی کاربرد وب (WUM) تحت عنوان SUGGEST معرفی شده است که بطور مداوم اتصالات پیشنهادی به صفحات وب مهمِ احتمالی برای کاربر را ایجاد می‌کند. سیستم SUGGEST به منظور ترکیب مؤثر فرآیند WUM با عملکردهای سرور وب منظم پیشنهاد شده است. این سیستم میتواند دادههای با ارزش را به منظور ایجاد هر چه سادهتر ناوبری وب کاربر و بهبود کارایی سرور وب حاصل نماید. در (Baritos, & et. al., 2007) یک الگوریتم هوشمند پیش‌پردازش داده در وبکاوی کاربرد را ارائه کرده است. الگوریتمی بنام “USIA” پیشنهاد داده شده است و نقاط ضعف و قوت ان بررسی شده است. ارزیابی تجربی USIA نشان دهند? بهرهوری بهتر آن است. همچنین این روش، کاربر و جلسه واقعی را تعیین میکند.
در (Rahmani, & Chawman, 2010) سیستمی بنام WebPUM معرفی شده است، که به پیشگوی آنلاین با استفاده از WUM میپردازد و روش جدیدی را برای کلاسبندی الگوهای حرکتی کاربر پیشنهاد مینماید که از این روش در پیشگویی رفتار آینده کاربر استفاده مینماید. در این روش الگوریتم جدید تقسیمبندی گراف برای مدلسازی الگوی حرکتی کاربر و الگوریتم بزرگترین زیر دنباله مشترک برای کلاس‌بندی فعالیتهای کاربر استفاده شده است. در (Zhao, & Bhowmick., 2003) روش دیگری مبتنی بر خوشهبندی در Web-Canvas ارائه شده است. در این روش کاربرانی با الگوی حرکتی مشابه در یک خوشه قرار میگیرد. به دلیل تعیین خوشهها و انتساب صفحاتی به این خوشهها به صورت ایستا و تعیین شده از قبل، سبب ایجاد محدودیت برای ارتقای وب سایت در آینده میشود.
علی اکبری (اکبری، 1384) در پایان‌نامه خود با استفاده از تکنیکهای خوشهبندی، روشی را جهت انطباق صفحات وب از طریق تغییر و انطباق پیوندهای موجود در صفحات جهت پیمایش صفحات به صوررت آسانتر و منطبق بر کاربر ارائه نموده است. در (Masseglia, & et. al., 2000)

مطلب مرتبط با این موضوع :  پایان نامه ارشد درباره4/24، 6/75، P=601/0

دیدگاهتان را بنویسید