پایان نامه ارشد

پژوهش دانشگاهی – استنتاج شبکه های تنظیمات ژنی از روی داده های سری زمانی Microarray به …

(4-5)

برای یک شبکه بازیابی شده با گراف کامل، نا بسته به اینکه چه تعداد از این یال ها در شبکه واقعی وجود دارند، Recall بیشترین مقدار ممکن را دارد.
Precision: نسبت تعداد یال های صحیح بازیابی شده به تعداد کل یال های بازیابی شده است.

دانلود متن کامل پایان نامه در سایت jemo.ir موجود است

(4-6)

برای یک شبکه بازیابی شده که در آن فقط یک یال وجود دارد به شرطی که آن یال در شبکه واقعی نیز وجود داشته باشد، نا بسته به اینکه چه تعداد یال واقعی وجود داشته است که در شبکه استنتاج شده وجود ندارند، Precision بیشترین مقدار ممکن را دارد و مقدار آن برابر است با یک.
F-Measure: همان گونه که در بالا توضیح داده شد، Recall و Precision هیچ کدام به تنهایی قادر به اندازه گیری کیفیت یک شبکه نیستند. به عنوان مثال، در حالی که Recall برای یک شبکه با گراف برابر یک است، در صورتی که بیشتر یال های شبکه استنتاج شده در شبکه واقعی نباشند، Precision این شبکه می تواند مقداری نزدیک به صفر داشته باشد. برای رفع این مشکل و بیان کیفیت یک شبکه بصورت یک عدد واحد، از F-Measure استفاده می شود که برابر است با میانگین هارمونیک Recall و PrecisionF-Measure زمانی برابر یک می شود که Recall و Precision هر دو ماکزیمم مقدار خود را داشته باشند.

(4-7)

 
آزمایش اول: استفاده از روش جستجوی کامل
در آزمایش های این قسمت از مجموعه ای از 50 شبکه بیزین دینامیک شامل 100 گره که درجه خروجی در آن ها از قانون توانی پیروی کرده استفاده شده است. برای تولید این 50 شبکه فرآیندی که در بخش (4-2) توضیح داده شد به کار گرفته شده است. بیشینه تعداد یال های ورودی به هر گره در فرآیند تولید شبکه ها 2 در نظر گرفته شده است. از هر کدام از شبکه های تولید شده 5 سری زمانی به طول 50 و 5 سری زمانی به طول 100 نمونه گیری شده است. سری های زمانی که طول یکسانی داشتند با هم ترکیب شده اند تا دو مجموعه داده های آموزشی، یکی شامل 250 سری زمانی با طول 50 و دیگری شامل 250 سری زمانی با طول 100، بدست آیند. باید توجه شود که طول سری های زمانی بیان ژن در عمل اغلب کمتر از 100 است. بنابر این سری های زمانی در داده های آموزشی این آزمایش از لحاظ طول نماینده خوبی برای سری های بیان ژن واقعی هستند.
برای یادگیری شبکه های بیزین دینامیک از داده های آموزشی از متدها و توابع امتیاز دهی مختلفی استفاده گردیده است که در جداول 1 و2 مشخص شده اند.
پارامتر ها برای روش هایی که در این آزمایش استفاده شدند بدین گونه تنظیم شده اند: در روش ارائه شده، برابر با 05/0 و برابر با 5/0 در نظر گرفته شده است. در روش GlobalMIT پارامتر برابر 999/0 قرار داده شده است. برای روش BDe+P از ترکیب تابع امتیاز دهی BDe و توزیع احتمالی بر روی ساختار شبکه ها استفاده شده است. در این فرمول تعداد کل یال های شبکه است و پارامتر برابر با 05/0 در نظر گرفته شده است.
بعد از فرآیند یادگیری، شبکه استنتاج شده به وسیله هر متد با شبکه اصلی مقایسه شده است و مقادیر Recall، Precision و F-Measure برای شبکه استنتاج شده محاسبه شده اند. از نتایج بدست آمده هر روش بر روی 250 سری زمانی در هر یک از مجموعه داده های آموزشی میانگین گیری شده است. این میانگین به همراه انحراف از معیار مربوطه برای هر روش در جدول (4-1) برای داده های آموزشی با طول 50، و در جدول (4-2) برای داده های آموزشی با طول 100 نمایش داده شده اند.
همان گونه که در جدول ها مشخص است الگوریتم ارائه شده بر روی هر دو مجموعه داده آموزشی بالاترین مقدار Recall و F-Measure را بدست آورده است. آنالیز مقادیر بدست آورده شده نشان می دهد که اختلاف بین F-Measure الگوریتم ارائه شده و بقیه روش ها از لحاظ آماری significant است.
نکته قابل توجه دیگر این است که میزان اختلاف F-Measure الگوریتم ارائه شده با بقیه روش ها در نتایجی که بر روی داده های آموزشی با طول 50 بدست آمده اند در مقایسه با میزان اختلاف نتایج بدست آمده بر روی داده های آموزشی با طول 100 بیشتر است. این رفتار قابل انتظار است چون هر اندازه که داده های آموزشی اطلاعات کمتری را برای استنتاج شبکه در اختیار ما قرار دهند، اثر دیگر منابع اطلاعاتی مثل دانش اولیه در مورد شبکه و یا اطلاعات مربوط به ساختار شبکه در فرآیند یادگیری نقش بیشتری ایفا می کنند. در واقع اگر طول سری زمانی که به عنوان داده آموزشی استفاده می شود به اندازه کافی بزرگ باشد، نقش سایر منابع اطلاعاتی به صفر میل می کند.
این واقعیت که الگوریتم ارائه شده می تواند در مواردی که داده های آموزشی ناکافی هستند باعث افزایش قابل توجه شبکه استنتاج شده شود بسیار مطلوب است چون همان گونه که قبلاً توضیح داده شد، کوتاه بودن طول سری های زمانی بیان ژن که برای استنتاج شبکه های تنظیمات ژنی استفاده می شوند از عمده ترین مشکلات در بازسازی این گونه شبکه ها می باشد و باعث کاهش شدید کیفیت شبکه های استنتاج شده می شود.