-
عنوان: تشخيص و اولويت بندي ژنهای کاندید بیماری با رویکرد دسته بند تک کلاسه
-
ارائهکننده: عبدالعزیز الیوسف
-
استاد راهنما: دکتر نصر اله مقدم چرکری
-
استاد ناظر خارجی: دکتر عباس نوذری (دانشگاه: تهران)، دکتر چنگیز اصلاحچی (دانشگاه: شهید بهشتی)
-
استاد ناظر داخلی: دکتر سعید جلیلی، دکتر بهزاد اکبری
-
استاد مشاور: دکتر سید شهریار عرب
-
مکان: دانشکده فنی و مهندسی، اتاق 351
-
تاریخ: 1395/02/28
-
ساعت: 8
چکیده
شناسایی ژنهای مسبب بیماریهای ژنتیکی در انسان، چون ديابت، چاقي، اختلالات عصبی، و سرطان برای درک عمیقتر از بیماری و تولید داروهای درمانی از جمله مسائل مهم در حوزه بیوانفورماتیک به حساب میآید. به طور معمول برای تشخیص ژنهای بیماری دو مرحله آزمایشگاهی وجود دارد، 1) انتخاب ژنهای کاندید بیماری 2) آزمایش ژنهای انتخاب شده برای تعیین ژنهای بیماری. مشکل روشهای آزمایشگاهی اين است كه تشخيص ژنهاي بيماري از ميان حجم زيادي از ژن هاي كانديد بسيار وقت گير و هزينه بر است، از اين رو استفاده از روشهای محاسباتي برای اولویت بندی ژنهاي كانديد قبل از تحلیل آزمايشگاهي امری ضروری است. به زبان دیگر هدف این رساله افزودن یک مرحله اولویت بندی بین دو مرحله ازمایشگاهی فوق است. بیشتر رویکردهای محاسباتی مبتنی بر دادههای شرح گذاری کارکردی چون دادهای ژن اونتولوژی، و داده های بیان ژن می باشند. ولی از آنجایی که یک سوم ژنهای شناخته شده هنوز شرح گذاری کارکردی نشدهاند، پیاده سازی این روشها با مشکل کمبود اطلاعات مواجه می-شود. همچنین همه روشهای محاسباتی مساله تشخیص و اولویت بندی ژنهای بیماری را به صورت مساله دو کلاسه حل میکنند. این روش-ها برای انتخاب دادههای منفی (ژنهای غیر بیماری) که طبیعتا در دسترس نیستند، آنها را از دادههای نا شناخته به صورت تصادفی انتخاب میکنند. این کار باعث افزایش دادههای نویزی و ایجاد عدم توازن در مجموعه داده میشود. در این رساله، یک مدل سلسله مراتبی ترکیبی پیشنهاد شده است که به صورت موازی از دو منبع داده استفاده میکند و خروجی آنها را ترکیب میکند. منبع داده اول عبارت است از توالی اسید امینه پروتئین که به عنوان مجموعه داده کامل و برای هر پروتئین (ژن) در دسترس است. اما منبع داده دوم، شبکه برهمکنش پروتئینی است که به عنوان منبع داده منعکس کننده حالت ارتباطی ژنهای بیماری، انتخاب شدهاند. از آنجا که تنها به دادههای مثبت دسترسی داریم (ژنهای بیماری که قبلا تشخیص داده شدهاند)، بر خلاف کارهای قبلی، مساله به صورت دسته بندی تک کلاسه نگاه شدهاست. در این مرحله، یک دسته بند مقاوم نسبت به چند تراکمی دادههای مثبت جهت بالا بردن دقت تشخیص و اولویت بندی ژنهای کاندید بیماری پیشنهاد شدهاست. مدل پیشنهادی و مقایسه آن با بقیه رویکردها با استفاده از دادههای بیماری OMIM و دادههای شبکه HPRD که از مجموع دادههای برهمکنشی فیزیکی پروتئینهای انسان جمع شدهاست، ارزیابی شدهاست.
کلمات کلیدی
تشخیص و اولویت بندی ژنها کاندید بیماری، توالی اسید آمینه، شبکه برهمکنش پروتئین-پروتئین، استخراج ویژگی، دستهبندی تک کلاسی.
7 اردیبهشت 1395 / تعداد نمایش : 4535