دوره 25، شماره 4 - ( تیر 1396 )                   جلد 25 شماره 4 صفحات 300-310 | برگشت به فهرست نسخه ها


XML English Abstract Print


Download citation:
BibTeX | RIS | EndNote | Medlars | ProCite | Reference Manager | RefWorks
Send citation to:

Seyedmir F, Mirzaie K, Bitaraf Sani M. The Studies of Decision Tree in Estimation of Breast Cancer Risk by Using Polymorphism Nucleotide . JSSU. 2017; 25 (4) :300-310
URL: http://jssu.ssu.ac.ir/article-1-3547-fa.html
سیدمیر فریدا، میرزایی کمال، بیطرف ثانی مرتضی. مطالعات درخت تصمیم در برآورد ریسک ابتلا به سرطان سینه با استفاده از چند شکلی‌های تک نوکلوئیدی . مجله علمي پژوهشي دانشگاه علوم پزشكي شهید صدوقی يزد. 1396; 25 (4) :300-310

URL: http://jssu.ssu.ac.ir/article-1-3547-fa.html


چکیده:   (157 مشاهده)

چکیده

مقدمه: درختان تصمیم از ابزارهای داده‎کاوی برای جمعآوری ، پیش‌بینی دقیق و غربال کردن اطلاعات از حجم عظیم داده‎هاست که کاربرد گسترده‎ای در زمینه زیستشناسی محاسباتی و بیوانفورماتیک پیدا کرده‎اند. در بیوانفورماتیک میتوان پیشبینی هایی بر روی بیماریها ازجمله سرطان سینه را داشت. استفاده از داده های ‍ژنومی از جمله چند شکلیهای تک نوکلئوتیدی در پیشبینی ریسک ابتلا به بیماریهای چند عامله از اهمیت خاصی برخوردار است. تعداد هفت SNP مهم  از بین صدها هزار مارکر ژنتیکی به عنوان عوامل مرتبط با سرطان سینه شناسایی شدند. هدف ازاین تحقیق بررسی داده‎های آموزش روی خطای درخت تصمیم پیش‎بینی کننده ریسک ابتلا به سرطان سینه با استفاده از ژنوتیپ چند شکلیهای تک نوکلئوتیدی است.

روش بررسی:احتمال ابتلا به سرطانسینه با استفاده از SNP های مرتبط با فرمول xj = fo *   محاسبه گردید. برای پیشبینی احتمال بیماری با استفاده از چندشکلیهای تک نوکلئوتیدی در انسان میتوان از درختان تصمیم استفاده کرد. هفت SNP با نسبتهای مختلف بخت مرتبط با سرطان سینه درنظرگرفته و کدنویسی و طراحی درخت تصمیم مدل C4.5، با زبان برنامه نویسی Csharp2013 انجامشد. در درخت تصمیم ایجادشده با کدنویسی، چهار SNP مهم مرتبط لحاظشد. خطای درخت تصمیم دردو حالت کدنویسی و استفاده از نرمافزارWEKAارزیابی و درصد دقت درخت تصمیم در پیش بینی بروز سرطان سینه محاسبه گردید.  تعداد نمونه آموزش داده شده با نمونهگیری سیستماتیک استخراج گردید. باکدنویسی، دو سناریو و همچنین با نرم افزار WEKA ،  سه سناریو با تعداد مجموعه دادههای مختلف، تعداد مجموعه آموزش و آزمایش مختلف،  مورد ارزیابی قرار گرفت.

نتایج: با روش کدنویسی در دو سناریو با افزایش درصد آموزش از 66/66 به 42/86 ، خطا از 56/55 به 09/9 کاهش یافت. همچنین با اجرای نرم افزار WEKA در سه سناریو با تعداد مجموعه دادههای مختلف، تعداد مجموعه آموزش مختلف، و آزمایش مختلف با افزایش تعداد رکوردها از  81 به 2187، میزان خطا از 15/48 به 46/13 کاهش یافت. همچنین در اکثر سناریوها درصد شیوع بیماری در میزان خطا در کد و WEKA تاثیری نداشت.

نتیجه‎گیری: نتایج نشان میدهد با افزایش میزان آموزش، خطای درخت تصمیم کاهش و درنتیجه دقت پیشبینی ریسک ابتلا به سرطان سینه با استفاده از درخت تصمیم افزایش می‎یابد. در دادههای بیولوژی بهدلیل حساسیت مدلهای پیشبینیکننده، خطای درخت تصمیم حتی با  66/66% آموزش بالا است. از طرفی با افزایش تعداد SNP درخت تصمیم از 4 به 7 مارکر، خطای درخت تصمیم با 1/70 % آموزش،  بهطور چشمگیری کاهش داشت. در مجموع میتوان گفت که با افزایش رکوردهای مجموعه آموزش و همچنین افزایش تعداد ویژگی   SNPدر درخت تصمیم، دقت پیش بینی افزایش و خطا کاهش مییابد. همچنین درصد شیوع بیماری در میزان خطا به دلیل انتخاب مجموعه های آموزش و آزمایش به روش سیستماتیک،  در کد طراحی شده در این تحقیق  و نرم افزار موجود WEKA   تاثیری ندارد.

متن کامل [PDF 986 kb]   (47 دریافت)    
نوع مطالعه: پژوهشي | موضوع مقاله: خون و سرطان
دریافت: ۱۳۹۴/۱۰/۸ | پذیرش: ۱۳۹۶/۵/۱ | انتشار: ۱۳۹۶/۷/۳

ارسال نظر درباره این مقاله : نام کاربری یا پست الکترونیک شما:
کد امنیتی را در کادر بنویسید

ارسال پیام به نویسنده مسئول


کلیه حقوق این وب سایت متعلق به ماهنامه علمی پ‍ژوهشی دانشگاه علوم پزشکی شهید صدوقی یزد می باشد.

طراحی و برنامه نویسی : یکتاوب افزار شرق

© 2015 All Rights Reserved | SSU_Journals

Designed & Developed by : Yektaweb