بخشی از متن دانلود فایل های word مقاله جانشيني مقادير مفقود و تأثير آن بر دقت کلاسه بندي در داده کاوي پزشکي :
تعداد صفحات :16
مقدمه: وجود مقادیر مفقود در دادههای پزشکی میتواند تمام فرآیند داده کاوی و تفسیرهای حاصل را تحت تأثیر قرار دهد. بنابراین برخورد با این مقادیر ضروری میباشد. در این پژوهش تأثیر روشهای مختلف برخورد با مقادیر مفقود بر روی دقت کلاسهبندی دادههای پزشکی مورد ارزیابی قرار گرفت.
روش: در این مطالعه، تأثیر روشهای معروف جانشینی مقادیر مفقود شامل Mean/mode، Hot Deck، K-Nearest Neighbor، Maximum Possible Value، All Possible Value، Case Deletion و Regression بر روی دقت کلاسهبندی مجموعه دادههای پزشکی سرطان سینه، ناراحتی قلبی، بیماریهای پوستی، هپاتیت، تیروئید، دیابت، تومور اولیه، بیماران کبدی، سرطان ریه و بعد از جراحی، به ازای شش نرخ مختلف مقادیر مفقود، ارزیابی شد. در آزمایشها از دو کلاسهبند شبکههای عصبی و نزدیکترین k همسایه در نرم افزار داده کاوی Weka استفاده شد. برای تخمین دقت، از روش 10-Fold cross validation استفاده شد.
نتایج: نتایج نشان داد برای کلاسهبند شبکههای عصبی، همه روشهای جانشینی در برابر نرخهای مختلف مقادیر مفقود، تأثیرات متفاوتی در دقت کلاسهبندی داشتند. برای کلاسهبند نزدیکترین k همسایه، روش جانشینی Mean/mode در مقایسه با سایر روشها تقریباً با افزایش نرخ مقادیر مفقود، باعث افزایش دقت کلاسهبندی گردید. در مجموع، هیچ یک از روشهای جانشینی به ازای همه نرخ-های مختلف مقادیر مفقود، همواره بیشترین دقت را نتیجه نداده و برتری نداشت.
نتیجهگیری: تحلیل نتایج نشان میدهد روشهای جانشینی بررسی شده به ازای همه نرخهای مختلف از مقادیر مفقود شده لزوماً باعث بهبود دقت کلاسهبندی نگردیده و هیچ کدام از روشهای جانشینی بررسی شده بهترین روش نیستند.
