پايان نامه Data Mining
پايان نامه Data Mining |
![]() |
دسته بندي | كامپيوتر و IT |
فرمت فايل | doc |
حجم فايل | 3959 كيلو بايت |
تعداد صفحات فايل | 99 |
پايان نامه Data Mining
چكيده:
در دو دهه قبل تواناييهاي فني بشربراي توليد و جمعآوري دادهها به سرعت افزايش يافته است. عواملي نظير استفاده گسترده از باركد براي توليدات تجاري، به خدمت گرفتن كامپيوتر در كسبوكار، علوم، خدمات دولتي و پيشرفت در وسائل جمعآوري داده، از اسكن كردن متون و تصاوير تا سيستمهاي سنجش از دور ماهوارهاي، در اين تغييرات نقش مهمي دارند.
بطور كلي استفاده همگاني از وب و اينترنت به عنوان يك سيستم اطلاع رساني جهاني ما را مواجه با حجم زيادي از داده و اطلاعات ميكند. اين رشد انفجاري در دادههاي ذخيره شده، نياز مبرم وجود تكنولوژيهاي جديد و ابزارهاي خودكاري را ايجاد كرده كه به صورت هوشمند به انسان ياري رسانند تا اين حجم زياد داده را به اطلاعات و دانش تبديل كند. دادهكاوي به عنوان يك راه حل براي اين مسائل مطرح مي باشد. در يك تعريف غير رسمي دادهكاوي فرآيندي است، خودكار براي استخراج الگوهايي كه دانش را بازنمايي ميكنند، كه اين دانش به صورت ضمني در پايگاه دادههاي عظيم، انبارهداده[1] و ديگر مخازن بزرگ اطلاعات، ذخيره شده است.
به لحاظ اينكه در چند سال اخير مبحث دادهكاوي و اكتشاف دانش موضوع بسياري از مقالات و كنفرانسها قرار گرفته و نرمافزارهاي آن در بازار به شدت مورد توجه قرار گرفته، از اينرو در مقاله سعي بر آن شده تا گذري بر آن داشته باشيم.
[1] Data warehouses
مقدمه
امروزه با گسترش سيستمهاي پايگاهي و حجم بالاي دادههاي ذخيره شده در اين سيستمها، نياز به ابزاري است تا بتوان دادههاي ذخيره شده را پردازش كرد و اطلاعات حاصل از اين پردازش را در اختيار كاربران قرار داد.
با استفاده از پرسشهاي ساده در SQL و ابزارهاي گوناگون گزارشگيري معمولي، ميتوان اطلاعاتي را در اختيار كاربران قرار داد تا بتوانند به نتيجهگيري در مورد دادهها و روابط منطقي ميان آنها بپردازند. امّا وقتي كه حجم دادهها بالا باشد، كاربران هرچند زبردست و باتجربه باشند نميتوانند الگوها مفيد را در ميان حجم انبوه دادهها تشخيص دهند و يا اگر قادر به اين كار هم باشند، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است. از سوي ديگر، كاربران معمولاً فرضيهاي را مطرح ميكنند و سپس براساس گزارشات مشاهده شده به اثبات يا رد فرضيه ميپردازند، در حالي كه امروزه نياز به روشهايي است كه اصطلاحاً به كشف دانش [1] بپردازند يعني با كمترين دخالت كاربر و بصورت خودكار الگوها و رابطههاي منطقي را بيان نمايند.
تعريف داده كاوي:
اصطلاح Data Mining همانطور كه از ترجمه آن به دادهكاوي مشخص ميشود، به مفهوم استخراج اطلاعات نهان و يا الگوها و روابط مشخص در حجم زيادي از دادههاي يك يا چند بانك اطلاعاتي بزرگ است. اطلاعات استخراج شده در تعريف Data Mining بطور ضمني به معني اطلاعاتي است كه بر اساس آن بتوان به نتايجي دست يافت كه بطور معمول ملموس نيستند. در اين تعريف بر بزرگ بودن بانكهاي اطلاعاتي و يا حجم زياد دادههاي مورد پردازش تاكيد ميشود. علت اين است كه از نظر آماري و تئوري اطلاعات، تجزيه و تحليل دادهها و يا آنطور كه در اين اصطلاح تعبير ميشود، كاوش در حجم كم دادههاي يك بانك به نتايج قابل قبولي منجر نميشود. به كمك ابزارهاي Data Mining ميتوان مقادير متغيرهاي را پيشبيني و توصيف نمود. اين ابزارها در فرايندهاي تصميمگيري متكي بر اطلاعات و دانش [1] كاربر فراوان دارند و فعاليتهاي تجاري نوين و مدرن امروزه به شدت بر آن متكي است. فرايند Data Mining را نبايد با روشهاي متداول آناليز داده و اطلاعات و سيستمهاي تصميمگيري معمولي يكي دانست. به كمك روشهاي Data Mining ميتوان به پرسشهايي (عمدتاً تجاري) پاسخ گفت كه بطور سنتي عملاً امكان وجود ندارد.
دادهكاوي چه كارهايي نميتواند انجام دهد؟
دادهكاوي فقط يك ابزار است و نه يك عصاي جادويي. دادهكاوي به اين معني نيست كه شما راحت به كناري بنشيند و ابزارهاي دادهكاوي همه كار را انجام دهد.
دادهكاوي نياز به شناخت دادهها و ابزارهاي تحليل و افراد خبره در اين زمينهها را از بين نميبرد. دادهكاوي فقط به تحليلگران براي پيدا كردن الگوها و روابط بين دادهها كمك ميكند و در اين مورد نيز روابطي كه يافته ميشود بايد بوسيله دادههاي واقعي دوباره بررسي و تست گردد.
كاربردهاي دادهكاوي
دادهكاوي بخاطر كمكهاي اساسي آن به سرعت در حال محبوبيت است.
سازمانهاي زيادي در حال استفاده از دادهكاوي براي كمك به مديريت تمام فازهاي ارتباط با مشتري شامل بدست آوردن مشتريان جديد، افزايش سود از طريق مشتريان موجود و حفظ مشتريان خوب هستند. با تعيين مشخصات يك مشتري خوب يك شركت ميتواند با همان مشخصات اهداف آينده خويش را پيشبيني كند. با پروندهسازي براي مشتري كه يك محصول خاص را خريد مينمايد اين شركت ميتواند توجه خود را به مشتريان مشابهي كه از اين محصول خريد نكردهاند معطوف دارد. با پروندهسازي براي مشترياني كه اين سازمان را ترك كردهاند يك شركت ميتواند مشترياني را كه خطر رفتن آنها وجود دارد را نگه دارد؛ چرا كه نگهداري يك مشتري موجود بسيار كم هزينهتر از بدست آوردن يك مشتري جديد است.
فهرست مطالب |
|
|
|
فهرست اشكال ............................................................................................................................................... |
10 |
فهرست جداول .............................................................................................................................................. |
11 |
فصل1: مقدمهاي بر دادهكاوي ............................................................................ |
13 |
1-1تعريف دادهكاوي ................................................................................................................................... |
15 |
2-1تاريخچه دادهكاوي ................................................................................................................................ |
16 |
3-1چه چيزي سبب پيدايش دادهكاوي شده است؟ ........................................................................................ |
17 |
4-1اجزاي سيستم دادهكاوي ......................................................................................................................... |
19 |
5-1جايگاه دادهكاوي در ميان علوم مختلف .................................................................................................. |
21 |
6-1قابليتهاي دادهكاوي ................................................................................................................................. |
22 |
7-1چرا به دادهكاوي نياز داريم؟ ................................................................................................................... |
23 |
8-1دادهكاوي چه كارهايي نميتواند انجام دهد؟ .......................................................................................... |
25 |
9-1كاربردهاي دادهكاوي ............................................................................................................................. |
25 |
1-9-1 كاربردهاي پيشبينيكننده ................................................................................................... |
27 |
2-9-1 كاربردهاي توصيفكننده .................................................................................................... |
27 |
10-1ابزارهاي تجاري دادهكاوي ................................................................................................................... |
28 |
11-1دادهكاوي و انباردادهها ......................................................................................................................... |
29 |
1-11-1 تعاريف انبارداده ................................................................................................................ |
29 |
2-11-1 چهار خصوصيت اصلي انبارداده ......................................................................................... |
30 |
3-11-1 موارد تفاوت انبارداده و پايگاه داده .................................................................................... |
31 |
12-1دادهكاوي و OLAP ........................................................................................................................... |
33 |
1-12-1 OLAP ........................................................................................................................... |
33 |
2-12-1 انواع OLAP ................................................................................................................... |
34 |
13-1مراحل فرايند كشف دانش از پايگاه دادهها ........................................................................................... |
34 |
1-13-1انبارش دادهها .................................................................................................................... |
35 |
2-13-1انتخاب دادهها .................................................................................................................... |
36 |
3-13-1 پاكسازي- پيشپردازش- آمادهسازي ................................................................................ |
36 |
4-13-1تبديل دادهها ...................................................................................................................... |
36 |
5-13-1 كاوش در دادهها (Data Mining) ................................................................................. |
37 |
6-13-1تفسير نتيجه ........................................................................................................................ |
38 |
فصل 2: قوانين ارتباطي ........................................................................... |
39 |
1-2قوانين ارتباطي ........................................................................................................................................ |
40 |
2-2اصول پايه ............................................................................................................................................... |
41 |
1-2-2شرح مشكل جدي ............................................................................................................... |
41 |
2-2-2 پيمايش فضاي جستجو ......................................................................................................... |
43 |
3-2-2 مشخص كردن درجه حمايت مجموعه اقلام ......................................................................... |
45 |
3-2الگوريتمهاي عمومي .............................................................................................................................. |
45 |
1-3-2دسته بندي ............................................................................................................................ |
45 |
2-3-2 BFS و شمارش رويدادها ................................................................................................... |
46 |
3-3-2 BFS و دونيمسازي TID-list ........................................................................................... |
47 |
4-3-2 DFS و شمارش رويداد ...................................................................................................... |
47 |
5-3-2 DFS و دو نيمسازي TID-list .......................................................................................... |
48 |
4-2الگوريتمApriori ................................................................................................................................ |
48 |
1-4-2 مفاهيم كليدي ..................................................................................................................... |
48 |
2-4-2 پيادهسازي الگوريتم Apriori ............................................................................................ |
49 |
3-4-2 معايب Apriori و رفع آنها ................................................................................................. |
54 |
5-2 الگوريتم رشد الگوي تكرارشونده .......................................................................................................... |
55 |
1-5-2 چرا رشد الگوي تكرار سريع است؟ ..................................................................................... |
58 |
6-2 مقايسه دو الگوريتم Apriori و FP-growth ...................................................................................... |
59 |
7-2تحليل ارتباطات ...................................................................................................................................... |
63 |
فصل 3: وبكاوي و متنكاوي ................................................................. |
65 |
1-3وبكاوي ............................................................................................................................................... |
66 |
1-1-3 الگوريتمهاي هيتس و لاگسام ............................................................................................... |
69 |
2-1-3 كاوش الگوهاي پيمايش مسير .............................................................................................. |
76 |
2-3متنكاوي ............................................................................................................................................... |
80 |
1-2-3 كاربردهاي متنكاوي ........................................................................................................... |
82 |
1-1-2-3 جستجو و بازيابي .............................................................................................. |
83 |
2-1-2-3 گروهبندي و طبقهبندي ...................................................................................... |
83 |
3-1-2-3 خلاصهسازي .................................................................................................... |
84 |
4-1-2-3 روابط ميان مفاهيم ............................................................................................. |
84 |
5-1-2-3 يافتن و تحليل گرايشات .................................................................................... |
84 |
6-1-2-3 برچسب زدن نحوي (pos) ............................................................................... |
85 |
7-1-2-3 ايجاد Thesaurus و آنتولوژي به صورت اتوماتيك ......................................... |
85 |
2-2-3فرايند متنكاوي ................................................................................................................... |
86 |
3-2-3 روشهاي متنكاوي ............................................................................................................... |
87 |
مراجع ..................................................................................................... |
89 |