پايان نامه Data Mining

مطالب دانشجويي

پايان نامه Data Mining

۳ بازديد
پايان نامه Data Mining

پايان نامه Data Mining

دانلود پايان نامه Data Mining

پايان نامه Data Mining
دسته بندي كامپيوتر و IT
فرمت فايل doc
حجم فايل 3959 كيلو بايت
تعداد صفحات فايل 99

پايان نامه Data Mining

چكيده:

در دو دهه قبل توانايي­هاي فني بشربراي توليد و جمع­آوري داده‌ها به سرعت افزايش يافته است. عواملي نظير استفاده گسترده از باركد براي توليدات تجاري، به خدمت گرفتن كامپيوتر در كسب­و­كار، علوم، خدمات­ دولتي و پيشرفت در وسائل جمع­آوري داده، از اسكن كردن متون و تصاوير تا سيستمهاي سنجش از دور ماهواره­اي، در اين تغييرات نقش مهمي دارند.

بطور كلي استفاده همگاني از وب و اينترنت به عنوان يك سيستم اطلاع رساني جهاني ما را مواجه با حجم زيادي از داده و اطلاعات مي‌كند. اين رشد انفجاري در داده‌هاي ذخيره شده، نياز مبرم وجود تكنولوژي­هاي جديد و ابزارهاي خودكاري را ايجاد كرده كه به صورت هوشمند به انسان ياري رسانند تا اين حجم زياد داده را به اطلاعات و دانش تبديل كند. داده­كاوي به عنوان يك راه حل براي اين مسائل مطرح مي باشد. در يك تعريف غير رسمي داده­كاوي فرآيندي است، خودكار براي استخراج الگوهايي كه دانش را بازنمايي مي­كنند، كه اين دانش به صورت ضمني در پايگاه داده­هاي عظيم، انباره­داده[1] و ديگر مخازن بزرگ اطلاعات، ذخيره شده است.

به لحاظ اينكه در چند سال اخير مبحث داده­كاوي و اكتشاف دانش موضوع بسياري از مقالات و كنفرانسها قرار گرفته و نرم­افزار­هاي آن در بازار به شدت مورد توجه قرار گرفته، از اينرو در مقاله سعي بر آن شده تا گذري بر آن داشته باشيم.


[1] Data  warehouses

مقدمه

امروزه با گسترش سيستم‌هاي پايگاهي و حجم بالاي داده‌هاي ذخيره شده در اين سيستم‌ها، نياز به ابزاري است تا بتوان داده‌هاي ذخيره شده را پردازش كرد و اطلاعات حاصل از اين پردازش را در اختيار كاربران قرار داد.

با استفاده از پرسش‌هاي ساده در SQL و ابزارهاي گوناگون گزارش‌گيري معمولي، مي‌توان اطلاعاتي را در اختيار كاربران قرار داد تا بتوانند به نتيجه‌گيري در مورد داده‌ها و روابط منطقي ميان آنها بپردازند. امّا وقتي كه حجم داده‌ها بالا باشد، كاربران هرچند زبر­دست و با­تجربه باشند نمي‌توانند الگوها مفيد را در ميان حجم انبوه داده‌ها تشخيص دهند و يا اگر قادر به اين كار هم باشند، هزينه عمليات از نظر نيروي انساني و مادي بسيار بالا است. از سوي ديگر، كاربران معمولاً فرضيه‌اي را مطرح مي‌كنند و سپس بر­اساس گزارشات مشاهده شده به اثبات يا رد فرضيه مي‌پردازند، در حالي كه امروزه نياز به روشهايي است كه اصطلاحاً به كشف دانش [1] بپردازند يعني با كمترين دخالت كاربر و بصورت خودكار الگوها و رابطه‌هاي منطقي را بيان نمايند.

تعريف داده ­كاوي:

اصطلاح Data Mining همانطور كه از ترجمه آن به داده­كاوي مشخص مي­شود، به مفهوم استخراج اطلاعات نهان و يا الگوها و روابط مشخص در حجم زيادي از داده‌هاي يك يا چند بانك اطلاعاتي بزرگ است. اطلاعات استخراج شده در تعريف Data Mining بطور ضمني به معني اطلاعاتي است كه بر اساس آن بتوان به نتايجي دست يافت كه بطور معمول ملموس نيستند. در اين تعريف بر بزرگ بودن بانكهاي اطلاعاتي و يا حجم زياد داده‌هاي مورد پردازش تاكيد مي‌شود. علت اين است كه از نظر آماري و تئوري اطلاعات، تجزيه و تحليل داده‌ها و يا آنطور كه در اين اصطلاح تعبير مي‌شود، كاوش در حجم كم داده­هاي يك بانك به نتايج قابل قبولي منجر نمي‌شود. به كمك ابزارهاي Data Mining مي‌توان مقادير متغيرهاي را پيش­بيني و توصيف نمود. اين ابزارها در فرايندهاي تصميم‌گيري متكي بر اطلاعات و دانش [1] كاربر فراوان دارند و فعاليت­هاي تجاري نوين و مدرن امروزه به شدت بر آن متكي است. فرايند Data Mining را نبايد با روش‌هاي متداول آناليز داده و اطلاعات و سيستم­هاي تصميم‌گيري معمولي يكي دانست. به كمك روش‌هاي Data Mining مي‌توان به پرسش­هايي (عمدتاً تجاري) پاسخ گفت كه بطور سنتي عملاً امكان وجود ندارد.

داده­كاوي چه كارهايي نمي‌تواند انجام دهد؟

داده­كاوي فقط يك ابزار است و نه يك عصاي جادويي. داده­كاوي به اين معني نيست كه شما راحت به كناري بنشيند و ابزارهاي داده­كاوي همه كار را انجام دهد.

داده­كاوي نياز به شناخت داده‌ها و ابزارهاي تحليل و افراد خبره در اين زمينه‌ها را از بين نمي‌برد. داده­كاوي فقط به تحليلگران براي پيدا كردن الگوها و روابط بين داده‌‌ها كمك مي‌كند و در اين مورد نيز روابطي كه يافته مي‌شود بايد بوسيله داده‌هاي واقعي دوباره بررسي و تست گردد.

 كاربردهاي داده­كاوي

داده­كاوي بخاطر كمك‌هاي اساسي آن به سرعت در حال محبوبيت است.

سازمانهاي زيادي در حال استفاده از داده­كاوي براي كمك به مديريت تمام فازهاي ارتباط با مشتري شامل بدست آوردن مشتريان جديد، افزايش سود از طريق مشتريان موجود و حفظ مشتريان خوب هستند. با تعيين مشخصات يك مشتري خوب يك شركت مي‌تواند با همان مشخصات اهداف آينده خويش را پيش­بيني كند. با پرونده­سازي براي مشتري كه يك محصول خاص را خريد مي‌نمايد اين شركت مي‌تواند توجه خود را به مشتريان مشابهي كه از اين محصول خريد نكرده‌اند معطوف دارد. با پرونده­سازي براي مشترياني كه اين سازمان را ترك كرده‌اند يك شركت مي‌تواند مشترياني را كه خطر رفتن آنها وجود دارد را نگه دارد؛ چرا كه نگهداري يك مشتري موجود بسيار كم هزينه­تر از بدست آوردن يك مشتري جديد است.


 

فهرست مطالب

 

فهرست اشكال   ...............................................................................................................................................

10

فهرست جداول   ..............................................................................................................................................

11

فصل1: مقدمه­اي بر داده­كاوي  ............................................................................

13

1-1تعريف داده­كاوي   ...................................................................................................................................

15

2-1تاريخچه داده­كاوي   ................................................................................................................................

16

3-1چه چيزي سبب پيدايش داده­كاوي شده است؟   ........................................................................................

17

4-1اجزاي سيستم داده­كاوي   .........................................................................................................................

19

5-1جايگاه داده­كاوي در ميان علوم مختلف   ..................................................................................................

21

6-1قابليتهاي داده­كاوي   .................................................................................................................................

22

7-1چرا به داده­كاوي نياز داريم؟   ...................................................................................................................

23

8-1داده­كاوي چه كارهايي نمي­تواند انجام دهد؟   ..........................................................................................

25

9-1كاربردهاي داده­كاوي   .............................................................................................................................

25

1-9-1 كاربردهاي پيش­بيني­كننده   ...................................................................................................

27

2-9-1 كاربردهاي توصيف­كننده   ....................................................................................................

27

10-1ابزارهاي تجاري داده­كاوي   ...................................................................................................................

28

11-1داده­كاوي و انبار­داده­ها   .........................................................................................................................

29

1-11-1 تعاريف انبار­داده   ................................................................................................................

29

2-11-1 چهار خصوصيت اصلي انبار­داده   .........................................................................................

30

3-11-1 موارد تفاوت انبار­داده و پايگاه­ داده   ....................................................................................

31

12-1داده­كاوي و OLAP   ...........................................................................................................................

33

1-12-1 OLAP   ...........................................................................................................................

33

2-12-1 انواع OLAP   ...................................................................................................................

34

13-1مراحل فرايند كشف دانش از پايگاه داده­ها   ...........................................................................................

34

1-13-1انبارش داده­ها   ....................................................................................................................

35

2-13-1انتخاب داده­ها   ....................................................................................................................

36

3-13-1 پاكسازي- پيش­پردازش- آماده­سازي   ................................................................................

36

4-13-1تبديل داده­ها   ......................................................................................................................

36

5-13-1 كاوش در داده­ها (Data Mining)   .................................................................................

37

6-13-1تفسير نتيجه   ........................................................................................................................

38

فصل 2: قوانين ارتباطي   ...........................................................................

39

1-2قوانين ارتباطي   ........................................................................................................................................

40

2-2اصول پايه   ...............................................................................................................................................

41

1-2-2شرح مشكل جدي   ...............................................................................................................

41

2-2-2 پيمايش فضاي جستجو   .........................................................................................................

43

3-2-2 مشخص كردن درجه حمايت مجموعه اقلام   .........................................................................

45

3-2الگوريتمهاي عمومي   ..............................................................................................................................

45

1-3-2دسته­ بندي   ............................................................................................................................

45

2-3-2 BFS و شمارش رويداد­ها   ...................................................................................................

46

3-3-2 BFS و دونيم­سازي TID-list   ...........................................................................................

47

4-3-2 DFS و شمارش رويداد   ......................................................................................................

47

5-3-2 DFS و دو نيم­سازي TID-list  ..........................................................................................

48

4-2الگوريتمApriori   ................................................................................................................................

48

1-4-2 مفاهيم كليدي   .....................................................................................................................

48

2-4-2 پياده­سازي الگوريتم Apriori   ............................................................................................

49

3-4-2 معايب Apriori و رفع آنها   .................................................................................................

54

5-2 الگوريتم رشد الگوي تكرارشونده   ..........................................................................................................

55

1-5-2 چرا رشد الگوي تكرار سريع است؟   .....................................................................................

58

6-2 مقايسه دو الگوريتم Apriori و FP-growth   ......................................................................................

59

7-2تحليل ارتباطات   ......................................................................................................................................

63

فصل 3: وب­كاوي و متن­كاوي   .................................................................

65

1-3وب­كاوي   ...............................................................................................................................................

66

1-1-3 الگوريتمهاي هيتس و لاگسام   ...............................................................................................

69

2-1-3 كاوش الگوهاي پيمايش مسير   ..............................................................................................

76

2-3متن­كاوي   ...............................................................................................................................................

80

1-2-3 كاربردهاي متن­كاوي   ...........................................................................................................

82

1-1-2-3 جستجو و بازيابي   ..............................................................................................

83

2-1-2-3 گروه­بندي و طبقه­بندي   ......................................................................................

83

3-1-2-3 خلاصه­سازي   ....................................................................................................

84

4-1-2-3 روابط ميان مفاهيم   .............................................................................................

84

5-1-2-3 يافتن و تحليل گرايشات   ....................................................................................

84

6-1-2-3 برچسب زدن نحوي (pos)   ...............................................................................

85

7-1-2-3 ايجاد Thesaurus و آنتولوژي به صورت اتوماتيك   .........................................

85

2-2-3فرايند متن­كاوي   ...................................................................................................................

86

3-2-3 روشهاي متن­كاوي   ...............................................................................................................

87

مراجع   .....................................................................................................

89

دانلود پايان نامه Data Mining