1-3-2- سیستمهای چندعامله.. 14
1-3-2-1- مذاکره.. 17
1-4- بهرهگیری از عامل برای دادهکاوی.. 19
1-4-1- سیستمهای چندعامله، بستری برای دادهکاوی توزیع شده.. 19
1-5- جمعبندی.. 22
- فصل دوم – دادهکاوی پویا.. 23
2-1- مقدمهای بر دادهکاوی پویا.. 24
2-2- جریان داده.. 25
2-3- طبقهبندی جریان داده.. 26
2-3-1- موضوعات پژوهشی.. 27
2-4- جمعبندی.. 31
- فصل سوم – مروری بر کارهای انجام شده.. 33
3-1- مقدمه.. 34
3-2- دادهکاوی توزیعشده ایستا.. 35
3-2-1- روشهای غیرمتمرکز.. 36
3-2-2- روشهای مبتنی بر توزیع ذاتی دادهها.. 37
3-3- کارهای مهم انجام شده در زمینه دادهکاوی با استفاده از عامل 38
3-4- کارهای انجام شده در زمینه طبقهبندی جریان دادهها.. 41
3-4-1- روشهای طبقهبندی Ensemble-based. 41
3-4-2- درختهای تصمیم بسیار سریع.. 43
3-4-3- طبقهبندی On-Demand. 46
3-4-4- OLIN.. 48
3-4-5- الگوریتمهای LWClass. 49
3-4-6- الگوریتم ANNCAD.. 51
3-4-7- الگوریتم SCALLOP. 51
3-4-8- طبقهبندی جریان دادهها با استفاده از یک روش Rule-based. 53
3-5- جمعبندی.. 54
- فصل چهارم – تعریف مساله.. 55
4-1- مقدمه.. 56
4-2- تعریف مساله برای فاز اول.. 56
4-2-1- جریان داده.. 57
4-2-2- مفهوم یا مدل موجود در جریان داده.. 57
4-2-3- مساله طبقهبندی جریان دادههای دارای تغییر مفهوم.. 57
4-3- تعریف مساله برای فاز دوم.. 59
- فصل پنجم – رویکردهای پیشنهادی.. 62
5-1- مقدمه.. 63
5-2- رویکرد پیشنهادی برای فاز اول پروژه.. 63
5-2-1- عامل و ویژگیهای آن در این مساله.. 64
5-2-2- عملکرد کلی عامل.. 65
5-2-3- معماری عامل.. 66
5-2-3-1- حسگرها .. 67
5-2-3-2- پایگاه دانش عامل.. 68
5-2-3-3- تابع ارزیابی محیط.. 70
5-2-3-3-1- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده 70
5-2-3-3-2- نحوه استخراج الگوهای recur 70
5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur 73
5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص.. 74
5-2-3-4- تابع سودمندی.. 75
5-2-3-5- بخش تصمیمگیری و Planning. 79
5-2-3-5-1- بخش تصمیمگیری.. 79
5-2-3-5-2- Planning. 83
5-2-3-6- بخش Action. 86
5-3- رویکرد پیشنهادی برای فاز دوم مساله.. 87
5-3-1- عاملهای مشتری.. 88
5-3-2- عامل صفحه زرد.. 90
5-3-3- عاملهای دادهکاو.. 91
5-3-3-1- معماری عاملهای دادهکاو.. 92
5-3-3-1-1- تابع BRF. 94
5-3-3-1-2- تابع Generate Options. 95
5-3-3-1-3- تابع فیلتر.. 95
5-3-3-1-4- بخش Actions. 96
5-3-3-1-5- Plan های عامل.. 97
5-3-3-1-5- 1- Plan مربوط به طبقهبندی.. 97
5-3-3-1-5-2- Plan مربوط به تطبیق طبقهبند .. 98
5-3-3-1-5-3- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره 101
5-4- جمعبندی.. 111
- فصل ششم – آزمایشات و نتایج.. 113
6-1- مقدمه.. 114
6-2- محیط عملیاتی.. 114
6-3- مجموعه دادههای مورد استفاده.. 116
6-3-1- مجموعه دادههای استاندارد.. 116
6-3-2- مجموعه دادههای واقعی.. 117
6-4- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه.. 117
6-5- آزمایشات انجام شده.. 118
6-5-1- آزمایشات مربوط به فاز اول.. 119
6-5-2- آزمایشات مربوط به فاز دوم.. 128
6-6- جمعبندی.. 130
- فصل هفتم- جمعبندی و نتیجهگیری.. 132
فهرست مراجع.. 136
فهرست اشکال
- شکل 1-1- معماری BDI در عامل.. 15
- شکل 3-1- درخت تحقیق مربوط به طبقهبندی در مبحث دادهکاوی.. 34
- 44
- شکل 3-3- چارچوب روش On-Demand. 47
- شکل 3-4- نمایی از سیستم OLIN.. 49
- شکل 3-5- پروسه SCALLOP. 53
- شکل 5-1- نمودار ترتیب عملکرد عامل پیشنهادی.. 66
- شکل 5-2- معماری عامل پیشنهادی.. 67
- شکل 5-3- پنجره نظاره بر روی جریان دادهها.. 68
- شکل 5-4- گراف ایجاد شده از روی رشته مفهومها.. 71
- شکل 5-5- محل تجمع الگوهای استخراج شده از رشته مفهومها.. 73
- شکل 5-6- میزان محاسبه شده احتمالها به ازای مقادیر مختلف K 81
- شکل 5-7- شبه کد Plan کلی عامل.. 83
- شکل 5-8- نسبت واریانس به حاصلضرب 50 متغیر دارای مجموع ثابت.. 85
- شکل 5-9- وزن دهی چند داده مختلف.. 86
- شکل 5-10- نمایی کلی از سیستم چندعامله ایجاد شده.. 88
- شکل 5-11- معماری BDI عامل دادهکاو.. 93
- شکل 5-12- بخشی از جریان داده و قواعد استخراج شده از آن.. 99
- شکل 5-13- بخشی از جریان داده و قواعد استخراج شده از آن.. 101
- شکل 6-1- کد نمونه برای استفاده از بسته نرم افزاری weka. 115
- شکل 6-2- زمان لازم بر حسب میلی ثانیه برای دادههای Stagger .. 120
- شکل 6-3- زمان مصرف شده برای تطبیق طبقهبند.. 120
- شکل 6-4- نمودار مربوط به زمان پردازش روشهای مختلف برای دادههای HyperPlan 121
- شکل 6-5- زمان مصرف شده برای تطبیق طبقهبند .. 121
- شکل 6-6- نمودار مربوط به زمان پردازش روشهای مختلف برای دادههای Nursery 122
- شکل 6-7- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Nursery 122
- شکل 6-8- عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan 124
- شکل 6-9- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 124
- شکل 6-10- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 125
- شکل 6-11- زمان مصرف شده برای تطبیق طبقهبند برای دادههای HyperPlan 125
- شکل 6-12- عملکرد روشهای مختلف بر روی مجموعه داده Stagger .. 126
- شکل 6-13- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Stagger 126
- شکل 6-14- عملکرد روشهای مختلف بر روی مجموعه داده Nursery .. 127
- شکل 6-15- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Nursery 127
- شکل 6-16- نمودار نتایج حاصل از طبقهبندی توزیع شده مجموعه داده Nursery 130
فهرست جدولها
- جدول 1-1- ویژگیهای یک عامل .. 11
- جدول 3-1- ماتریس حاصل از روش LWClass. 51
- جدول 3-2- مقایسه تکنیکهای ذکر شده.. 54
- جدول 5-1- ساختار اطلاعاتی ذخیره شده برای هر مفهوم و الگو.. 69
- جدول 5-2- ساختار اطلاعاتی مربوط به وقوع الگوی “CFDA”.. 75
- جدول 5-3- نمونه ای از خروجی تابع سودمندی عامل.. 81
- جدول 5-4- اطلاعات مورد استفاده برای تخمین سودمندی یک قاعده.. 105
- جدول 6-1- دقت طبقهبندی روشهای مختلف.. 128
- جدول 6-2- نتایج حاصل از طبقهبندی توزیع شده مجموعه داده Nursery در سه مفهوم مختلف 130
فصل اول
معرفی و آشنایی با مفاهیم اولیه
فصل اول
معرفی و آشنایی با مفاهیم اولیه
1-1- مقدمهای بر دادهکاوی
دادهکاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه دادههای موجود میباشد[38]. دادهکاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با استفاده از ابزارهای مربوطه بهره می گیرد. میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین دادههای فعلی و پیشبینی موارد نامعلوم و یا مشاهده نشده عمل میکند. برای انجام عملیات دادهکاوی لازم است قبلا روی دادههای موجود پیشپردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصهسازی و کلیسازی دادهها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از دادههای اولیه، که تحت عملیات دادهکاوی نتایج تقریبا یکسانی با نتایج دادهکاوی روی اطلاعات اولیه به دست دهد[38]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصهسازی و کلیسازی دادهها می رسد. دادههای موجود در بانکهای اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصهسازی مجموعه بزرگی از دادهها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلیسازی اطلاعات، فرآیندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روشهای دادهکاوی به سه دسته کلی تقسیم میشوند که عبارتند از خوشهبندی، طبقهبندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی مینماییم.
1-1-1- خوشهبندی
فرآیند خوشهبندی سعی دارد که یک مجموعه داده را به چندین خوشه تقسیم نماید بطوریکه دادههای قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با دادههای خوشههای دیگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشهبندی دادهها وجود دارد که بر اساس نوع دادهها، شکل خوشهها، فاصله دادهها و غیره عمل خوشهبندی را انجام میدهند. مهمترین روشهای خوشهبندی در زیر معرفی شدهاند:
روشهای تقسیمبندی : روشهای خوشهبندی که بروش تقسیم بندی عمل میکنند، دادههای موجود در یک مجموعه داده را به k خوشه تقسیم میکنند، بطوریکه هر خوشه دو خصوصیت زیر را داراست :
- هر خوشه یا گروه حداقل شامل یک داده میباشد.
- هر داده موجود در مجموعه داده دقیقا به یک گروه یا خوشه تعلق دارد.
معیار اصلی در چنین مجموعه دادههایی میزان شباهت دادههای قرار گرفته در هر خوشه میباشد. در حالیکه دادههای قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم میتواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشهبندی مقدار آن مشخص گردد.
[دوشنبه 1399-10-08] [ 02:17:00 ب.ظ ]
|