جستجو در محصولات

گالری پروژه های افتر افکت
گالری پروژه های PSD
جستجو در محصولات


تبلیغ بانک ها در صفحات
ربات ساز تلگرام در صفحات
ایمن نیوز در صفحات
.. سیستم ارسال پیامک ..
آناليز اجزاي اصلي (principal components analysis) در آمار
-(11 Body) 
آناليز اجزاي اصلي (principal components analysis) در آمار
Visitor 2629
Category: دنياي فن آوري

1- مقدمه:

در اين نوشتار قصد داريم به معرفي آناليز اجزا اصلي (Principal components analysis) به پردازيم. آناليز اجزا اصلي (pca)يک تکنيک مفيد آماري است که کاربرد آن در زمينه هاي از قبيل : تشخيص چهره،فشرده سازي تصوير و يک تکنيک رايج براي شناسايي يک نمونه در داده هاي از بعد بالا است.
اين تبديل که با اسامي ديگري چون هتلينگ(Hostelling Transform)، کارهانن-لو(Karhunen-Live Transform(KLT)) و بردار هاي ويژه نيز شناخته مي شود،تبديل بهينه در کارهاي فشرده سازي و کاهش بعد است و خطاي ميانگين مربعات حاصل از فشرده سازي را کمينه مي کند. هر چند اين تبديل به علت وابسته بودن به داده ورودي، جاي خود را در الگوريتم هاي کاربردي و عملي، به تبديل گسسته کسينوسي(Discret Cosine Transform(DCT)) داده است اما در صورت کافي بودن داده ورودي مي تواند تبديل بهينه را استخراج نمايد.
آناليز اجزاي اصلي يک روش اختياري چند منغيري است. اگر ما در جايي مجبور هستيم مهم ترين متغير را يا يک تعداد محدودي از متغير ها را دريک مجموعه انتخاب کنيم از آناليز اجزاي اصلي کمک مي گيريم .
آناليز اجزاي اصلي مي تواند هم چنين براي پيدا کردن سيگنال ها در اطلاعات نويزدار به کار رود.
قبل از اين که از آناليز اجزا اصلي توصيفي به دست آوريم ابتدا به معرفي مفاهيمي رياضي که در آناليز اجزا اصلي استفاده مي شود مي پردازيم.
اين قسمت انحراف معيار، کوورايانس ، بردارهاي مشخصه و مقادير ويژه را پوشش مي دهد.اين دور نما دانشي قابل فهم از قسمت هاي آناليز اجزا اصلي فراهم مي آورد.
در اين نوشتار مثال هاي وجود دارد که از طريق آن معني و مفهوم بحث را روشن مي سازد.

2- رياضيات زمينه(لازم):

در اين قسمت تلاش مي کند که مهارت هاي لازم در رياضيات پايه مورد نياز در آناليز اجزا اصلي بدست آوريم.
به خاطر سپردن طرز کار صحيح تکنيک رياضي نسبت به فهميدن دلايل اهميت کمتري دارد. زيرا که يک تکنيک ممکن استفاده شود و نتيجه عملي به ما در مورد داده نهايي بگويد.
در اين قسمت ابتدا به بخشي از آمار که در توزيع اندازه يا چگونگي پراکندگي داده ها است توجه مي کنيم و در بخش ديگر به ماتريس جبري، مقادير ويژه و بردار هاي مشخصه که مهمترين ويژگي يک ماتريس که اساس آناليز اجزا اصلي توجه مي کنيم.

2-1 آمار:

در سراسر بحث آماري ما با مجموعه نسبتا بزرگي از داده ها سر و کار داريم و بايد ارتباط (وابستگي) بين مجموعه با نقاط خاص در آن مجموعه داده را تحليل کنيم. اما ما قصد داريم در مجموعه داده ها توجه کنيم به تعداد کمي از اطلاعات و نتيجه اي که درباره اين مجموعه داده ها به ما مي دهد.

2-1-1 انحراف معيار استاندارد :

براي فهميدن انحراف معيار به يک مجموعه داده احتياج داريم. آمارشناسان معمولا علاقمند به نمونه گيري از جامعه هستند. براي استفاده کردن از روش هاي نمونه گيري به عنوان مثال جامعه تمام مردم يک کشور است. در حالي که يک نمونه يک زير مجموعه از جامعه است که آمارشناسان اندازه مي گيرند.
مطلب مهم ديگر درباره آمار اگر از سراسر جامعه استفاده مي کنيد اين است که فقط با اندازه گيري يک نمونه از جامعه شما مي توانيد با اندازه گيري احتمال(سنجش احتمال) کار کنيد.
در اين بخش آماري قصد داريم فرض کنيم که اطلاعات ما نمونه اي از جامعه است.
در اينجا يک مثال وجود دارد:
X = [1 2 4 6 12 15 25 45 68 67 65 98]
از علامت Xبراي اشاره به مجموعه اعداد استفاده مي کنيم.اگر به يک عدد خاص در مجموعه داده ها بخواهيم اشاره کنيم از يک زير نويس بر روي علامت X استفاده کنيم که يک عدد خاص را نشان مي دهد.
تعدادي مطلب درباره يک مجموعه داده است که ما مي توانيم حساب کنيم. براي مثال ما ميانگين نمونه ها را مي توانيم حساب کنيم. چون با مفهوم ميانگين نمونه اي آشنا هستيم فقط فرمول را ارائه مي کنيم:



اين فرمول مي گويد که همه اعداد با هم جمع شوند و سپس تقسيم به تعداد اعدادي که وجود دارد. متاسفانه، ميانگين به ما اطلاعات فراواني به جز تقريبا براي نقطه وسط به ما نمي دهد.
براي مثال دو مجموعه داده مقابل دقيقا ميانگين يکسان 10 دارند.
[0 8 12 20] , [8 9 11 12]
اما تفاوت اين دو مجموعه توزيع متفاوت اطلاعات است.به همين دليل از انحراف معيار استفاده مي کنيم (sd) .انحراف معيار يک مجموعه چگونگي توزيع داده ها است.
تعريف انحراف معيار:معدل فاصله از نقطه ميانگين يک مجموعه داده.

از فرمول زير استفاده مي کنيم:





مربع فاصله هر نقطه از ميانگين مجموعه و آنها را جمع کرده و تقسيم بر n-1 مي کنيم و ريشه دوم مثبت مي گيريم.
علامتS معمولا براي نشان دادن انحراف معيار يک نمونه به کار مي رود.
اگر مجبور به استفاده از سراسر جامعه بوديد از تقسيم برn استفاده کنيد و اگر از نمونه استفاده مي کنيد از تقسيم بر n استفاده کنيد.
براي مجموعه بالا انحراف معيار در جدول زير محاسبه شده اند:













انتظار داريم مجموعه اول انحراف معيار بزرگتري داشته باشد به اين خاطر که داده ها از ميانگين فاصله بيشتري دارند.
فقط به عنوان يک مثال ديگر مجموعه داده هاي زير ميانگين و انحراف معيار 10 دارند زيرا همه اعداد يکي هستند. هيچ کدام از آن ها از ميانگين منحرف نمي شوند.
[10 10 10 10]

2-1-2 واريانس:

واريانس معيار ديگري از پراکندگي مجموعه داده ها است. در واقع تقريبا با انحراف معيار برابر است. فرمول آن به صورت زير است:




با توجه هر دو علامت و فرمول متوجه مي شويد که واريانس مربع انحراف معيار است.
S2 علامت معمولي براي واريانس يک نمونه است. هر دو اين مقياس از پراکندگي داده ها هستند. انحراف معيار مقياس معمولي تري است. اما واريانس هم استفاده مي شود.

2-1-3 کوواريانس:

دو مقياس آخر که ما به آن ها توجه داريم صرفا کمي هستند. مجموعه داده ها مانند موارد زير مي تواند باشد: بلندي همه افراد در يک اتاق،نمره هاي آخرين امتحان و غيره.
اما با وجود اين براي تعداد زيادي از مجموعه داده ها مي تواند بيش از يک بعد وجود داشته باشد و هدف از تحليل آماري اين مجموعه داده ها معمولا اين است: ارتباطي که بين بعد ها وجود دارد را بفهميم.
براي مثال ممکن است مجموعه داده هايمان هر دو بلندي همه دانش آموزان يک کلاس باشد . ما ميتوانيم تحليل آماري آيا بلندي يک دانش آموز اثر بر روي نمودار دارد.
انحراف معيار و واريانس فقط بر روي يک بعد عمل مي کنند. شما فقط انحراف معيار را به طور جداگانه براي هر بعد از مجموعه داده ها مي توانيد حساب کنيد.مفيد است که مقياسي براي اندازه گيري اختلاف از ميانگين نسبت به يکديگر داشته باشيم. کوواريانس يک چنين مقداري است.
کوواريانس هميشه بين دو بعد اندازه گيري مي شود. اگر کوواريانس را بين يک بعد و خودش حساب کنيد در واقع شما واريانس را حساب کرده ايد. اگر شما يک سري داده سه بعدي (X,Y,Z) داشته باشيد مي توانيد کوورايانس را بين دو بعدX,Y دو بعد X,Z و دو بعدY,Z حساب کنيد. اندازه گيري کوواريانس بين X,X يا Y,Y و يا Z,Z به شما واريانس بعد هاي را به ترتيب مي دهد.
فرمول محاسبه کوواريانس بسيار شبيه فرمول محاسبه واريانس است. فرمول محاسبه واريانس را نيز مي توان مشابه اين عبارت نوشت:جمله درجه دوم نشان داده شده را به دو بخش بسط داده ايم زيرا اين دانشي براي محاسبه کردن کوواريانس به ما مي دهد.




اين دقيقا همان فرمول واريانس است به جز آن که در دومين مجموعه از پرانتزهاY جايگزين X شده است.
تعريف کوواريانس: براي هر قلم داده تفاوت بين ارزشX و ميانگينX را با تفاوت بين ارزشY ضرب مي کند و تقسيم برn-1.
فرض مي کنيم از يک گروه دانش آموز سوال شده است که در درس خاصي چه نمره اي دريافت کرده اند و چه تعداد ساعت آن ها در کل صرف مطالعه کرده اند. بنا بر اين ما دو بعد داريم اولين بعدH تعداد ساعت مطالعه است و دومين بعد M نمره کسب شده است.
شکل زير به ما اطلاعات فرضي را نشان مي دهد. و cov(H,M) کوواريانس ساعت هاي مطالعه کردن و نمره گرفتن را محاسبه مي کند.












بنا براين کوواريانس به چه چيزي را نشان مي دهد؟ ارزش درست به اهميت علامت آن (مثبت يا منفي) نيست. اگر ارزش مثبت باشد، نشان مي دهد که هر دو بعد با هم افزايش مي يابند، مثلا افزايش ساعت مطالعه، نمره پاياني را افزايش مي دهد. اگر ارزش منفي است، اگر يک بعد افزايش يابد، بعد ديگر کاهش مي يابد. اگر کوواريانس را منفي بدست آوريم پس آنچه به ما مي گويد مخالف هم هستند، که با افزايش ساعت مطالعه نمره پاياني کاهش مي يابد. در بعضي موارد که کوواريانس صفر مي شود نشان مي دهد که دو بعد مستقل از هم هستند.
نتيجه اي که با افزايش نمره به ما مي گويد مثلا افزايش ساعت مطالعه مي توان به آساني با رسم يک نمودار از اطلاعات ديد مانند شکل زير:















از آن جا که ارزش کوورايانس را بين هر دو بعد در مجموعه اطلاعات مي توان حساب کرد اين تکنيک اغلب براي پيدا کردن ارتباط بين بعدها در ابعاد بزرگ مجموعه اطلاعات که تجسم آن مشکل است استفاده مي شود.
منبع:
http://www.ehsan42001.blogfa.com
منبع:
/الف
Add Comments
Name:
Email:
User Comments:
SecurityCode: Captcha ImageChange Image