تخمین سن بیولوژیکی مغز توسط اطلاعات ضخامت قشر مغز- قسمت دوم


در بررسی مقاله‌ای پیرامون تخمین سن بیولوژیکی مغز توسط اطلاعات ضخامت قشر مغز، در بخش قبلتا آنجا پیش رفتیم که  پیش پردازش داده‌ها انجام گرفت و داده‌های پرت نیز شناسایی و حذف شدند.
بنابراین اکنون داده های ما آماده‌ی استفاده در مدل هستند.

روش پیشنهاد شده برای مدل کردن سن مغز:

همانطور که می‌دانیم، پیش بینی سن مغز یک مساله ی Supervised Regression است که خروجی این Regression، سن بیولوژیکی مغز فرد است.

بزرگترین چالش در مسائل تخمین سن بیولوژیکی مغز توسط ویژگی‌های آناتومی مغز، Overfitting است که با توجه به همبستگی ویژگی‌های مغز اتفاق می‌افتد، که ایجاد تعادل بین bias و variance به حل این مشکل کمک خواهد کرد.
اما یکی از مهم‌‌‌ترین چالش‌های روش ما، انتخاب مهم‌ترین متغیر یا prediction variables از میان ویژگی‌های موجود (148 ویژگی که از ضخامت قشر به‌دست آمده بودند و ویژگی‌های تحصیل و جنسیت) است. دراین مقاله، برای این انتخاب، از روش Sparse Group Lasso استفاده شده است.

Sparse Group Lasso

Sparsity یا پراکندگی، ویژگی‌ای از روش‌های یادگیری است، که زمانی رخ می‌دهد که فقط تعداد بسیار کمی از ضرایبِ مدل غیرصفر باشند. روش Sparse Group Lasso، ویژگی Sparsity را در داخل و بینِ گروه‌ ها بررسی می‌کند و ویژگی‌های انتخاب شده توسط این روش، ویژگی‌هایی خواهند بود که دارای ضریب غیرصفر بوده‌اند.

معادله ی زیر، نشان‌دهنده‌ی یک ‌regression خطی چندگانه است که در آن Y بردار خروجی و X ماتریس متغیرهای ورودی است. ضریب β بردار وزن، و ε بردار خطاست.

با مینیمم کردن معادله ی زیر، تخمینی از ضریب β به‌ دست می‌آید.
معادله ی Lasso، برگرفته از همین معادله است و در واقع با مینیمم کردن رابطه ی زیر، مقدار β را تخمین می‌زند.

برای متغیرهای گروهی نیز، از Group Lasso استفاده می‌شود که در رابطه ی زیر ذکر شده است و در آن m، نشان دهنده‌ی تعداد گروه‌هاست.

با تلفیق دو رابطه‌ی فوق (تلفیق Lasso و Group Lasso) رابطه‌ی Sparse Group Lasso را داریم :

مقدار ضریب α، بین 0 و 1 است و وزنی که به Lasso و Group Lasso داده می‌شود را کنترل می‌کند. اگر مقدارα، برابر 0 باشد، معادله‌ی فوق به معادله‌ی Group Lasso و اگر این مقدار برابر 1 باشد به معادله ی Lasso تبدیل می‌شود و اگر مقداری بین 0 تا 1 را به پارامتر α اختصاص دهیم، تعادلی بین دو معادله ی Lasso و Group Lasso برقرار خواهد شد. در مدلی که در این مقاله ارائه شده‌است، مقدار α، برابر 0.25 در نظر گرفته‌شده‌است.

نتیجه ی ضرایب بدست آمده از SGL در این مدل sparse شد. یعنی تنها تعداد کمی از ضرایب غیرصفر شدند و بنابراین مهم‌ترین ویژگی‌ها با ضرایب غیرصفر، به راحتی انتخاب شدند.

بعد از اعمال الگوریتم SGL روی داده‌ها، برای انتخاب ویژگی‌ها، از بین 150 ویژگی موجود، 94 ویژگی انتخاب شدند (93 ویژگی از ضخامت قشر + ویژگی تحصیل).
در تصویر زیر، قسمت‌هایی از ضخامت قشر، که به انتخاب درآمده‌اند، با رنگ‌های آبی و قرمز مشخص شده‌است.

قابل ذکر است که مرحله‌ی انتخاب ویژگی 10 بار تکرار شد و تعداد61 ویژگی در تمامی این 10 تکرار به دست آمدند.

بعد از مرحله ی انتخاب ویژگی، روشهایی مانند RVR و SGL را روی آنها اعمال کرده تا سن مغز پیش بینی شود.


Stacked auto-encoder

Stacked auto-encoder یکDNN است که شامل لایه‌های چندگانه‌ای از Sparse autoencoder می‌باشد. خروجی هریک از این لایه‌ها، ورودی لایه‌ی بعد است.
این DNN شبکه‌ای است که برای مدل ارائه‌شده استفاده شده است. واضح است که ورودی این شبکه به ازای هر داده، بردار 94تایی ویژگی‌ها، و خروجی این شبکه سن بیولوژیکی تخمین زده شده‌است.
تعداد لایه های پنهان این DNN، برابر با 4 و تعداد نودهای هر یک از این لایه ها به‌ترتیب 94، 48، 48 و 94 است. برای train این DNN، از ReLU activation function و روش Droput برای Regularization استفاده شده است.


اما از آنجا که یکی از مهم‌ترین چالش‌های deep learning نیاز به یک مجموعه داده‌ی خیلی بزرگ برای رسیدن به دقت مناسب است، از cross validation نیز استفاده شده‌است.

cross validation

مجموعه داده ی مورد نظر (به تعدا 2705) به‌طور تصادفی به دو مجموعه ی test و train‌ تقسیم شده‌است. (حدودا ۷۰ درصد داده ها به مجموعه train و ۳۰ درصد داده ها به مجموعه‌ی test اختصاص داده شده‌است).
این عمل 10 بار متوالی انجام شده است و هر بار مجموعه ی train به طور تصادفی به 10 – fold cross validation تقسیم شده و هر بار قسمت اول به عنوان مجموعه‌ی validation انتخاب شده و مدل روی 9 قسمت دیگر train می‌شود.

سپس برای هر یک از این fold ها معیارهای Mean Square Error ،RMSE و MAE محاسبه شده‌است.

دراین رابطه n تعداد نمونه‌ها در مجموعه‌ی validationای که fold آن مشخص شده است، y_i سن واقعی و y ̂_i سن تخمین زده شده توسط مدل است.
رابطه‌ی زیر،(validation estimate (CVE cross را نشان می‌دهد که از میانگین‌گیری رابطه ی MSE به‌ دست می‌آید.
معیارهای RMSE و MAE نیز، حاصل میانگین گیری مقادیرRMSE_j وMAE_j است که در زیر آمده‌است:
که N_2 تعداد نمونه‌های موجود در مجموعه‌ی test در هر تکرار است.

در جداول زیر، نتایج بدست آمده از آزمایشات مختلف توسط مدل ارائه شده ذکر شده است.

خطای 4.05 همانطور که طبق جدول فوق واضح است، نسبت به روش‌های اخیر که از روش Surface-based استفاده کرده‌اند، نتیجه‌ی بسیار خوبی‌است.

طبق نمودار زیر، سن تخمین زده شده توسط مدل ارائه شده، برای افراد جوان‌تر بیشتر از سن واقعی آن‌ها، و سن تخمین زده شده برای افراد مسن‌‌ کمتر از سن واقعی آنها بوده است.


یک دیدگاه بگذارید