شبكه‌ عصبي عميق به رمزگشايي نحوه‌ي عملكرد مغز كمك مي‌كند

چهارشنبه ۱۴ آبان ۱۳۹۹ - ۰۹:۳۰
مطالعه 12 دقيقه
مرجع متخصصين ايران
برخي از دانشمندان علوم اعصاب مي‌گويند شبكه‌ عصبي عميق مي‌تواند مدل‌ خوبي براي نشان دادن نحوه‌ي سازماندهي مغز انسان باشد.
تبليغات

در زمستان سال ۲۰۱۱ دانيل يامينز ،پژوهشگر علوم اعصاب محاسباتي در مؤسسه فناوري ماساچوست، گاهي اوقات تا پاسي از شب روي پروژه‌ي بينايي ماشين خود كار مي‌كرد. او با راهنمايي استادش جيمز دي‌كارلو، در حال طراحي سيستمي بود كه بتواند اشياء موجود در تصاوير را بدون توجه به تغييرات اندازه و خصوصيات ديگر تشخيص دهد. اين سيستم، يك شبكه‌ي عصبي عميق بود كه نوعي ابزار محاسباتي است و از ارتباطات عصبي موجود در مغزهاي زنده الهام گرفته شده. يامينز درنهايت موفق شد و شبكه‌اي عصبي طراحي كرد كه اين وظيفه را انجام مي‌داد.

موفقيت يامينز تنها يكي از دستاوردهاي قابل ‌توجه در هوش مصنوعي بود كه شبكه‌هاي عصبي را به ابزار محبوب اين فناوري تبديل مي‌كرد؛ اما هدف اصلي يامينز و همكارانش اين نبود. آن‌ها به ‌دنبال ايجاد مدل‌هاي محاسباتي بودند كه عملكرد مغز را نشان دهد.

دي‌كارلو و يامينز از اعضاي انجمن دانشمندان علوم اعصاب هستند كه از شبكه‌هاي يادگيري عميق براي درك معماري مغز استفاده مي‌كنند. اين دانشمندان در تلاش براي درك علل پشت‌صحنه‌ي تخصص‌ مغز براي انجام وظايف مختلف بوده‌اند. آن‌ها نه‌تنها در اين مورد كنجكاو بوده‌اند كه چرا قسمت‌هاي مختلف مغز وظايف مختلفي انجام مي‌دهد، بلكه چرا اين تفاوت‌ها مي‌تواند بسيار ويژه باشد: براي مثال، چرا مغز منطقه‌اي براي تشخيص كلي اشياء دارد؛ اما به‌طور خاص منطقه‌اي نيز براي تشخيص چهره دارد.

پژوهشگران نشان داده‌اند شبكه‌هاي يادگيري عميقي كه در طبقه‌بندي گفتار، موسيقي و بوهاي شبيه‌سازي‌شده‌ كارآمد هستند،ساختاري نظير سيستم‌هاي شنوايي و بويايي مغز دارند. چنين شباهت‌هايي همچنين در شبكه‌هاي عميقي نشان داده مي‌شود كه مي‌توانند با يررسي صحنه‌اي دوبعدي، ويژگي‌هاي اشياء سه‌بعدي درون صحنه را استنباط كنند.

شبكه‌هاي عميق و بينايي

شبكه‌هاي عصبي مصنوعي از اتصال اجزايي به ‌نام پرسپترون تشكيل مي‌شوند كه مدل‌هاي ديجيتال ساده‌اي از نورون‌هاي زيستي هستند. اين شبكه‌ها حاوي حداقل دو لايه پرسپترون‌ هستند؛ يكي براي لايه‌ي ورودي و ديگري براي لايه‌ي خروجي. يك يا چند لايه‌ي پنهان بين لايه‌ي ورودي و خروجي قرار دارد و در اين حالت گفته مي‌شود آن شبكه عميق است. هرچه تعداد لايه‌هاي پنهان بيشتر باشد، شبكه عميق‌تر است.

شبكه‌هاي عميق را مي‌توان براي انتخاب الگوي داده‌ها يادگيري داد؛ مانند الگوهايي كه نشان‌دهنده‌ي تصاوير گربه يا سگ هستند؛ به‌طوري‌كه شبكه ياد بگيرد يك ورودي خاص (پيكسل‌هاي تصوير) را با برچسب صحيح (سگ يا گربه) مرتبط كند. پس از يادگيري، شبكه‌ي عميق بايد بتواند ورودي‌هايي كه قبلا نديده است، طبقه‌بندي كند.

شبكه‌هاي يادگيري عميق به‌ دنبال تقليد از ساختار و عملكرد مغز هستند. البته دانشمندان عصب‌شناس در اين مقايسه به محدوديت‌هاي مهمي اشاره مي‌كنند: براي مثال، نورون‌هاي انفرادي ممكن است اطلاعات را جامع‌تر از پرسپترون‌ها پردازش كنند و شبكه‌هاي عميق غالبا به‌ نوعي از ارتباط ميان پرسپترون‌ها كه «پس‌انتشار» نام دارد، وابسته‌اند كه در سيستم‌هاي عصبي رخ نمي‌دهد. بااين‌حال براي دانشمندان علوم اعصاب محاسباتي، شبكه‌هاي عميق از بهترين گزينه‌ها‌ي دردسترس براي مدل‌سازي مغز به‌شمار مي‌روند.

پژوهشگران توسعه‌دهنده‌ي مدل‌هاي محاسباتي سيستم بينايي، تحت‌ تأثير آنچه در مورد سيستم بينايي اوليه مي‌دانيم و خصوصا مسير مسئول تشخيص افراد، مكان‌ها و اشياء - كه «جريان بصري شكمي» ناميده مي‌شود - قرار گرفته‌اند (مسيري جداگانه‌اي كه جريان بصري پشتي نام دارد، اطلاعات مربوط به ديدن حركت و موقعيت اشياء را پردازش مي‌كند.) در انسان‌ها، اين مسير شكمي از چشم شروع مي‌شود و به هسته زانويي جانبي در تالاموس مي‌رسد كه نوعي ايستگاه تقويت اطلاعات حسي به ‌شمار مي‌رود. هسته زانويي جانبي به منطقه‌اي به‌نام V1 در قشر بينايي اوليه متصل مي‌شود كه در پايين‌دست آن نواحي V2 و V4 قرار گرفته‌اند كه در نهايت به قشر گيجگاهي تحتاني منتهي مي‌شود.

انديشه متخصصينات اصلي علوم اعصاب اين است كه پردازش اطلاعات بصري به‌صورت سلسله مراتبي و مرحله‌اي انجام مي‌شود: مراحل اوليه، ويژگي‌هاي رده‌پايين را در ميدان بينايي پردازش مي‌كنند؛ درحالي‌كه نمايش‌هاي پيچيده بعدا در قشر گيجگاهي تحتاني ظاهر مي‌شوند.

مرجع متخصصين ايران قشر بينايي مغز / primary visual cortex

بينش‌هاي الهام‌گرفته از مغز، طراحي شبكه‌ي عميق يامينز و همكارانش را هدايت مي‌كرد. شبكه يادگيري عميق آن‌ها داراي لايه‌هاي پنهاني بود كه برخي از آن‌ها عمل همتايي (كانولوشن) را انجام مي‌دادند كه فيلتر يكساني بر تمام قسمت‌هاي تصوير اعمال مي‌كرد. هر كانولوشن خصوصيات ابتدايي مختلف تصوير را ثبت مي‌كرد. همچون سيستم بينايي اوليه در مغز، ويژگي‌هاي ابتدايي‌تر در مراحل اوليه‌ي شبكه و ويژگي‌هاي پيچيده‌تر در مراحل عميق‌تر به ‌دست مي‌آمدند.

هنگامي كه شبكه عصبي پيچشي يا شبكه عصبي كانولوشني (CNN) براي طبقه‌بندي تصاوير يادگيري مي‌بيند، در ابتدا فيلترهاي شبكه با مقادير تصادفي مقداردهي مي‌شود و سپس مقادير صحيح مورد نياز براي انجام وظيفه را ياد مي‌گيرد. شبكه عصبي پيچشي چهار لايه‌ي پژوهشگران مي‌توانست هشت دسته اشياء (حيوانات، قايق‌ها، اتومبيل‌ها، صندلي‌ها، چهره‌ها، ميوه‌ها، هواپيماها و ميزها) را در ۵۷۶۰ تصوير سه‌بعدي واقع‌گرايانه تشخيص دهد.

بدون اينكه يامينز بداند، انقلابي در جهان بينايي كامپيوتر در حال وقوع بود كه رويكرد او و همكارانش را به‌طور مستقل تأييد مي‌كرد. پس از اينكه آن‌ها CNN خود را تكميل كردند، CNN ديگري به‌نام AlexNet در مسابقه‌ي سالانه‌ي تشخيص تصوير مشهور شد. شبكه‌ي AlexNet نيز مبتني‌ بر معماري پردازش سلسله مراتبي بود كه مشخصه‌هاي بصري ابتدايي را در مراحل اوليه و مشخصه‌هاي پيچيده‌تر را در مراحل بالاتر مي‌گرفت.

در مسابقه‌ي سال ۲۰۱۲، AlexNet تمام الگوريتم‌هاي آزمايشي ديگر را شكست داد: نرخ خطاي AlexNet تنها ۱۵/۳ درصد بود؛ درحالي‌كه نزديك‌ترين رقيب آن داراي نرخ خطاي ۲۶/۲ درصد بود. با پيروزي AlexNet، شبكه‌هاي عميق به مدعيان برحق حوزه‌ي هوش مصنوعي و يادگيري ماشين تبديل شدند.

اما يامينز و ديگر اعضاي گروه دي‌كارلو به‌دنبال نتيجه‌اي در زمينه‌ي علوم اعصاب بودند. سؤال آن‌ها اين بود كه اگر CNN آن‌ها از سيستم بصري تقليد مي‌كند، آيا مي‌تواند پاسخ‌هاي عصبي در برابر تصويري جديد را پيش‌بيني كند؟ آن‌ها براي پي ‌بردن به اين موضوع ابتدا فعاليت در مجموعه‌اي از نورون‌هاي مصنوعي شبكه را با فعاليت تقريبا ۳۰۰ مكان در جريان بصري شكمي دو ميمون رزوس مقايسه كردند و مطابقت آن‌ها را پيدا كردند. آن‌ها سپس از CNN براي پيش‌بيني نحوه‌ي واكنش اين مكان‌هاي مغزي هنگام نشان دادن تصويري جديد به ميمون‌ها، استفاده كردند. نتايج آن‌ها نشان‌دهنده‌ي تشابه آناتوميك بود و لايه‌هاي اوليه، مياني و آخر شبكه به ‌ترتيب، رفتارهاي مناطق اوليه، مياني و رده بالاتر مغز را پيش‌بيني مي‌كرد.

شبكه عميق ويژه براي طبقه‌بندي صداها

پس از ظاهر شدن نتايج يامينز و دي‌كارلو، جست‌وجوي مدل‌هاي شبكه عميق بهتر از مغز - خصوصا براي مناطق مغزي كه نسبت ‌به سيستم بصري اوليه كمتر مطالعه شده‌اند - آغاز شد. براي مثال، جاش مك‌درموت دانشمند عصب‌شناس مؤسسه فناوري ماساچوست، در مورد قشر شنوايي كنجكاو شد: آيا يادگيري عميق مي‌تواند به طرح فرضيه‌هايي در مورد اينكه مغز چگونه صداها را پردازش مي‌كند، كمك كند؟

گروه مك‌درموت كه شامل الكساندر كل و يامينز مي‌شد، شروع به طراحي شبكه‌هاي عميق براي طبقه‌بندي دو نوع صدا (موسيقي و گفتار) كردند. آن‌ها ابتدا براي پردازش صدا و دسته‌بندي صداها به كانال‌هاي فركانس متفاوت به‌عنوان ورودي‌هاي شبكه عصبي پيچشي، به روش كدنويسي سخت مدلي از حلزون گوش ايجاد كردند. شبكه‌ي عميق آن‌ها هم براي تشخيص واژه‌ها در كليپ‌هاي صوتي گفتار و هم براي تشخيص نوع كليپ‌هاي موسيقي آميخته با نويز پس‌زمينه يادگيري داده شد. اين تيم به‌دنبال معماري شبكه عميقي بود كه بتواند بدون نياز به منابع زياد، اين وظايف را به‌طور دقيق انجام دهد.

سه مجموعه معماري‌ها ممكن به ‌انديشه متخصصين مي‌رسيد. دو وظيفه‌ي شبكه‌ي عميق مي‌تواند فقط يك لايه‌ي ورودي داشته باشد و سپس به دو شبكه‌ي مجزا تقسيم شود. در انتهاي ديگر، وظايف مي‌توانند براي تمامي پردازش‌هاي خود از يك شبكه استفاده كنند و تنها در مرحله‌ي خروجي تقسيم شوند.  معماري شبكه مي‌تواند يكي از ده‌ها نوع مياني باشد كه برخي از مراحل در شبكه مشترك و برخي ديگر جدا باشند.

همان‌طور كه انتظار مي‌رفت، شبكه‌هايي كه بعد از لايه‌ي ورودي مسيرهاي اختصاصي داشتند، از شبكه‌هايي كه كل مسيرهاي آن‌ها مشترك بود، عملكرد بهتري داشتند. اگرچه يك شبكه‌ي تركيبي (مثلا شبكه‌اي با ۷ لايه مشترك پس از مرحله‌ي ورودي و سپس دو شبكه‌ي جداگانه كه هريك ۵ لايه جدا داشتند) تقريبا به ‌خوبي شبكه‌هاي كاملا جداگانه عملكرد مي‌كرد. مك‌درموت و همكارانش شبكه‌ي تركيبي را به‌عنوان شبكه‌اي انتخاب كردند كه با كمترين منابع محاسباتي، بهترين عملكرد را داشت.

مرجع متخصصين ايران انواع طراحي شبكه هاي عميق / designing deep networks

انواع مختلف طراحي شبكه‌ها براي انجام چند وظيفه

عملكرد اين شبكه با عملكرد انسان‌ همخواني داشت. اين نتايج همچنين با نتايج قبلي پژوهشگران مطابقت داشت كه نشان مي‌داد قشر شنوايي غير اوليه داراي مناطق مجزايي براي پردازش موسيقي و گفتار است. در آزمايشي كه در سال ۲۰۱۸ منتشر شد، اين مدل، فعاليت مغز را در انسان‌ پيش‌بيني كرد: لايه‌هاي مياني، پاسخ‌هاي قشر شنوايي اوليه و لايه‌هاي عميق‌تر پاسخ مناطق بالاتر قشر شنوايي را پيش‌بيني مي‌كردند. اين پيش‌بيني‌ها از پيش‌بيني‌هاي مدل‌هايي كه مبتني‌بر يادگيري عميق نبودند، بهتر بود.

نانسي كانويشر، عصب‌شناس مؤسسه فناوري ماساچوست، از مدل‌هاي مك‌درموت الهام گرفت. پژوهش‌هاي گذشته‌ي كانويشر نشان مي‌داد منطقه‌اي از قشر گيجگاهي تحتاني مغز به‌نام منطقه دوكي‌شكل چهره (FFA) براي شناسايي چهره‌ها تخصص پيدا كرده است. فعاليت اين منطقه از مغز هنگامي كه انسان‌ها به تصاوير چهره خيره مي‌شدند، بسيار بيشتر از زماني بود ‌كه به تصاوير اشياء نگاه مي‌كردند. چرا مغز پردازش چهره‌ها را از پردازش اشياء ديگر جدا مي‌كند؟

معمولا، پاسخ دادن به چنين سوالاتي براي علوم اعصاب دشوار بوده است. بنابراين، كانويشر و همكارانش براي نزديك شدن به پاسخ اين سؤال به شبكه‌هاي عميق روي آوردند. آن‌ها از نسخه‌‌ي عميق‌تري از AlexNet به‌نام VGG استفاده كردند و دو شبكه‌ي عميق جداگانه را براي انجام وظايف خاص يادگيري دادند: تشخيص چهره‌ها و تشخيص اشياء. شبكه‌ي عميق يادگيري‌ديده براي تشخيص چهره‌ها در تشخيص اشياء عملكرد خوبي نداشت و بالعكس. پژوهشگران در مرحله‌ي بعد، شبكه‌ي واحدي را براي انجام هر دو وظيفه يادگيري دادند. آن‌ها دريافتند كه شبكه به‌طور دروني خود را سازماندهي كرده است تا پردازش چهره‌ها و اشياء را در مراحل بعدي شبكه از هم تفكيك كند. اين نتايج با نحوه‌ي سازماندهي سيستم بينايي انسان سازگار است.

لايه‌هاي بو

سال گذشته، دانشمند عصب‌شناسي به‌نام رابرت يانگ و همكارانش از دانشگاه كلمبيا، شبكه‌ي عصبي عميقي را براي مدل‌سازي سيستم بويايي مگس ميوه طراحي كردند. سيستم بويايي مگس ميوه به‌خوبي شناسايي شده است. اولين لايه از پردازش بو شامل نورون‌هاي حسي بويايي مي‌شود كه هريك از آن‌ها فقط يكي از حدود ۵۰ نوع گيرنده‌ي بو را بيان مي‌كنند. نورون‌هاي حسي از نوع يكسان (به‌طور متوسط حدود ۱۰ عدد از آن‌ها) در لايه‌ي بعدي به يك خوشه‌ي عصبي واحد مي‌رسند. در هر طرف از مغز در اين لايه، حدود ۵۰ مورد از اين خوشه‌هاي عصبي وجود دارد؛ بنابراين، اين يك انتقال يك‌به‌يك را بين انواع نورون‌هاي حسي و خوشه‌هاي عصبي متناظر ايجاد مي‌كند. خوشه‌هاي عصبي در لايه‌ي بعدي كه لايه كنيون نام دارد، چندين ارتباط تصادفي با نورون‌ها دارند. لايه‌ي كنيون حدود ۲۵۰۰ نورون دارد كه هريك از آن‌ها حدود ۷ ورودي دريافت مي‌كنند. لايه‌ي نهايي كه از حدود ۲۰ نورون تشكيل شده است، خروجي را فراهم مي‌كند كه مگس از آن براي هدايت اعمال مرتبط با بو استفاده مي‌كند.

يانگ و همكارانش براي اينكه ببينند آيا مي‌توانند يك مدل محاسباتي براي تقليد از اين فرايند طراحي كنند، ابتدا مجموعه داده‌اي را براي تقليد از بوها ايجاد كردند كه نورون‌ها را به شيوه‌اي متفاوت از تصوير فعال مي‌كرد. اگر دو تصوير گربه را روي هم قرار دهيد و آن‌ها را پيكسل به پيكسل اضافه كنيد، تصوير حاصل ممكن است مانند گربه به ‌انديشه متخصصين نرسد؛ اما اگر بوي دو سيب را با هم مخلوط كنيد، احتمالا هنوز بويي مانند سيب مي‌دهد. يانگ و گروهش براي طراحي وظيفه‌ي بويايي اين ايده را دنبال كردند.

پژوهشگران شبكه عميق خود را با چهار لايه ساختند: سه لايه كه لايه‌هاي پردازش‌كننده را در مگس ميوه مدل‌سازي مي‌كرد و يك لايه‌ي خروجي. هنگامي كه آن‌ها اين شبكه را براي طبقه‌بندي بوهاي شبيه‌سازي‌شده يادگيري دادند، متوجه شدند شبكه به همان شكلي كه در مغز مگس ميوه ديده مي‌شود، ارتباطاتي ايجاد كرد: يك انتقال يك‌به‌يك از لايه‌ي ۱ به لايه‌ي ۲ و سپس يك مسيردهي پراكنده و تصادفي (۷ به ۱) از لايه ۲ به لايه ۳. اين تشابه نشان مي‌دهد كه هم تكامل و هم شبكه‌ي عميق به راه‌حل بهينه‌ي يكساني رسيده‌اند.

شبكه‌هاي عميق جعبه‌هاي سياه نيستند

شبكه‌هاي يادگيري عميق اغلب به ‌دليل عدم قابليت تعميم به داده‌هايي كه از مجموعه داده‌هاي يادگيري فاصله‌ي زيادي دارند، مورد تمسخر قرار مي‌گيرند. آن‌ها همچنين به‌ دليل عملكرد مشابه جعبه سياه، بدنام هستند. توضيح تصميمات شبكه عميق با مطالعه پارامتري‌هاي سازنده آن‌، غير ممكن است.

سال گذشته، تيم دي‌كارلو نتايجي را منتشر كرد كه به موضوع ابهام و عدم قابليت تعميم شبكه‌هاي عميق مي‌پرداخت. پژوهشگران از نسخه‌اي از AlexNet براي مدل‌سازي جريان بصري شكمي ماكاك‌ها استفاده كردند و تشابهات واحدهاي نورون مصنوعي و مكان‌هاي عصبي را در منطقه‌ي V4 ميمون‌ها كشف كردند. آن‌ها سپس با استفاده از مدل محاسباتي تصاويري ايجاد كردند كه طبق پيش‌بيني آن‌ها، باعث افزايش غير عادي در فعاليت نورون‌ها در ميمون‌ها مي‌شد. در يكي از آزمايش‌ها، وقتي اين تصاوير غير طبيعي به ميمون‌ها نشان داده شد، فعاليت عصبي در مكان‌هاي عصبي تا ۶۸ درصد بيش از سطوح عادي افزايش يافت. در آزمايش ديگر، آن تصاوير فعاليت يك نورون را افزايش مي‌داد و فعاليت نورون‌هاي نزديك را سركوب مي‌كرد. هر دو نتيجه را مدل شبكه عصبي پيش‌بيني مي‌كرد. ازانديشه متخصصين پژوهشگران، اين نتايج نشان مي‌دهد شبكه‌هاي عميق را مي‌توان درمواردي به مغز تعميم داد.

البته همگرايي در ساختار و عملكرد بين شبكه‌هاي عميق و مغز لاخبار تخصصيا به اين معنا نيست كه هردو به يك شيوه عمل مي‌كنند. از برخي جهات عملكرد آن‌ها به‌وضوح با هم فرق دارد؛ اما ممكن است شباهت‌هاي كافي ميان دو سيستم وجود داشته باشد كه نشان دهد هر دو از اصول كلي يكساني پيروي مي‌كنند.

محدوديت‌هاي مدل‌ها

مك‌درموت ارزش درماني بالقوه‌اي در مطالعات شبكه عميق مي‌بيند. امروزه وقتي افراد شنوايي خود را از دست مي‌دهند، معمولا به‌علت تغييراتي است كه در گوش رخ مي‌دهد. سيستم شنوايي مغز بايد با ورودي ناقص كنار آيد. مك‌درموت مي‌گويد: «اگر بتوانيم به كمك اين مدل‌ها عملكرد سيستم شنوايي را بهتر بشناسيم، روش‌هاي بهتري براي كمك به شنوايي اين افراد پيدا خواهيم كرد.» بااين‌حال، مك‌درموت در مورد محدوديت‌هاي شبكه‌هاي عميق محتاط و در اين مورد به مطالعه مشغول است. درزمينه‌ي مطالعه اين محدوديت‌ها، پژوهشگران در آزمايشگاه مك‌درموت روي «متامرها» تمركز كردند كه از انديشه متخصصين فيزيكي، سيگنال‌هاي ورودي متمايزي هستند كه در يك سيستم، نمايش يكساني توليد مي‌كنند. براي مثال، دو متامر صوتي اشكال موجي متفاوتي دارند اما براي انسان يكسان به ‌انديشه متخصصين مي‌رسند.

پژوهشگران با استفاده از مدل شبكه عميق از سيستم شنوايي، متامرهايي از سيگنال‌هاي شنوايي طبيعي را طراحي كردند. اين متامرها مراحل متفاوتي از شبكه‌ي عصبي را به همان روش كليپ‌هاي صوتي، فعال مي‌كردند. اگر شبكه‌ي عصبي، سيستم شنوايي انسان را به‌درستي مدل‌سازي مي‌كرد، بايد متامرها مانند هم به‌ انديشه متخصصين مي‌رسيدند؛ اما چنين چيزي اتفاق نيفتاد و انسان‌ها متامرها را از هم تشخيص مي‌دادند.

در دانشگاه استنفورد، يامينز درحال مطالعه تفاوت مدل‌ها و مغز است. به‌عنوان مثال، بسياري از مدل‌ها براي يادگيري به حجم عظيمي از داده‌هاي برچسب‌خورده نياز دارند؛ درحالي‌كه مغز مي‌تواند بدون هيچ زحمتي با استفاده از يك مثال ياد بگيرد. تلاش‌هايي براي ايجاد شبكه‌هاي يادگيري عميق بدون نظارت در حال انجام است كه بتوانند با همين كارآيي ياد بگيرند.

جاش ﺗﺎﻧﻨﺒﺎﺋﻮم، عصب‌شناس مؤسسه فناوري ماساچوست، مي‌گويد: «درحالي‌كه تمامي اين مدل‌هاي شبكه عميق از مراحل واقعي پيشرفت هستند، آن‌ها غالبا وظيفه‌ي طبقه‌بندي را انجام مي‌دهند.» اين درحالي است كه مغز ما كار بسيار بيشتري انجام مي‌دهد. سيستم بينايي ما مي‌تواند هندسه‌ي سطوح و ساختار سه‌بعدي يك صحنه را درك كند و مي‌تواند در مورد عوامل پشت‌صحنه‌اي كه موجب اتفاقي شده‌اند، استدلال كند. براي مثال مغز در زمان واقعي مي‌تواند نتيجه‌گيري كند كه يك درخت به اين خاطر كه اتومبيلي از پيش آن عبور كرده است، ناپديد شده است.

براي درك اين توانايي مغز گروهي از پژوهشگران مدلي با نام مدل گرافيكي معكوس ساختند. اين مدل كار خود را با پارامترهاي توصيف‌كننده‌ي چهره‌اي آغاز مي‌كند كه بايد روي پس‌زمينه نشان داده شود؛ مانند شكل، بافت، جهت نور، موقعيت سر و موارد ديگر. يك برنامه گرافيكي كامپيوتري به‌نام «مدل مولد» صحنه‌اي سه‌بعدي از اين پارامترها ايجاد مي‌كند و پس از چندين مرحله پردازش، تصويري دو بعدي از آن صحنه ايجاد مي‌كند كه از جهت خاصي ديده مي‌شود.

پژوهشگران با استفاده از داده‌هاي سه‌بعدي و دوبعدي حاصل از مدل مولد، نسخه‌ي اصلاح‌شده‌اي از AlexNet را براي پيش‌بيني پارامترهاي احتمالي يك صحنه‌ي سه‌بعدي از روي يك تصوير دوبعدي ناآشنا، يادگيري دادند. ﺗﺎﻧﻨﺒﺎﺋﻮم گفت: «سيستم ياد مي‌گيرد از اثر به‌علت پي ببرد و از تصوير دوبعدي به تصوير سه‌بعدي كه آن را توليد كرده است، برسد.» اين تيم مدل خود را با تأييد پيش‌بيني‌هاي آن در مورد فعاليت در قشر گيجگاهي تحتاني ميمون‌هاي رزوس آزمايش كرد. آن‌ها ۱۷۵ تصوير را به ماكاك‌ها نشان دادند كه ۲۵ نفر را در ۷ موقعيت نشان مي‌دادند و سيگنال‌هاي عصبي حاصل از مناطق مربوط به تشخيص چهره در مغز را ثبت كردند.

پژوهشگران همچنين تصاوير را به شبكه يادگيري عميق خود نشان دادند. در شبكه، فعال‌سازي نورون‌هاي مصنوعي در لايه‌ي اول نشان‌دهنده‌ي تصوير دوبعدي و فعال‌سازي در لايه‌ي دوم نشان‌دهنده‌ي پارامترهاي سه‌بعدي است. پژوهشگران متوجه شدند كه سه لايه‌ي آخر شبكه به‌طور چشمگيري با سه لايه‌ي آخر شبكه پردازش چهره در ماكاك‌ها مطابقت دارد. اين امر نشان مي‌دهد كه مغز نه‌تنها براي تشخيص و تعيين ويژگي اشياء بلكه براي استنباط ساختارهاي سببي درون صحنه‌ها، از تركيب مدل‌هاي شناخت و مولد استفاده مي‌كند و تمامي اين‌ها در يك لحظه اتفاق مي‌افتد. ﺗﺎﻧﻨﺒﺎﺋﻮم تصديق مي‌كند كه مدل آن‌ها اثبات نمي‌كند مغز به اين شيوه كار مي‌كند؛ اما به ‌انديشه متخصصين او راهي براي درك بهتر عملكرد مغز فراهم مي‌آورد.

جديد‌ترين مطالب روز

هم انديشي ها

تبليغات

با چشم باز خريد كنيد
اخبار تخصصي، علمي، تكنولوژيكي، فناوري مرجع متخصصين ايران شما را براي انتخاب بهتر و خريد ارزان‌تر راهنمايي مي‌كند
ورود به بخش محصولات