آيا دستيارهاي صوتي مجازي به اندازه كافي هوشمند شدهاند
در سپتامبر ۲۰۱۸، آمازون با برگزاري رويدادي مطبوعاتي در ساختمان گنبديشكل خود در سياتل، طيف متنوعي از محصولات سختافزاري جديدش را معرفي كرد كه براي كار با دستيار صوتي الكسا طراحي شدهاند. آمازون همچنين در اين مراسم برخي قابليتهاي تازه را براي الكسا معرفي كرد كه در اصل تلاشهاي اين شركت را براي ارتقاي حافظهي دستيار صوتياش نشان ميدادند. در حين ارائهي تواناييهاي تازهي الكسا، ديو ليمپ، مدير دستگاهها و سرويسهاي آمازون، فرماني را مبني بر پخش لالايي براي الكسا زمزمه كرد و الكسا نيز در مقابل با صداي آهسته به فرمان پاسخ داد؛ لحظهاي كه بدون شك درانديشه متخصصين افراد بدبين به هوش مصنوعي، ترسناك بهانديشه متخصصين ميآمد.
دستيارهاي مجازي مبتني بر صوت نظير الكسا و اسپيكرهايي كه آنها درونشان زندگي ميكنند ديگر تازگي ندارند. براساس يك برآورد، در سال ۲۰۱۸ صد ميليون دستگاه اسپيكر هوشمند در خانههاي سرتاسر جهان مستقر شدند؛ اما در سالي كه گذشت، شركتهاي سازندهي محصولات مبتني بر صوت تلاش كردند تا اين دستگاهها را به گجتهايي حساس تبديل كنند. الكسا اكنون ميتواند «شهودي» انسانگونه داشته باشد و رفتار ما را پيشبيني كند و گوگل اسيستنت نيز اين قابليت را دارد كه بدون نياز به تكرار هر بارهي واژهاي مشخص، بيدار بماند و گفتگويي را با افراد پيش ببرد. اگر رايانش محدودهاي – مفهومي كه در آن كامپيوترها در پيرامون ما حضور دارند و ميتوانند نيازهاي ما را احساس كنند و به آنها پاسخ دهند – چشماندازي است كه اهالي فناوري براي آيندهي ما ترسيم كردهاند، پس ۲۰۱۸ را ميتوان صرفا سال تمركز بيشتر بر اين رويا دانست؛ اما نه با سروصداي بلند، بلكه آهسته و نجواگونه.
البته، تكامل دستيارهاي صوتي با سرعت پاييني پيش ميرود. صحبت با اين دستيارها نظير الكسا، گوگل اسيستنت، سيري اپل و كورتاناي مايكروسافت همچنان مستلزم اداي جملات بهخصوصي است كه باعث ميشود هوش آنها چندان هم پيشرفته بهانديشه متخصصين نرسد. مطالعه اخيري از مؤسسهي پژوهشي IDC نشان داد كه ۵۲.۲ درصد از افرادي كه در سال گذشته يك اسپيكر هوشمند را مورد استفاده قرار دادهاند، اعلام كردند پلتفرم صوتيشان «صداي آنها را بهراحتي ميشوند»؛ بدين معني كه تقريبا نيمي از پاسخدهندگان در برقراري ارتباط با اسپيكرهاي هوشمند با دشواري مواجه بودهاند.
آدام رايت، تحليلگر ارشد پژوهشي از مؤسسهي IDC ميگويد:
هنوز اقدامات فراواني بايد انجام شود. برخلاف آنچه جو تبليغاتي به ما القا كرده است، اين پلتفرمها در حال تقلا براي آزادي از قيدوبند الزام متخصصان به اداي فرمانهاي صوتي ثابت و كامپيوترمحور هستند.
بااينحال، شكي نيست كه دستيارهاي صوتي در آشپزخانهها، خودروها، ادارات و هركجا كه موبايلهاي هوشمندمان را ميبريم، به قدر كافي پاسخگوي ما هستند. ويژگي نجواي الكسا احتمالا ساده بهانديشه متخصصين ميرسد؛ اما تعبيهي چنين قابليتي درون يك دستيار صوتي با چالشهايي همراه است؛ زيرا براساس مقالهاي كه مهندسان آمازون منتشر كردهاند، نجوا كردن معمولا مستلزم ارتعاش پردههاي صوتي نيست. الكسا براي كسب اين توانايي بايد با اصوات ضبطشده از تعاملات انساني با ميكروفونهاي ميدان دور و كنترل صوتي در هر دو حالت نجوا و آواگري معمول يادگيري داده ميشد.
مسئله صرفا اين نيست كه الكسا اكنون ميتواند نجوا كند؛ بلكه اين دستيار صوتي ميتواند بهصورت نجواگونه پاسخ دهد و تلنگري به آن آيندهي رايانش محدودهاي بزند. درست همانطور كه هنگام آغاز صحبت با دوستتان بهصورت آهسته يا مخفيانه از آنسوي ميز، احتمال دارد كه او نيز صدايش را پايين بياورد، الكسا هم از تن صداي شما تقليد خواهد كرد. الكسا همچنين براي برخورداري از پيشبينيهاي انسانگونه ارتقا يافته است؛ بدين صورت كه اگر خاموش يا روشن كردن چراغ يا قفل كردن در اقداماتي باشند كه بهصورت معمول انجام ميدهيد، وقتي به اين دستيار صوتي بگوييد به رختخواب ميروم يا خانه را ترك ميكنم، الكسا انجام آن كارها را به شما پيشنهاد ميدهد.
در ماه اكتبر، گوگل با هدف بهبود تواناييهاي گفتگوي دستيار صوتياش، بهروزرساني تازهاي را براي آن معرفي كرد كه با تمام موبايلهاي هوشمند و دستگاههاي گوگل هوم سازگار است. تا به حال چند بار توانستهايد يك سؤال همچون «قد لبران جيمز (بازيكن بسكتبال) چند است» را از گوگل اسيستنت بپرسيد و سپس بدون آنكه مجبور به صدا زدن مجدد اين دستيار صوتي شويد، بلافاصله سؤال مرتبط ديگري را دربارهي لبران جيمز از او بپرسيد؟ انجام اين كار قبلا امكانپذير نبود؛ اما اكنون گوگل با بهروزرساني يادشده حافظهي گوگل اسيستنت را افزايش داده است. هماكنون پس از آنكه از گوگل اسيستنت سؤالي بپرسيد يا به آن فرماني بدهيد، اين دستيار صوتي به مدت ۸ ثانيه همچنان آمادهي شنيدن خواهد بود؛ در نتيجه، ديگر نيازي به بازگويي مكرر «اوكي گوگل» وجود ندارد. اين قابليت به ويژگي اخيرا منتشرشدهي آمازون به نام «پيگيري» شباهت دارد. متخصصان با بهرهگيري از اين ويژگي ميتوانند وضعيت آبوهواي يك شهر بهخصوص را جويا شوند و سپس بدون اشارهي مجدد به نام همان شهر، دربارهي رستوراني داخل آن سؤال ديگري مطرح كنند.
گوگل همچنين دستيار صوتياش را قادر ساخته است كه برخي از امور روزمره را براي متخصصان انجام دهد؛ نظير رونوشت تماسهاي ورودي روي صفحهي موبايل (Screen Call) يا برقراري گفتگوهاي تلفني با فردي واقعي بهمنظور رزرو ميز در رستوران يا وقت آرايشگاه.
در طرف ديگر، مايكروسافت نيز سال گذشته براي بهبود تواناييهاي گفتگوي كورتانا، دستيار صوتياش (كه در كامپيوترهاي شخصي و موبايلهاي هوشمند يافت ميشود)، اقداماتي انجام داد. همچنين، بهروزرسانيهاي سيري در سال ۲۰۱۸ غالبا حول محور ميانبرها بود؛ قابليتي كه به متخصصان امكان ميدهد مجموعهاي از دستورها را روي آيفون يا آيپد خود گروهبندي و با فرماني كوتاه آنها را ارسال كنند. علاوهبر اين، اپل، پيشنهادها اسپاتلايت مبتني بر سيري را نيز بهبود داده است؛ قابليتي كه با هدف تحليل عادات متخصص در طول زمان و پيشنهاد انجام امور مختلف روي موبايل طراحي شده است، بهبودهاي سيري تغييراتي گفتگومحور بهشمار نميروند؛ بلكه آگاهي محدودهاي اين دستيار صوتي را از آنچه متخصص بايد انجام دهند، ارتقا دادهاند.
هركدام از اين غولهاي فناوري براي بهتصوير كشيدن آنچه اين هوشهاي مصنوعي صوتي بايد انجام دهند، بر چشماندازهاي مختلفي تمركز كردهاند و با اين كار، دستيارهاي صوتيشان را درون نقشهاي ازپيشتعريفشدهاي فرو بردهاند. بهعنوان مثال، الكسا سريعترين زمانسنج آشپزخانهي دنيا محسوب ميشود؛ گوگل اسيستنت بهمقدار ترسناكي دربارهي شما ميداند؛ كورتانا دوست خوبي در دنياي فناوري اطلاعات است كه به عيبيابي در امور مختلف به شما كمك ميكند و سيري دستيار اجرايي روي آيفون شما بهحساب ميآيد.
از بين تمام اين سرويسها، همانطور كه فناوري تشخيص صدا در طول زمان بهبود يافته، نرخ موفقيت دستيارهاي مجازي نيز براي ارائهي پاسخ واقعي افزايش يافته است. اين موفقيت تاحدودي مرهون پيشرفتهاي علمي در هوش مصنوعي و بخشي بهدليل برد گستردهي آيفون و محبوبيت روبهرشد محصولاتي نظير آمازون اكو و گوگل هوم است كه به ايجاد يك حلقهي عظيم بازخورد كمك كردهاند. هرچه دستگاههاي هوشمند بيشتري به فروش بروند، شركتهاي فناوري دادههاي مصرفي بيشتري براي بهبود فناوري صوتيشان در اختيار دارند و هرچه سرويسهاي كنترل صوتي بهبود بيشتري يابند، گجتها به محصولاتي تاثيرگذارتر تبديل ميشوند.
اما دستيارهاي مجازي خوب يا بد همچنان مرتكب لغزش و خطا ميشوند. با وجود تلاشهاي انجامشده براي شبيهسازي اين دستيارها به انسان، همچنان لازم است كه ما انسانهاي واقعي همچون روباتها با آنها گفتوگو كنيم. اساسا، آنها گاهي اوقات با وجود استفاده از پردازش پيشرفتهي زبان طبيعي، در درك زبان طبيعي ناكام ميمانند. رايت ميگويد:
براي يافتن شهادت متخصصان به تداوم نارساييهاي صوتي و اينكه گفتوگو با دستگاههايشان دشوار است يا آنها به حرفشان گوش نميدهند، نيازي نيست كه خيلي به عقب برگرديد.
احتمالا چندان اشكالي ندارد اگر الكسا يا گوگل اسيستنت، عنوان آهنگي را كه خواستهايد پخش كنند، اشتباه متوجه شوند يا وقتي در خودروي در حال حركتي هستيد، سيري نتواند مناسبترين پمپ بنزين را برايتان پيدا كند. اما وقتي در حوزهاي نظير سلامت در حال استفاده از اين دستيارهاي گفتوگو هستيد، كاركرد صحيح آنها اهميت بالايي دارد. احتمالا بهطرز قابل انتظاري مشخص شده است كه وقتي سؤال پرسيدهشده دربارهي نارسايي قلب يا تمرينات ورزشي براي نجاتيافتگان از سرطان باشد، بيثباتيهاي دستيارهاي صوتي چندان خطرناك محسوب نميشود. در سپتامبر سال گذشته، گزارشي منتشرشده در ژورنال Medical Internet Research با اعلام زنگ خطر دربارهي دستيارهاي صوتي، اعلام كرد كه آنها خيلي اوقات سؤالهاي مرتبط با سلامتي را نفهميدهاند و اينكه نزديك به ۳۰ درصد از پاسخهاي ارائهشده از جانب دستيارها، در صورت عمل به آنها، ميتوانند آسيبزا باشند.
البته، كنترل صوتي درست به همان اندازه كه لحظات آسودهاي را رقم ميزند، اشكالات اخلاقي را نيز بههمراه دارد. همانطور كه ما از به اشتراك گذاشتهشدن دادههايمان بهطرز نابكارانه توسط برخي از بزرگترين شركتهاي فناوري دنيا آگاه ميشويم، دستيارهاي مجازي نيز وارد زندگيهايمان ميشوند. براي سالها، ما بهصورت فعالانه در حال تايپ سؤالهاي خريد، مقاصد آتي، علايق رمانتيك و افكار درونيمان درون كامپيوترها بودهايم، اكنون ما صرفا داريم آنها را با صداي بلند فرياد ميزنيم و سيستمهاي كنترل صوتي از آمازون، گوگل، اپل، مايكروسافت و حتي فيسبوك در حال مكيدن صحبتهاي ما هستند. براي اطمينان ميتوانيد اين موضوع را از زوج اهل پورتلندي بپرسيد كه گفتوگوهاي شخصيشان ابتداي سال گذشته توسط الكسا ضبط شد.
رايت بر اين باور نيست كه نگرانيهاي حريم شخصي ميتوانند بهنحو قابلتوجه نقش بازدارنده را براي متخصصان فعلي يا بالقوهي دستيارهاي صوتي ايفا كنند. وي معتقد است مشتريان خشنود تمايل دارند كه براي بهدست آوردن قدري آسودگي، حريم شخصي را كنار بگذارند. همچنين براساس پژوهش IDC، حريم شخصي حتي بازدارندهي اصلي در استفاده از يك دستيار هوشمند محسوب نميشود؛ زيرا اكثريت پاسخدهندگان (بيش از ۳۱ درصد) گفتند دستيارهاي مجازي صرفا «هيچ متخصصدي برايشان ندارند».
شركتهاي فناوري همچنان به تلاشهاي بيوقفهي خود براي قانع كردن ما نسبت به متخصصديبودن دستيارهاي صوتي ادامه خواهند داد و ظاهرا در سال جديد ميلادي نيز به اقدامات خود در اين راستا بهمراتب شدت خواهند داد. احتمالا داستان از اين قرار خواهد بود كه وقتي اين دستيارها متخصصديتر شوند، ما شايد متوجه اين تكامل آنها نشويم. در زماني نامعلوم در سال پيشرو ممكن است صرفا براي شنيدن پاسخ از دستياري مجازي بهجاي انساني واقعي، با يكي از دوستانتان تماس بگيريد يا بهمنظور رزرو اتاق براي خودتان، تحت نقاب تعامل انسان با انسان از همان دستيار مجازي (گوگل اسيستنت) استفاده كنيد. گوگل در سال ۲۰۱۸ چشماندازي از اين آينده را به ما نشان داد و اكنون درخت كاشتهشده بهدست اين شركتها در حال به بارنشستن است. شما احتمالا گفتگويي را با دستياري مجازيتان آغاز ميكنيد، سپس پس از انجام مكثهاي انساني بسيار طولاني، صحبتتان را بدون هيچگونه لغزشي پي ميگيريد.
بعدا، همان دستيار مجازي بهتان يادآوري ميكند تا پيش از رفتن به رختخواب در را قفل كنيد و وقتي داستاني را پيش از خواب برايتان ميخواند – شايد جزوه رايگاني علمي تخيلي دربارهي روباتهايي كه دنيا را تحت سلطهي خود درآوردهاند – احتمالا ميداند كه با بهخواب رفتن شما بايد تن صدايش را پايين بياورد.
هم انديشي ها