OpenAI نسخه كامل هوش مصنوعي توليدكننده‌ي متن GPT-2 را منتشر كرد

شنبه ۱۸ آبان ۱۳۹۸ - ۱۲:۰۰
مطالعه 5 دقيقه
مرجع متخصصين ايران
لابراتور تحقيقاتي OpenAI با وجود هشدارهايي مبني‌بر خطرناك‌بودن GPT-2، نسخه‌ي كامل سيستم هوش مصنوعي توليدكننده‌ي متن خود را منتشر كرد.
تبليغات

لابراتور تحقيقاتي OpenAI نسخه‌ي كامل سيستم هوش مصنوعي توليدكننده‌ي متن به‌نام  GPT-2 را منتشر كرده است. اين موفقيت در حالي‌ حاصل شده است كه متخصص كارشناسان هشدار دادند اين سيستم هوش مصنوعي مي‌تواند براي اهداف مخرب استفاده شود. GPT-2 مخفف واژه‌هاي Generative Pretrained Transformer است. حرف G مخفف واژه‌ي Generative به‌معناي «توليدكننده يا زايا» و حرف P مخفف واژه‌ي Pretrained به‌معناي «پيش‌يادگيري داده‌شده» و حرف T مخفف واژه‌ي Transformer به‌معناي «مبدل يا ترنسفورمر» است.

در فوريه‌ي سال جاري، مؤسسه‌ي تحقيقاتي OpenAI فناوري خارق‌‌العاده‌ي GPT-2 را رونمايي كرد كه مي‌توانست با كمترين دخالت انساني، متوني منسجم شامل چندين پاراگراف را از خود بنويسد. حتي در توضيحات گاردين اين‌گونه آمده بود كه اين سيستم هوش مصنوعي متون چندكلمه‌‌اي تا يك‌صفحه‌‌اي را به‌‌عنوان ورودي دريافت مي‌‌كند و مي‌‌تواند چندين جمله را باتوجه‌به پيش‌‌بيني‌‌هاي خود درادامه‌ي آن بنويسد.

بااين‌همه، OpenAI به‌‌‌دليل نگراني‌‌هاي ناشي‌‌ از سوءاستفاده‌‌هاي احتمالي ازقبيل انتشار اخبار جعلي و هرزنامه‌ها و اطلاعات نادرست، نسخه‌‌ي كامل اين فناوري را منتشر نكرد. از آن زمان نسخه‌هاي كوچك‌تر و كمتري از GPT-2 منتشر شده است و پذيرش آن‌ها مطالعه شده است. برخي ديگر نيز GPT-2 را نيز بارها آزمايش كرده‌اند. درنهايت، لابراتور تحقيقاتي OpenAI اين هفته در پستي در وبلاگ خود نوشت:

هيچ مدرك محكمي درباره‌ي سوءاستفاده و مخرب‌بودن GPT-2 وجود ندارد؛ ازاين‌رو، نسخه‌ي كامل اين فناوري منتشر شده است.
مرجع متخصصين ايران OpenAI

نمونه‌ي توليد متني از الگوريتم مدل‌سازي زبان OpenAI GPT-2

هوش مصنوعي زباني GPT-2 بخشي از نسل جديدي از سيستم‌هاي توليد متن است كه متخصصان را تحت‌تأثير توانايي خود براي توليد متن منسجم با دراختيارداشتن حداقل داده‌ها قرار داده است. به‌طور خاص، OpenAI هوش مصنوعي GPT-2 را برپايه‌ي داده‌هاي متني دريافت‌شده يادگيري داده است كه متخصصان و نويسندگان ارسال كرده‌اند. تمام داده‌هاي گرفته‌شده از لينك‌هاي وب و متن بودند؛ به‌همين‌دليل، به ديتاست به‌دست‌آمده WebText گفته شد. بيش از ۴۰ گيگابايت داده‌ي اينترنتي به‌همراه تقريبا ۱/۵ ميليارد پارامتر از ساختارهاي متني براي يادگيري GPT-2 به‌كار گرفته شده است. به‌عنوان مثال، مي‌توانيد تنها با دادن عنواني جعلي، از GPT-2 بخواهيد مطلبي درباره‌ي آن بنويسد يا فقط با ارائه‌ي مصرعي از يك شعر، كل شعر را از GPT-2 تحويل بگيريد.

پي‌بردن به عملكرد هوش مصنوعي زباني GPT-2 از روي خروجي داده‌هاي آن بسيار دشوار است؛ اما اين مدل زباني اغلب نوشته‌هاي پررمزورازي توليد مي‌كند كه حتي مي‌توان نشانه‌هايي از شعور يا هوش را در آن رديابي كرد. اين بدان معنا نيست كه GPT-2 نيز مجهز به همان قدرت و ويژگي است كه ما آن را به‌عنوان شناخت مي‌شناسيم. اگر با اين سيستم به اندازه‌ي كافي كار كنيد، محدوديت‌هاي آن نيز برايتان به‌خوبي مشخص خواهد شد. يكي از ضعف‌هاي آن در حفظ انسجام متون بلند است. براي نمونه، استفاده از نام‌ها و صفت‌هاي شخصيت‌ها به‌طور مداوم در داستان يا اصرار بر نوشتن درباره‌ي موضوع واحد در مقاله‌اي خبري.

بهترين روش براي تخمين قابليت‌هاي GPT-2 اين است كه خودتان آن را امتحان كنيد. براي دسترسي به اين سيستم، مي‌توانيد به نسخه‌ي وب در TalkToTransformer.com مراجعه كنيد و پيام و سوال خودتان را مطرح كنيد. واژه‌ي «ترنسفورمر» مؤلفه‌اي از معماري يادگيري ماشين است كه براي ايجاد GPT-2 و ديگر بخش‌هاي آن استفاده مي‌شود. گفتني است ترنسفورمرها معماري بي‌نظيري از شبكه‌هاي عصبي هستند.

مرجع متخصصين ايران ai

جدا از قابليت‌هاي خام GPT-2، انتشار اين مدل به‌عنوان بخشي از مباحثه درباره‌ي مسئوليت‌پذيري پژوهشگران هوش مصنوعي براي كاهش آسيب‌هاي ناشي از كار درخورتوجه است. متخصص كارشناسان پيش‌تر نيز خاطرنشان كرده بودند دسترسي آسان به تمام ابزارهاي اين هوش مصنوعي مي‌تواند به فعال كردن بخش‌هاي مخربي منجر شود. براي نمونه، پويايي‌اي كه در اين فناوري وجود دارد، مي‌تواند با مونتاژ تصوير چهره‌‌ي فردي روي چهره‌‌ي فردي ديگر، به توليد ويدئوهاي جعلي يا ديپ‌‌فيك (Deepfake) منجر شود. بنابراين، به‌دليل وجود چنين نگراني‌هايي، OpenAI انتشار مدل خود را محدود كرده است.

بيش از ۴۰ گيگابايت داده‌ي اينترنتي به‌همراه تقريبا ۱/۵ ميليارد پارامتر از ساختارهاي متني براي يادگيري GPT-2 به‌كار گرفته شده است

شايان ذكر است همه از اين رويكرد لابراتوار OpenAI استقبال نكرده‌اند و بسياري از متخصص كارشناسان با انتقاد از چنين تصميمي، بيان كردند با انجام اين كار دامنه‌ي تحقيقاتي كساني محدود مي‌شود كه اين مدل را كاهش مي‌دهند و توقع‌هاي غيرضروري درباره‌ي خطرهاي هوش مصنوعي ايجاد خواهد كرد. دليپ رائو، پژوهشگر اين پروژه به خبرگزاري The Verge گفت:

كلمات بسيار خطرناك هستند؛ به‌خصوص زماني‌كه بدون هيچ تفكري و تنها با آزمايش توليد خواهند شد. فكر نمي‌كنم [OpenAI] وقت كافي را براي اثبات خطرناك بودن اين سيستم صرف كند.

OpenAI در بيانيه‌اي كه اين هفته درباره‌ي مدل كامل GPT-2 منتشر كرده بود، خاطرنشان كرد GPT-2 اين سيستم مي‌تواند به توليد «تبليغات مصنوعي» براي موقعيت‌هاي ايدئولوژيك افراطي كمك كند؛ ازاين‌رو، ممكن است با استناد به تحقيقات شخص ثالث از آن سوءاستفاده شود. اگرچه‌ OpenAI بر ترس و نگراني خود اعتراف كرد و گفت ممكن است از اين سيستم براي بيرون‌كشيدن حجم زياد اسپم منسجم يا بسياري از سيستم‌هاي اطلاعاتي الكترونيك عملي‌نشده مانند رسانه‌هاي اجتماعي استفاده شود.

همچنين، اين لابراتوار خاطرنشان كرد پژوهشگران خود OpenAI سيستم‌هاي خودكاري ايجاد كردند كه مي‌تواند خروجي GPT-2 را با دقت ۹۵ درصدي تشخيص دهند؛ اما اين رقم براي «تشخيص سيستم خودكفا» كافي نيست؛ يعني هر سيستمي كه براي شناسايي خودكار متن جعلي موردنياز باشد، به‌تنهايي كافي نيست و درنهايت، براي تشخيص نهايي به داوري انساني نيازمند است. گرچه انجام چنين كارهايي اغلب عجيب نيست كه متكي به تشخيص و شناسايي نهايي انسان در اين سيستم باشد؛ به‌‌ويژه براي تشخيص جعلي بودن يا نبودن تصاوير و ويدئوها.

OpenAI قصد دارد فعلا نظاره‌گر نحوه‌ي استفاده‌ي جامعه و عموم مردم از GPT-2 باشد تا در آينده، بهتر بتواند سياست‌هاي خود را درباره‌ي انتشار مسئول‌بودن تحقيقات هوش مصنوعي تدوين كند.

تبليغات
جديد‌ترين مطالب روز

هم انديشي ها

تبليغات

با چشم باز خريد كنيد
اخبار تخصصي، علمي، تكنولوژيكي، فناوري مرجع متخصصين ايران شما را براي انتخاب بهتر و خريد ارزان‌تر راهنمايي مي‌كند
ورود به بخش محصولات