شركت پژوهشي OpenAI پروژه هوش مصنوعي Jukebox را معرفي كرد
شركت پژوهشي هوش مصنوعي OpenAI امروز پروژهي Jukebox (جوكباكس) را رونمايي كرد كه اولين نمونهي هوش مصنوعي توليدكنندهي موسيقي است. با اينكه ممكن است خروجيهاي اين پروژه از انديشه متخصصين موسيقايي، بهانديشه متخصصين نسخهاي آبكي و بدون شالودهي آهنگها باشد و حس آشنايي در شنونده ايجاد كند، ازانديشه متخصصين متخصص پيشرفت چشمگيري بهشمار ميرود. براساس آنچه اوپن ايآي در وبلاگ خود منتشر كرده است، ازآنجاكه موسيقي بهطرز عميقي با احساسات درگير است و درك آن براي هوش مصنوعي بسيار پيچيده و سخت خواهد بود، محققان تلاش خود را بر موسيقي متمركز كردند. شايد بهباور بسياري از افراد، آهنگهاي توليدشدهي مدل جوكباكس موسيقي بهحساب نيايد؛ اما درهرصورت، نتايج بهدستآمده گام بزرگي است و تقريبا در هر آهنگ برخي آكوردها و ملوديها و كلمات تشخيصدادني است.
روش اجراي اين پروژهي آزمايشگاه هوش مصنوعي OpenAI بسيار جالب بوده است. آنها براي يادگيري جوكباكس بهجاي استفاده از ملوديهاي نمادين آماده كه در اصطلاح به آن پيانولا ميگويند و فاقد كلام و آواز است، از آوازها و صداهاي خام استفاده كردهاند تا اين مدل هوش مصنوعي چگونگي توليد صداي خام را يادگيري ببيند. همچنين براي بازدهي بهتر در نتايج، محققان ابتدا با كمك شبكهي عصبي پيچشي صداي خام را رمزگذاري و فشرده كردند. سپس ازطريق فايل بهدستآمده و استفاده از آنچه تبديلكننده مينامند و با آهنگهاي متفاوتي يادگيري ديده است، صدايي فشرده توليد كردند. درنهايت، فايل توليدشده را اصطلاحا آپسمپل (Upsmaple) كردند تا امكان رمزگشايي فايل را ايجاد كنند و بعد از رمزگشايي، صداي خام جديد را بهدست آورند. به عكس زير توجه كنيد.
در پردازش سيگنالهاي ديجيتالي، فرايند آپسمپلينگ بهمعناي انبساط يا درونيابي پردازش نرخ نمونهبرداري سيگنال گسسته و تبديل آن به سيگنال پيوسته است. بهعبارتديگر، در فرايند آپسمپلينگ با اضافهكردن نمونههايي با ارزش صفر در بين نمونههاي اصلي، نرخ نمونهبرداري را افزايش ميدهيم. اين دادههاي فاقد ارزش (Zero-Valued) در اساس فايل اصلي تأثيري نميگذارد و تنها سبب انباسط نسبت آن ميشود.
رويكرد بهكار گرفتهشده مشابه همان روشي است كه OpenAI پيشازاين در توسعه و راهاندازي هوش مصنوعي ساخت آهنگ MuseNet استفاده كرده است. البته جوكباكس پا را فراتر ميگذارد و علاوهبر موسيقي، متن آهنگ را نيز با همكاري محققان شركت توليد ميكند. همچنين، برخلاف سرويس MuseNet كه از دادههاي MIDI براي ساخت آهنگ استفاده ميكند، مدل جوكباكس برپايهي ۱/۲ ميليون آهنگ مختلف يادگيري داده شده كه نيمي از آنها به زبان انگليسي است. علاوهبراين، فرادادهها (Metadata) و متن شعرهاي هر آهنگ از ليريكويكي (LyricWiki) استخراج شدهاند. براي مثال، اطلاعات مربوط به ژانرهاي مختلف و هنرمندان نيز دردسترس هوش مصنوعي قرار داده شده تا كيفيت و بازدهي خروجي مدل را افزايش دهد. طبق آنچه در وبلاگ شركت منتشرشده، محققان محدوديتهايي نيز براي هوض مصنوعي تعريف كردهاند.
آنها در پست وبلاگي خود نوشتند:
جوكباكس گامي فراتر در كيفيت موسيقي و انسجام موسيقايي و مدت زمان نمونهي صداي هوش مصنوعي رفته است و توانايي يادگيريديدن بهوسيلهي هنرمندان و ژانرهاي موسيقي و متن آهنگها را دارد. بااينحال، همچنان تفاوت آهنگهايي كه ميسازد با آنچه انسان هنرمندانه ساخته، كاملا بهچشم ميآيد. براي مثال، با اينكه آهنگهاي توليدشدهي هوش مصنوعي انسجام موسيقايي محلي در امتداد الگوهاي آكوردهاي سنتي را بهنمايش ميگذارد و ميتواند تكنوازيهاي گيرايي ايجاد كند، ساختارهاي بزرگ و آشنا مثل همخواني و تكرار را در اين آهنگها نميشنويم.
ناگفته نماند اشكالاتي نيز در اين آزمايش بهوجود آمده است. چري هو، نويسنده و گوينده، در حساب توييتر خود اشاره كرده است جوكباكس فاجعهاي بالقوه درزمينهي كپيرايت بهشمار ميرود. جالب است بدانيد در همين هفته، جي-زي (Jay-Z)، خوانندهي آمريكايي، با استفاده از حق كپيرايت تلاش كرد صداي شبيهسازيشدهي خود با ديپفيك را از يوتيوب حذف كند.
چري هو گفته است:
آيا كانيه وست و كيتي پري و لوپه فياسكو و وكلاي آرتا فرانكلين و فرانك سيناترا و الويس پريسلي اجازه خواهند داد شركت OpenAI از صداي آنها براي يادگيري هوش مصنوعي خود در ساختار الگوريتم شبيهسازي صدا و آهنگسازي و شعر نوشتن استفاده كند؟ حدس ميزنم پاسخ به اين پرسش «خير» است.
با همهي اينها، جوكباكس دستاوردي شگفتانگيز است كه مرزهاي ناممكن را جابهجا ميكند؛ حتي اگر بهباور اكثر افراد، آنچه جوكباكس ساخته، شنيدني نباشد و هنوز به توسعه نياز داشته باشد.
هم انديشي ها