يادگيري عميق چگونه صنعت رسانه را متحول ميكند؟
فعالان صنعت رسانه و استوديوهاي فيلمسازي روزبهروز ظرفيتهاي بيشتري در فناوريهاي مدرن كشف ميكنند كه براي ارائهي نسل جديدي از سرگرميهاي ويدئويي متخصصد دارند؛ فناوريهايي كه محصولات آنها به تلويزيون و سينما و هر كانال مهم توزيع محتواي ويدئويي راه پيدا ميكند. دراينميان، هوش مصنوعي و يادگيري ماشين و يادگيري عميق از مفاهيم پرسروصدايي هستند كه اميد به ظرفيتهاي جديد براي توليد ويدئو و ويرايش را به فعالان صنعت تزريق ميكنند.
يادگيري عميق جديدترين جبههي صنعت ويدئو محسوب ميشود كه امكان انجام فعاليتهاي خودكار متعددي به متخصصان ميدهد؛ فعاليتهايي كه قبلا به روزها و هفتهها زمان نياز داشتند. همچنين، برخي وظايف با استفاده از فناوري مذكور انجامدادني ميشوند كه در گذشته بهنوعي غيرممكن بودند. درادامهي اين مطلب اخبار تخصصي، علمي، تكنولوژيكي، فناوري مرجع متخصصين ايران، برخي از سؤالهايي را مطالعه ميكنيم كه تأثير يادگيري عميق را روي صنعت رسانه شرح ميدهند. اين سؤالها عبارتاند از: يادگيري عميق چه تفاوتي با ديگر الگوريتمهاي يادگيري ماشين دارد؟ اين فناوري چه متخصصدهاي واقعياي براي رسانه و سرگرميهاي ويدئويي دارد؟ يادگيري عميق چه شاخههايي در حوزههاي علمي و كسبوكار دارد؟
هوش مصنوعي و يادگيري ماشين و يادگيري عميق
هوش مصنوعي به هرگونه فرايندي گفته ميشود كه كامپيوتر را هوشمند نشان دهد. در برخي موارد، به كامپيوتر گفته ميشود درصورت بروز هر رخداد، چه عملياتي انجام دهد. در چنين وضعيتي، ماشين مذكور هيچ مفهومي نياموخته است. يادگيري ماشين توانايي يادگيري را به كامپيوتر اضافه ميكند تا انجام وظايف مشخص را بياموزد.
روشهاي متعددي براي يادگيري دادن به كامپيوترها وجود دارد. تقريبا تمامي روشها مبتنيبر تغيير پارامترها بهدست ماشين و فرايندهاي آزمونوخطا هستند. از روشهاي پيچيدهي يادگيري ماشين ميتوان به شبيهسازي نورونهاي مغز بيولوژيكي اشاره كرد. وقتي مغزهاي ساختگي يا همان شبكهي عصبي پيچيدهتر ساخته شوند، به مفهوم يادگيري عميق ميرسيم.
يادگيري عميق به ماشين امكان ميدهد مفهومي پيچيده را بهعنوان ورودي دريافت كند. بهعنوان مثال، ميتوان به تمام پيكسلهاي موجود در يك فريم ويدئو اشاره كرد. در يك نمونه ميتوان فريم ويدئويي را با نويز به شبكهي عصبي وارد و در خروجي، فريم باكيفيت دريافت كرد. شبكهي مذكور با انجام آزمونوخطا، چگونگي حذف نويز از فريم را ميآموزد. هرچه تعداد تصاوير ورودي بيشتر شود، مغز مصنوعي تكرار فرايند حذف نويز را بهتر ميآموزد و اين فرايند را براي تصاوير جديد هم انجام ميدهد.
از اولين متخصصدهاي خارقالعادهي يادگيري ماشين ميتوان به پروژهي گوگل اشاره كرد كه بازي Go را به كامپيوتر آموخت. Go از پيچيدهترين بازيهاي تخته محسوب ميشود و امروز هوش مصنوعي گوگل توانايي شكست قهرمانهاي آن را نيز دارد. پيچيدگي بازي Go بهحدي است كه نميتوان با دستورهاي سادهي انساني آن را به كامپيوتر يادگيري داد. بهعلاوه شبكهي عصبي تكلايه نيز توانايي يادگيري آن را ندارد و فقط با يادگيري عميق ميتوان به چنين دستاوردي رسيد.
يادگيري ماشيني و يادگيري عميق، هوش مصنوعي را يك مرحله بالاتر از دريافت دستور توسعه ميدهند
يادگيري عميق براي وظايف متنوع ديگري هم متخصصد دارد. از اين فناوري براي مطالعه و مقايسهي صحبتكردن ساختگي با صحبتكردن انسان استفاده ميشود. درنتيجهي چنين متخصصدي، برنامههاي تبديل متن به صوت عملكرد طبيعيتر پيدا ميكنند. شركتهاي توليدكنندهي ابزار ترجمه با استفاده از فناوري مشابه، چگونگي ترجمه از زباني به زبان ديگر را به كامپيوترها ميآموزند.
خودروهاي خودران كه امروزه جزو پروژههاي اصلي بسياري از شركتهاي فناوري هستند، براساس يادگيري عميق عمل ميكنند. از مثالهاي ديگر ميتوان به واحد بازاريابي در شركتهاي بزرگ اشاره كرد كه با استفاده از يادگيري عميق، رفتار مشتريها را تحليل ميكنند. آنها با تكيه بر همين يادگيري، واكنش هر مشتري را در موقعيتهاي خاص پيشبيني ميكنند. دستيارهاي ديجيتال هم از حوزههاي متخصصدي اين فناوري هستند كه با استفاده از شبكهي عصبي، درخواستهاي متخصصان را درك ميكنند و به آنها پاسخ ميدهند.
يادگيري عميق براي تلويزيون و سرگرميهاي ويدئويي
فرصتهاي متعددي براي بهكارگيري روشهاي يادگيري عميق در حوزهي توليد ويدئو و ويرايش و بخشهاي ديگر وجود دارد. البته اين فناوري در توليد ويدئو به خودكارسازي وظايف تكراري محدود نميشود؛ بلكه ميتوان در فرايندهاي توليد خلاقانه نيز از آن استفاده كرد. بهعلاوه بهبود فرايند توزيع ويدئو و حفظ آرشيوهاي بزرگ استوديوهاي فيلمسازي نيز با يادگيري عميق ممكن ميشود.
توليد و ويرايش ويدئو
استوديو برادران وارنر در يكي از پروژههاي اخير بهنام Justice League، هزينهاي ۲۵ ميليون دلاري براي اصلاح مجدد فيلم متقبل شد. بخشي از هزينه به پاككردن ديجيتالي سبيل يكي از بازيگران (هنري كويل) اختصاص يافت كه بهخاطر پروژهي مشترك ديگر، نميتوانست سبيل خود را بتراشد. اين نمونه، تنها يكي از مثالهاي بيشمار فرايند پستوليد محسوب ميشود كه هزينه و زمان زيادي به استوديوها تحميل ميكند. يادگيري عميق تأثيري تحولآفرين بر چنين روندهايي خواهد گذاشت.
راهكارهاي ساده و مخصوص مصرفكننده براي استفاده از يادگيري عميق در توليد ويدئو امروز دردسترس متخصصان قرار دارند. بهعنوان مثال، ميتوان به Flo اشاره كرد كه با استفاده از فناوري مذكور و دريافت آنچه متخصص نياز دارد، ويدئو را براي او ميسازد. ابزار Flo ويدئوهاي مرتبط را از جزوه رايگانخانهي دادهي متخصص پيدا و آنها را بهصورت خودكار بههم متصل ميكند.
گوگل ابزاري بهصورت شبكهي عصبي دارد كه بهصورت خودكار تصاوير پيشزمينه و پسزمينهي ويدئو را از هم جدا ميكند. چنين فرايندي قبلا به پردهي سبز نياز داشت و اگنون با سرعت و بهرهوري بيشتري ازطريق يادگيري عميق
ديپ فيك اخيرا اخبار متعددي در دنياي فناوري به خود اختصاص داده است. با استفاده از اين فناوري، چهرهي فردي در ويدئو فردي ديگر استفاده ميشود. فناوري مشابه ديگري هم وجود دارد كه پرترههاي ثابت را متحرك ميكند. ظرفيتهاي فناوري اينچنيني در بخش جلوههاي ويژهي توليد فيلم بيشمار هستند. بهعنوان مثالي از متخصصدهاي ديپفيك، ميتوان همان پروژهي برادران وارنر را مثال زد. هنري كويل در بخش اصلاح مجدد فيلم سبيلي داشت كه براي فيلم Mission Impossible; Fallout بايد آن را حفظ ميكرد. در همان زمان، او در پروژهي Justice League هم درگير بود و همين تداخل موجب ناراحتي طرفداران هم شد. بههرحال، او تصميم گرفت سبيل خود را براي Justice League نتراشد؛ به همين دليل، تيم ويرايش پروژهي مذكور به حذف ديجيتالي آن در هر صحنهاي ملزم شد كه هنري بازي ميكرد.
ديپفيك ميتواند بسياري از هزينههاي پستوليد را جبران كند
متأسفانه طرفداران فيلم Justice League متوجه عملكرد ويرايشگران ويدئو شدند. وقتي متخصصان خانگي ميتوانند چهرهي نيكولاس كيج را در فيلمهايي وارد كنند كه هيچگاه بازي نكرده است؛ چرا استوديو برادران وارنر در پروژهي خود از اين فناوري استفاده نكرد؟ آنها ميتوانستند با استفاده از تصاوير هنري كويل در صحنههاي قبلي (بدون سبيل)، بهراحتي صحنههاي پستوليد را توليد و هزينه و زمان زيادي صرفهجويي كنند.
ترميم ويدئو
آمار آرشيو UCLA Film & Television ادعا ميكند تقريبا نيمي از فيلمهاي توليدشده پيش از سال ۱۹۵۰ از بين رفتهاند. در آماري بدتر ميبينيم كه ۹۰ درصد از كپي فيلمهاي كلاسيك در وضعيت مناسبي قرار ندارند. فرايند ترميم اين ويدئوها زمانبر و خستهكننده و هزينهبر است. يادگيري عميق در چنين شرايطي متخصصد دارد و تغييري عظيم در فرايند ترميم ايجاد ميكند.
فرايند رنگيكردن فيلمهاي سياهوسفيد هميشه زمانبر بوده است. هزاران فريم در يك فيلم وجود دارد و رنگيكردن هريك از آنها زمان زيادي ميطلبد. حتي با ابزارهاي بسيار حرفهاي هم فقط ميتوان بخشي از فرايند را خودكارسازي كرد. انويديا اكنون ابزاري دارد كه با استفاده از يادگيري عميق، فرايند رنگيكردن را بسيار سريعتر ميكند. ابزار آنها فقط هنرمند ويرايشگر را به رنگيكردن يك فريم ملزم ميكند. پس از آن مرحله، يادگيري عميق ساير فرايندهاي رنگيكردن را انجام ميدهد.
از اشكالات بزرگ ديگر در تريم ويدئوها ميتوان به حذف برخي از فريمها اشاره كرد. قطعا فعالان اين صنعت توانايي بازسازي و فيلمبرداري فريمهايي را ندارند كه سالها پيش توليد شدند. ترميم آن فيلمها قبلا كارآمد نبود؛ اما اكنون فناوري گوگل براي كمك به اين بخش وارد عمل شده است. آنها ابزارهايي ساختهاند كه فريمهاي ازدسترفته را براساس فريمهاي قبل و بعد با كيفيتي نزديك به واقعيت بازسازي ميكنند.
تشخيص چهره يا اجسام
يادگيري عميق با تشخيص چهرهي افراد حاضر در ويدئو، قابليت دستهبندي دقيقي ارائه ميكند. بهعنوان مثال، ميتوان در آرشيو فيلمها، ويدئوهايي پيدا كرد كه بازيگر خاصي در آنها حضور دارد. در رويكردي ديگر، ميتوان زمان دقيق حضور بازيگر را در فيلم مدانديشه متخصصين محاسبه كرد. بهعنوان نمونهاي جديد، ميتوان به رويكرد شبكهي Sky News اشاره كرد كه با مطالعه ويدئوهاي مراسم عروسي سلطنتي، چهرههاي مشهور در آن را پيدا كرد.
فناوري مذكور فقط به تشخيص چهره در ويدئوها محدود نميشود. رسانههاي ورزشي امروزه از فناوري بهكمك فيلمبردارها استفاده ميكنند تا حركت توپ يا ديگر مؤلفههاي بازي مانند گل را شناسايي كنند. هوش مصنوعي با استفاده از ابزار تشخيص اجسام، خودكارسازي فرايندهاي رسانهاي ورزشي را هم ممكن ميكند.
تحليل ويدئو
همانطوركه گفتيم، ابزار Flo توانايي تشخيص موضوع صحنه و ساخت ويدئو براساس آن را دارد. از همين فناوري ميتوان براي دستهبندي و مرتبكردن ويدئوها هم استفاده كرد؛ درنتيجه، متخصص ميتواند قطعهي مخصوصي از ويدئو را پيدا كند كه شخص يا جسم يا حركت خاصي در آن حضور داشته باشد.
با استفاده از فناوري گفتهشده، ميتوان حتي محتواي ايراددار را از ويدئوها حذف كرد تا محصول نهايي براي متخصص هدف مناسب باشد. در رويكردي مشابه، ميتوان ويدئوهاي جديد را براساس علايق قبلي متخصص به او پيشنهاد داد و بهنوعي فهرستي شخصيسازيشده از محتواي رسانهاي ارائه كرد.
بهبود پخش ويدئويي
يادگيري عميق محتواي باكيفيت را براي اينترنت با سرعت كُند بهينهسازي ميكند
اكنون در مسيري قرار داريم كه استريم با كيفيت 4K و توليد تلويزيونها و نمايشگرهاي 8K به روندي مرسوم در جهان فناوري تبديل شدهاند. درنتيجهي همين افزايش كيفيت، استريم حجم بيشتري از داده مصرف ميكند. افرادي كه به اتصال پرسرعت دسترسي ندارند، قطعا با اشكالات افزايش حجم داده آشنا هستند. اگر شما نمايشگر 4K داشته باشيد؛ اما سرعت اينترنت براي ارائهي محتواي مدانديشه متخصصين كافي نباشد، قطعا بهرهاي از خريد جديد خود نخواهيد برد.
شبكههاي عصبي ميتوانند فريمهاي باكيفيت را براي وروديهايي با ظرفيت كم بازسازي كنند؛ بنابراين در آيندهي نزديك، ميتوان محتوايي با مصرف دادهي كمتر و كيفيت بيشتر را براي متخصصان داراي اينترنت كمسرعت ارائه كنيم.
آيندهي يادگيري عميق و رسانه
استفاده از يادگيري عميق در توليد ويدئو اكنون در ابتداي راه قرار دارد. درواقع، آيندهاي كه براي چنين فناوريهايي وجود دارد، بسيار پربارتر خواهد بود؛ آيندهاي كه صنعت ويدئو را هم بيشازپيش تحتتأثير قرار ميدهد. بههرحال، يادگيري عميق نيز مانند بسياري از فناوريهاي ديگر بدون اشكال و ضعف نيست. همانطوركه ديپفيك اشكالاتي براي توانايي تشخيص حقيقت در متخصصان ايجاد ميكند، پيشرفت سريع بهكارگيري يادگيري عميق هم اشكالاتي از جنس حريم خصوصي و موارد مشابه خواهد داشت.
با توجه به نگرانيهاي مذكور، صنعت بايد مانند هر فناوري جديد ديگر اشكالات را شناسايي و براي رفع آنها تلاش كند. فعالان صنعت ويدئو و متخصصان فناوري بايد با همفكري استانداردهايي براي تعريف چگونگي استفاده از فناوري تدوين و بهنوعي آيندهي قابلپذيرش را ترسيم كنند. درنهايت، با درپيشگرفتن رويكرد صحيح، قطعا متخصصدهاي بيشماري براي فناوري موجود ترسيم ميشود و ابزارهاي بسيار مفيدي دراختيار فعالان خواهد بود. همانطوركه فناوريهاي پيشين مانند رنگيكردن فيلمها تأثيري عميق بر صنعت رسانه گذاشتند، يادگيري عميق نيز در آيندهي نهچندان دور تحولي عظيم در آن ايجاد خواهد كرد.
هم انديشي ها