عمومی

معرفی مدل M4 با توانایی ترجمه ماشینی زبان‌های کم‌منبع

نتایج تحقیقات گوگل درباره ترجمه ماشینی زبان‌های کم‌منبع (که گویشور کمی دارند و از آن بدتر متون دوزبانه زیادی برای آن‌ها وجود ندارد) برای علاقه‌مندان این حوزه شگفت‌انگیز است. با استفاده از مدل M4 امروزه می‌توان مدل‌های نورونی را به صورت ترکیبی از چند زبان آموزش داد، یک مدل را با چندین و چند زبان آموزش داد و از زیاد بودن داده‌های یک زبان به نفع زبان دیگر که ورودی‌های آن محدودتر است استفاده مثبت کرد. شما را به مطالعه ترجمه‌ای از مطلب انتشار یافته در وبلاگ هوش مصنوعی گوگل دعوت می‌کنیم:

پیش‌تر نیز درباره مباحث فن‌آوری ترجمه و ترجمه ماشینی مطالبی داشته‌ایم که مطالعه آن‌ها توصیه می‌شود.

آنکور باپنا، مهندس نرم‌افزار، و اورهان فیرات، پژوهشگر، مرکز تحقیقات گوگل

در سال‌های اخیر، کیفیت سیستم‌های ترجمۀ ماشینی (MT) پیشرفت زیادی کرده و، به مدد پیشرفت‌های ایجادشده در ترجمۀ ماشینی عصبی (NMT)، سدهای زبانی در سرتاسر دنیا فرو ریخته است. با این حال، موفقیت NMT تا حد زیادی مدیون حجم بالای داده‌های آموزشی تحت نظارت است. اما، درمورد زبان‌هایی که دچار کمبود داده‌ هستند یا حتی داده ورودی چندانی برای آموزش ندارند چه باید کرد؟

یکی از راه‌حل‌های احتمالی NMT چندزبانه (Multilingual NMT) است. مدل NMT چند زبانه بیان می‌کند: «نشانۀ یادگیری مدل از یک زبان باید به کیفیت ترجمه به زبان‌های دیگر کمک کند» این گفته نوعی بایاس استنتاجی است (Inductive Bias).

ترجمۀ ماشینی چندزبانه چندین زبان را با استفاده از یک مدل ترجمه پردازش می‌کند. پیش‌تر، در واحد تحقیقات و توسعه ترجمه گوگل، موفقیت آموزش چندزبانه برای زبان‌های دچار کمبود داده در این موارد به اثبات رسیده‌است:

  • تشخیص خودکار گفتار (automatic speech recognition)
  • سیستم‌های تبدیل متن به گفتار (text-to-speech)
  • ترجمه چندزبانه (multilingual translation)

 

پیش‌تر تأثیر افزایش تعداد زبان‌هایی که می‌توانند در یک شبکۀ عصبی واحد (Single) یاد گرفته شوند را با در نظر داشتن حجم داده‌های ورودی روی هر زبان بررسی می‌کردیم. اما وقتی تمام محدودیت‌ها از بین بروند چه اتفاقی می‌افتد؟ آیا می‌توانیم با استفاده از تمامی داده‌های موجود، و به‌رغم تفاوت‌های گسترده میان زبان‌ها از نظر حجم داده‌ها، اسکریپت‌ها، پیچیدگی و دامنه‌ها، مدلی واحد را آموزش بدهیم؟ (یا اینکه یک مدل واحد کافی نیست و به مدل‌های متعدد نیاز است.)

در مقالۀ «ترجمۀ ماشینی عصبی به‌شدت چندزبانه در شرایط طبیعی (خارج از محیط آزمایشگاهی): یافته‌ها و چالش‌ها» و مقالات بعدی، با آموزش دادن یک مدل واحد NMT به‌وسیلۀ بیش از 25 میلیارد جفت جمله، از بیش از 100 زبان [ترجمه‌شده] از و به انگلیسی، دارای بیش از 50 میلیارد پارامتر، بر محدودیت‌های تحقیق روی NMT غلبه می‌کنیم. نتیجه، دستیابی به رویکردی برای ترجمۀ ماشینی عصبی گسترده و به‌شدت چندزبانه (massively multilingual, massive neural machine translationM4) است که از ارتقای شدید کیفیت برای زبان‌های دارای منابع کم و زیاد خبر می‌دهد و به‌راحتی می‌تواند با تک‌تک دامنه‌ها یا زبان‌ها سازگار شود، و، در عین حال، روی وظایف انتقالی بین‌زبانی فروسو هم تأثیر زیادی دارد. (برای درک مفهوم وظایف فروسو Downstream Tasks در پردازش زبان طبیعی به این پرسش و پاسخ مراجعه کنید.)

ترجمۀ ماشینی به‌شدت چندزبانه

اگرچه توزیع نامتقارن داده‌ها در بین جفت زبان‌های مختلف مشکل بزرگی در اِن‌اِم‌تی محسوب می‌شود؛ اما، همین توزیع نامتقارن سناریوی ایده‌آلی را برای مطالعۀ انتقال ایجاد می‌کند. در این سناریو، می‌توان آگاهی کسب‌شده در آموزش یک زبان را برای ترجمۀ سایر زبان‌ها به کار برد. در یک سر نمودار توزیع، زبان‌های پرمنبعی مانند فرانسوی، آلمانی و اسپانیایی وجود دارند، که میلیاردها مثال موازی در آن‌ها به چشم می‌خورد، در حالی که، در سر دیگر آن، حجم داده‌های تحت نظارت برای زبان‌های کم‌منبعی همچون یاروبا، سندی و هاوایی به چند ده هزار مثال محدود می‌شود.

توزیع داده‌ها برای تمامی جفت زبان‌ها
توزیع داده‌ها برای تمامی جفت زبان‌ها (در مقیاس لگاریتمی) و کیفیت نسبی ترجمۀ مبانی دوزبانۀ آموزش‌داده‌شده با استفاده از هریک از جفت زبان‌های مشخص (نمرۀ بلو (BLEU score)).

پس از آموزش دادن با استفاده از تمامی داده‌های موجود (بیش از 25 میلیارد مثال از 103 زبان)، شاهد انتقال مثبت شدید به سمت زبان‌های کم‌منبع بودیم، که باعث شد کیفیت ترجمۀ بیش از 30 زبان موجود در قسمت دُم نمودار توزیع به‌طرزی چشمگیر و به‌طور میانگین 5 نمرۀ بلو (نمره جایگزین ارزشیابی دوزبانه یا Bilingual Evaluation Understudy) ارتقا یابد.

اگرچه با توجه به تحقیقات قبلی ما این میزان تأثیر از قبل قابل پیش‌بینی بود اما این نتیجه فوق‌العاده نویدبخش است. در نظر بگیرید که، مقایسه بین مبانی دوزبانه (یعنی مدل‌هایی که فقط با استفاده از جفت زبان‌های مشخص آموزش داده شده بودند) و مدل چندزبانۀ واحدی انجام شد که ظرفیت بازنمود آن مشابه یک مدل دوزبانه بود. این یافته حاکی از آن است که مدل‌های به‌شدت چندزبانه قابلیت تعمیم دارند و می‌توانند شباهت زبان‌های متعدد را به ما نشان دهند.

مقایسۀ کیفیت یک مدل به‌شدت چندزبانه با مبانی دوزبانه‌ای که با استفاده از هریک از 103 جفت زبان موردنظر آموزش داده شده‌اند
مقایسۀ کیفیت یک مدل به‌شدت چندزبانه با مبانی دوزبانه‌ای که با استفاده از هریک از 103 جفت زبان موردنظر آموزش داده شده‌اند

 

در مقالۀ EMNLP’19 خودمان [5]، بازنمودهای مدل‌های چندزبانه را در میان زبان‌های مختلف مقایسه می‌کنیم. درمی‌یابیم که مدل‌های چندزبانه بازنمودهای مشترک زبان‌هایی را که دارای مشابهت‌های زبان‌شناختی هستند بدون نیاز به قیود بیرونی یاد می‌گیرند، و این امر بر درستی دانسته‌های شهودی دیرینه و نتایج تجربی‌ای صحه می‌گذارد  که از چنین شباهت‌هایی بهره می‌برند. در مقالۀ شمارۀ 6، تأثیرگذاری این بازنمودهای یادگرفته‌شده روی انتقال بین‌زبانی در عملیات فروسو را بیشتر نشان می‌دهیم.

نمایش دسته‌بندی بازنمودهای کدگذاری‌شدۀ تمامی 103 زبان، بر اساس شباهت بازنمودی. زبان‌ها بر مبنای خانوادۀ زبان‌شناختی‌شان به‌وسیلۀ رنگ‌های مختلف کدگذاری شده‌اند.
نمایش دسته‌بندی بازنمودهای کدگذاری‌شدۀ تمامی 103 زبان، بر اساس شباهت بازنمودی. زبان‌ها بر مبنای خانوادۀ زبان‌شناختی‌شان به‌وسیلۀ رنگ‌های مختلف کدگذاری شده‌اند.

ساخت شبکه‌های عصبی گسترده

با افزایش تعداد زبان‌های کم‌منبع در مدل، کیفیت زبان‌های پرمنبع شروع به کاهش می‌کند. این پسرفت در وضعیت‌های چندوظیفه‌ای دیده می‌شود و ناشی از رقابت بین وظیفه و ماهیت یکطرفۀ انتقال (یعنی از زبان‌های پرمنبع به سمت زبان‌های کم‌منبع) نشأت می‌گیرد. ما در عین حال که روی الگوریتم‌های بهتر برای یادگیری و کنترل ظرفیت کار می‌کنیم تا این انتقال منفی را کاهش دهیم، با بزرگ‌تر کردن شبکه‌های عصبی‌مان از طریق افزایش پارامترهای مدل، ظرفیت بازنمودی این شبکه‌ها را بالا می‌بریم تا کیفیت ترجمه برای زبان‌های پرمنبع کاهش پیدا نکند(ظرفیت بازنمودی representational capacity نشانگر انعطاف شبکه است) .

متنی که در حال مطالعه آن هستید، نمونه‌ای از ترجمه متون تخصصی رشته کامپیوتر در سایت ترجمه شبکه مترجمین ایران است. شما نیز می‌توانید با ثبت آنلاین سفارش، ترجمه متون تخصصی این رشته و رشته‌های دیگر را به ما بسپارید.

برای بالا بردن ظرفیت شبکۀ عصبی از طرح‌های مختلفی می‌توان استفاده کرد؛ طرح‌هایی همچون افزودن لایه‌های بیشتر یا تعریض بازنمودهای مخفی. با پیگیری تحقیقات‌مان دربارۀ آموزش دادن شبکه‌های عمیق‌تر برای ترجمه، از جی‌پایپ (GPipe) کمک گرفتیم تا ترانسفورمرهای (Transformer) 128 لایه‌ای دارای بیش از 6 میلیارد مؤلفه را آموزش دهیم. افزایش ظرفیت مدل منجر به ارتقای چشمگیر و به‌طور میانگین 5 نمره‌ای عملکرد در تمامی زبان‌ها شد. ما سایر ویژگی‌های شبکه‌های بسیار عمیق را نیز بررسی کردیم؛ ازجمله:

  • موازنه میان عمق و عرض
  • چالش‌های آموزش‌پذیری
  • طرح‌های قابل انتخاب برای افزایش ظرفیت ترانسفورمرها به بیش از 1500 لایه و 84 میلیارد پارامتر

در حالی که افزایش عمق یکی از راه‌های افزایش ظرفیت مدل است، بررسی معماری‌هایی که می‌توانند از ماهیت چندوظیفۀ مسأله بهره ببرند نیز روشی مکمل و فوق‌العاده عملی محسوب می‌شود. با اصلاح معماری ترانسفورمر از طریق جایگزینی لایه‌های وانیلا و فیدفوروارد با لایه‌های جدید به نام  sparsely-gated mixture of experts، ظرفیت مدل M4 را به‌طرز شگرفی بالا می‌بریم. این کار باعث می‌شود بتوانیم 50 میلیارد مؤلفه را با موفقیت آموزش دهیم و پشت سر بگذاریم و کیفیت کل زبان‌ها را افزایش دهیم.

افزایش کیفیت یک مدل به‌شدت چندزبانه با بالا بردن ظرفیت (تعداد پارامترها) در مقایسه با 103 خط مبنای دوزبانۀ جداگانه
افزایش کیفیت یک مدل به‌شدت چندزبانه با بالا بردن ظرفیت (تعداد پارامترها) در مقایسه با 103 خط مبنای دوزبانۀ جداگانه

عملی کردن مدل M4

آموزش دادن مدل‌های بزرگ با هزینه‌های رایانشی بسیار بالا برای هر زبان، دامنه یا وظیفه انتقال روشی ناکارآمد است. در عوض، ما در آینده مدل M4 روش‌هایی ارائه می‌دهیم تا با استفاده از لایه‌های با ظرفیت قابل تنظیم این مدل‌ها را عملی‌تر کنیم. استفاده از این لایه‌ها سازگاری مدل با زبان‌ها یا دامنه‌های جدید بدون تغییر شکل اولیۀ آن را ممکن می‌سازد.

گام‌های بعدی

دست‌کم نیمی از 7000 زبانی که در حال حاضر صحبت می‌شوند در پایان قرن حاضر دیگر وجود نخواهند داشت*. آیا ترجمۀ ماشینی چندزبانه می‌تواند منجی این زبان‌ها شود؟ ما رویکرد M4 را نخستین گام برای حرکت به سوی نجات دادن 1000 زبان بعدی می‌دانیم؛ آغاز کردن از این‌گونه مدل‌های چندزبانه ما را قادر خواهد ساخت تا، حتی در صورت عدم وجود داده‌های موازی، به‌راحتی به سراغ زبان‌ها، دامنه‌ها یا وظایف فروسوی دیگر برویم. مسلماً جاده ناهموار است و، در مسیر حرکت به سوی ترجمۀ ماشینی جهان‌شمول، چنین می‌نماید که بسیاری از راهکارهای احتمالی راهکارهایی میان‌رشته‌ای هستند. احتمالاً، این امر ترجمۀ ماشینی عصبی چندزبانه را به آزمونگاهی برای فعالان و نظریه‌پردازان حوزۀ یادگیری ماشینی تبدیل می‌کند که به بررسی پیشرفت‌های مباحث دیگری در این حوزه مثل یادگیری چندوظیفه‌ای، فرایادگیری، آموزش دینامیک‌های شبکه‌های عمیق و … علاقه دارند. هنوز راه زیادی در پیش داریم.

* The Cambridge Handbook of Endangered Languages (Austin and Sallabank, 2011).

از طريق
Google AI Blog
منبع
Exploring Massively Multilingual, Massive Neural Machine Translation

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.

دکمه بازگشت به بالا