ترجمه کامپیوتر - 19 صفحه
سال 2011
Generating Text with Recurrent Neural Networks
تهیه متن بوسیله شبکه های عصبی بازگشتی
Ilya Sutskever
James Martens
Geoffrey Hinton
University of Toronto, 6 King’s College Rd., Toronto, ON M5S 3G4 CANADA
https://www.cs.toronto.edu/~ilya/pubs
دانلود رایگان مقاله انگلیسی - تهیه متن بوسیله شبکه های عصبی بازگشتی
چکیده
شبکه های عصبی بازگشتی (RNNs)، مدل های رشته ای نیرومندی هستند که موارد استفاده شایعی ندارند چون چیدن مناسب آنها بسی دشوار است. خوشبختانه پیشرفت های اخیر در بهینه سازی Hessian-free توانسته است بر دشواری های مربوط به راه اندازی RNNs چیره شود و با مشکلات پیاپی به مبارزه برخیزد. ما در این مقاله، نیروی RNNs راه اندازی شده توسط بهینه ساز Hessian-Free (HF) را ثابت می کنیم و این اثبات با بکار بردن آن در وظائف مدل سازی زبانی است که با کاراکتر- میزان می باشد. معماری استاندارد RNN در حالت موثر بودن، به گونه ایده آلی برای چنین کارهایی مناسب نیست. بنابراین ما RNN جدید دیگری را معرفی می کنیم که از ارتباطات تکثیری (و یا "gated") بهره می گیرد؛ این ارتباطات به کاراکتر ورودی جاری اجازه می دهد تا ماتریس گذار را از یک بردار وضعیت پنهان به بردار دیگر تعیین کند. پس از آموزش RNN تکثیری بوسیله بهینه ساز HF به مدت پنج روز بر روی 8 واحد پردازش گرافیکی high-end، ما می توانیم از اجرای بهترین متد تکی قبلی پیشی بگیریم؛ متدی که مربوط به مدل سازی زبانی کاراکتر- میزان است، یک مدل توالی غیرپارامتری. در ارتباط با شناخت ما، این موضوع، بزرگ ترین کاربرد شبکه ای بازگشتی را ارائه می دهد.
Abstract
Recurrent Neural Networks (RNNs) are very powerful sequence models that do not enjoy widespread use because it is extremely difficult to train them properly. Fortunately, recent advances in Hessian-free optimization have been able to overcome the difficulties associatedwith training RNNs, making it possible to apply them successfully to challenging sequence problems.In this paper we demonstrate the powerof RNNs trained with the new Hessian-Free optimizer (HF) by applying them to character-level language modeling tasks. The standard RNN architecture, while effective, is not ideally suited for such tasks, so we introduce a new RNN variant that uses multiplicative (or “gated”) connections which allow the current input character to determine the transition matrix from one hidden state vector to the next. After training the multiplicative RNN with the HF optimizer for five days on 8 high-end Graphics Processing Units, we were able to surpass the performance of the best previous single method for characterlevel language modeling – a hierarchical nonparametric sequence model. To our knowledge this represents the largest recurrent neural network application to date
