یادگیری چند وظیفه‌ای

یادگیری چند وظیفه‌ای (Multi-task learning (MTL)) زیر مجموعه‌ای از یادگیری ماشین است که در آن چندین کار یادگیری همزمان حل می‌شود، در حالی که از نقاط اشتراک و تفاوت بین وظایف استفاده می‌شود. این می‌تواند باعث بهبود کارایی یادگیری و دقت پیش‌بینی برای مدل‌های خاص وظیفه در مقایسه با آموزش مدل‌ها به‌طور جداگانه شود. نسخه‌های اولیه MTL «اشاره» نامیده می‌شدند.^[۱]^[۲]^[۳]

ریچ کاروانا در مقاله ای که در سال ۱۹۹۷ به‌طور گسترده مورد استناد قرار گرفت، توصیف زیر را ارائه کرد:

یادگیری چند وظیفه ای رویکردی برای انتقال استقرایی است که تعمیم را با استفاده از اطلاعات دامنه موجود در سیگنال‌های آموزشی وظایف مرتبط به عنوان یک سوگیری استقرایی بهبود می‌بخشد. این کار را با یادگیری کارها به صورت موازی در حین استفاده از یک نمایش مشترک انجام می‌دهد. آنچه برای هر کار آموزش داده می‌شود، می‌تواند به یادگیری بهتر وظایف دیگر کمک کند.

در زمینه طبقه‌بندی، هدف MTL بهبود عملکرد وظایف طبقه‌بندی متعدد با یادگیری مشترک آنهاست. به عنوان مثال می‌توان به یک فیلتر اسپم اشاره کرد که می‌تواند به عنوان طبقه‌بندی متمایز اما مرتبط در بین کاربران مختلف در نظر گرفته شود. برای واضح‌تر کردن این موضوع، در نظر بگیرید که افراد مختلف توزیع‌های متفاوتی از ویژگی‌ها دارند که ایمیل‌های اسپم را از ایمیل‌های قانونی متمایز می‌کند، برای مثال یک انگلیسی‌زبان ممکن است متوجه شود که همه ایمیل‌های روسی اسپم هستند، اما برای روسی‌زبانان این‌گونه نیست. با این حال یک اشتراک مشخص در این طبقه‌بندی در بین کاربران وجود دارد، برای مثال یکی از ویژگی‌های مشترک ممکن است متن مربوط به انتقال پول باشد. حل مشکل طبقه‌بندی اسپم هر کاربر به‌طور مشترک از طریق MTL می‌تواند به راه‌حل‌ها اجازه دهد تا یکدیگر را مطلع کنند و عملکرد را بهبود بخشند.^[۴] نمونه‌های بیشتری از تنظیمات برای MTL شامل طبقه‌بندی چند کلاسه و طبقه‌بندی چندبرچسبی است.^[۵]

یادگیری چند وظیفه‌ای به خوبی کار می‌کند زیرا منظم سازی ناشی از نیاز به یک الگوریتم برای اجرای درست یک کار مرتبط می‌تواند برتر از منظم سازی باشد که با جریمه کردن یکنواخت همه پیچیدگی‌ها از بیش برازش جلوگیری می‌کند. یکی از موقعیت‌هایی که MTL ممکن است بسیار مفید باشد، این است که وظایف مشترکات قابل توجهی داشته باشند و عموماً کمتر نمونه‌برداری شده باشند.^[۶]^[۷] با این حال، نشان داده شده‌است که MTL برای یادگیری وظایف نامرتبط نیز مفید است.^[۶]^[۸]

روش‌ها[ویرایش]

گروه‌بندی وظایف و همپوشانی[ویرایش]

در پارادایم MTL، اطلاعات را می‌توان در برخی یا همه وظایف به اشتراک گذاشت. بسته به ساختار ارتباط کار، ممکن است بخواهید اطلاعات را به صورت انتخابی در بین وظایف به اشتراک بگذارید. به عنوان مثال، وظایف ممکن است گروه‌بندی شوند یا در یک سلسله مراتب وجود داشته باشند، یا بر اساس برخی معیارهای کلی مرتبط باشند. فرض کنید، که بردار پارامتر مدل‌سازی هر کار، ترکیبی خطی از برخی از پایه‌های اساسی است. تشابه از نظر این مبنا می‌تواند نشان دهنده مرتبط بودن وظایف باشد. به عنوان مثال، با پراکندگی، همپوشانی ضرایب غیر صفر در بین وظایف نشان دهنده اشتراک است. سپس یک گروه‌بندی وظیفه با آن وظایفی مطابقت دارد که در یک زیرفضای ایجاد شده توسط برخی از زیرمجموعه‌های عناصر پایه، جایی که وظایف در گروه‌های مختلف ممکن است از نظر پایه‌هایشان نابه‌هم‌پیوسته یا همپوشانی داشته باشند، مطابقت دارد.^[۹] ارتباط کار را می‌توان به صورت پیشینی تحمیل کرد یا از داده‌ها آموخت.^[۱۰]^[۱۱] ارتباط سلسله مراتبی وظایف نیز می‌تواند به‌طور ضمنی بدون فرض دانش پیشینی یا روابط یادگیری به‌طور صریح مورد بهره‌برداری قرار گیرد.^[۱۲]^[۱۳] به عنوان مثال، یادگیری صریح ارتباط نمونه در بین وظایف را می‌توان برای تضمین اثربخشی یادگیری مشترک در چندین حوزه انجام داد.^[۱۲]

بهره‌برداری از وظایف نامرتبط[ویرایش]

می‌توان با استفاده از گروهی از وظایف کمکی، غیر مرتبط با کارهای اصلی، گروهی از وظایف اصلی را یادگرفت. در بسیاری از برنامه‌ها، یادگیری مشترک وظایف نامرتبط که از داده‌های ورودی یکسان استفاده می‌کنند می‌تواند مفید باشد. دلیل آن این است که دانش قبلی در مورد ارتباط کار می‌تواند منجر به نمایش‌های پراکنده‌تر و آموزنده‌تر برای هر گروه کاری شود، که اساساً با غربال کردن ویژگی‌های خاص توزیع داده‌ها انجام می‌شود. روش‌های جدیدی که مبتنی بر روش‌شناسی چندوظیفه‌ای قبلی با حمایت از نمایش کم‌بعدی مشترک در هر گروه کار است، پیشنهاد شده‌اند. برنامه‌نویس می‌تواند برای وظایف گروه‌های مختلف جریمه ای اعمال کند که این دو نمایش را به متعامد بودن تشویق می‌کند. آزمایش‌ها بر روی داده‌های مصنوعی و واقعی نشان داده‌اند که ترکیب وظایف نامرتبط می‌تواند منجر به پیشرفت‌های قابل‌توجهی نسبت به روش‌های استاندارد یادگیری چند وظیفه‌ای شود.^[۱۴]

انتقال دانش[ویرایش]

مفهوم انتقال دانش مربوط به یادگیری چند وظیفه‌ای است. در حالی که یادگیری چند وظیفه‌ای سنتی به این معنی است که یک نمایش مشترک به‌طور همزمان در بین وظایف ایجاد می‌شود، انتقال دانش مستلزم یک نمایش مشترک متوالی است. پروژه‌های یادگیری ماشینی در مقیاس بزرگ مانند شبکه عصبی کانولوشنال GoogLeNet ,^[۱۵] یک طبقه‌بندی‌کننده شی مبتنی بر تصویر، می‌تواند نمایش‌های قوی ایجاد کند که ممکن است برای یادگیری الگوریتم‌های وظایف مرتبط مفید باشد. به عنوان مثال، مدل از پیش آموزش دیده می‌تواند به عنوان استخراج کننده ویژگی برای انجام پیش پردازش برای الگوریتم یادگیری دیگر استفاده شود. یا مدل از پیش آموزش دیده می‌تواند برای مقداردهی اولیه یک مدل با معماری مشابه استفاده شود که سپس برای یادگیری یک کار طبقه‌بندی متفاوت تنظیم می‌شود.^[۱۶]

یادگیری تطبیقی آنلاین گروهی[ویرایش]

به‌طور سنتی یادگیری چند وظیفه ای و انتقال دانش در تنظیمات یادگیری ثابت اعمال می‌شود. گسترش آنها به محیط‌های غیر ثابت، یادگیری تطبیقی آنلاین گروهی (GOAL) نامیده می‌شود.^[۱۷] به اشتراک گذاری اطلاعات می‌تواند مفید باشد به ویژه اگر یادگیرندگان در محیط‌های پیوسته در حال تغییر عمل کنند، زیرا یک یادگیرنده می‌تواند از تجربه قبلی یادگیرنده دیگر برای سازگاری سریع با محیط جدید خود بهره‌مند شود. چنین یادگیری تطبیقی گروهی کاربردهای متعددی دارد، از پیش‌بینی سری‌های زمانی مالی، از طریق سیستم‌های توصیه محتوا، تا درک بصری برای عوامل خودمختار تطبیقی.

کاربرد ها[ویرایش]

فیلتر اسپم[ویرایش]

با استفاده از اصول MTL، تکنیک‌هایی برای فیلتر کردن هرزنامه‌های مشترک که شخصی‌سازی را تسهیل می‌کند، پیشنهاد شده‌است. در سیستم‌های ایمیل عضویت باز در مقیاس بزرگ، اکثر کاربران پیام‌ها را به اندازه کافی برای اثربخشی طبقه‌بندی‌کننده محلی مشخص نمی‌کنند، در حالی که داده‌ها آنقدر نویز دارند که نمی‌توانند برای فیلتر سراسری در همه کاربران استفاده شوند. یک طبقه‌بندی‌کننده جهانی/انفرادی ترکیبی می‌تواند در جذب تأثیر کاربرانی که ایمیل‌ها را با جدیت از عموم مردم برچسب‌گذاری می‌کنند، مؤثر باشد. این را می‌توان در حالی انجام داد که هنوز کیفیت کافی را برای کاربران با نمونه‌های برچسب گذاری شده کمی ارائه می‌دهد.^[۱۸]

جستجوی وب[ویرایش]

با استفاده از درخت‌های تصمیم تقویت شده، می‌توان به اشتراک گذاری و منظم سازی ضمنی داده را فعال کرد. این روش یادگیری را می‌توان در مجموعه داده‌های رتبه‌بندی جستجوی وب استفاده کرد. یک مثال استفاده از مجموعه داده‌های رتبه‌بندی از چندین کشور است. در اینجا، یادگیری چندوظیفه ای مفید است زیرا مجموعه داده‌های کشورهای مختلف به دلیل هزینه قضاوت‌های سرمقاله از نظر اندازه تا حد زیادی متفاوت است. نشان داده شده‌است که یادگیری وظایف مختلف به‌طور مشترک می‌تواند به بهبود قابل توجهی در عملکرد با قابلیت اطمینان شگفت‌انگیز منجر شود.^[۱۹]

منابع[ویرایش]

↑ Baxter, J. (2000). A model of inductive bias learning" Journal of Artificial Intelligence Research 12:149--198, On-line paper
↑ Thrun, S. (1996). Is learning the n-th thing any easier than learning the first?. In Advances in Neural Information Processing Systems 8, pp. 640--646. MIT Press. Paper at Citeseer
↑ Caruana, R. (1997). "Multi-task learning" (PDF). Machine Learning. 28: 41–75. doi:10.1023/A:1007379606734.
↑ Weinberger, Kilian. "Multi-task Learning".
↑ Ciliberto. "Convex Learning of Multiple Tasks and their Structure". {{cite arxiv}}: |arxiv= required (help)
↑ ^۶٫۰ ^۶٫۱ Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. 32nd Conference on Neural Information Processing Systems (NIPS 2018), Montréal, Canada. آرخیو:1810.09433
↑ Weinberger, Kilian. "Multi-task Learning".
↑ Romera-Paredes, B. , Argyriou, A. , Bianchi-Berthouze, N. , & Pontil, M. , (2012) Exploiting Unrelated Tasks in Multi-Task Learning. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
↑ Kumar, A. , & Daume III, H. , (2012) Learning Task Grouping and Overlap in Multi-Task Learning. http://icml.cc/2012/papers/690.pdf
↑ Ciliberto. "Convex Learning of Multiple Tasks and their Structure". {{cite arxiv}}: |arxiv= required (help)
↑ Jawanpuria, P. , & Saketha Nath, J. , (2012) A Convex Feature Learning Formulation for Latent Task Structure Discovery. http://icml.cc/2012/papers/90.pdf
↑ ^۱۲٫۰ ^۱۲٫۱ Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. 32nd Conference on Neural Information Processing Systems (NIPS 2018), Montréal, Canada. آرخیو:1810.09433
↑ Zweig, A. & Weinshall, D. Hierarchical Regularization Cascade for Joint Learning. Proceedings: of 30th International Conference on Machine Learning (ICML), Atlanta GA, June 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf
↑ Romera-Paredes, B. , Argyriou, A. , Bianchi-Berthouze, N. , & Pontil, M. , (2012) Exploiting Unrelated Tasks in Multi-Task Learning. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
↑ {{cite book}}: Empty citation (help)
↑ Roig, Gemma. "Deep Learning Overview" (PDF). Archived from the original (PDF) on 6 March 2016. Retrieved 1 February 2023.
↑ Zweig, A. & Chechik, G. Group online adaptive learning. Machine Learning, DOI 10.1007/s10994-017- 5661-5, August 2017. http://rdcu.be/uFSv
↑ Attenberg, J. , Weinberger, K. , & Dasgupta, A. Collaborative Email-Spam Filtering with the Hashing-Trick. http://www.cse.wustl.edu/~kilian/papers/ceas2009-paper-11.pdf بایگانی‌شده در ۱ آوریل ۲۰۱۱ توسط Wayback Machine
↑ Chappelle, O. , Shivaswamy, P. , & Vadrevu, S. Multi-Task Learning for Boosting with Application to Web Search Ranking. http://www.cse.wustl.edu/~kilian/papers/multiboost2010.pdf بایگانی‌شده در ۱ آوریل ۲۰۱۱ توسط Wayback Machine

[1] Baxter, J. (2000). A model of inductive bias learning" Journal of Artificial Intelligence Research 12:149--198, On-line paper

[2] Thrun, S. (1996). Is learning the n-th thing any easier than learning the first?. In Advances in Neural Information Processing Systems 8, pp. 640--646. MIT Press. Paper at Citeseer

[:2-3] Caruana, R. (1997). "Multi-task learning" (PDF). Machine Learning. 28: 41–75. doi:10.1023/A:1007379606734.

[:02-4] Weinberger, Kilian. "Multi-task Learning".

[:12-5] Ciliberto. "Convex Learning of Multiple Tasks and their Structure". {{cite arxiv}}: |arxiv= required (help)

[:bmdl-6] ۶٫۰ ^۶٫۱ Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. 32nd Conference on Neural Information Processing Systems (NIPS 2018), Montréal, Canada. آرخیو:1810.09433

[:03-7] Weinberger, Kilian. "Multi-task Learning".

[:3-8] Romera-Paredes, B. , Argyriou, A. , Bianchi-Berthouze, N. , & Pontil, M. , (2012) Exploiting Unrelated Tasks in Multi-Task Learning. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf

[9] Kumar, A. , & Daume III, H. , (2012) Learning Task Grouping and Overlap in Multi-Task Learning. http://icml.cc/2012/papers/690.pdf

[:13-10] Ciliberto. "Convex Learning of Multiple Tasks and their Structure". {{cite arxiv}}: |arxiv= required (help)

[11] Jawanpuria, P. , & Saketha Nath, J. , (2012) A Convex Feature Learning Formulation for Latent Task Structure Discovery. http://icml.cc/2012/papers/90.pdf

[:bmdl3-12] ۱۲٫۰ ^۱۲٫۱ Hajiramezanali, E. & Dadaneh, S. Z. & Karbalayghareh, A. & Zhou, Z. & Qian, X. Bayesian multi-domain learning for cancer subtype discovery from next-generation sequencing count data. 32nd Conference on Neural Information Processing Systems (NIPS 2018), Montréal, Canada. آرخیو:1810.09433

[13] Zweig, A. & Weinshall, D. Hierarchical Regularization Cascade for Joint Learning. Proceedings: of 30th International Conference on Machine Learning (ICML), Atlanta GA, June 2013. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf

[:32-14] Romera-Paredes, B. , Argyriou, A. , Bianchi-Berthouze, N. , & Pontil, M. , (2012) Exploiting Unrelated Tasks in Multi-Task Learning. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf

[15] {{cite book}}: Empty citation (help)

[16] Roig, Gemma. "Deep Learning Overview" (PDF). Archived from the original (PDF) on 6 March 2016. Retrieved 1 February 2023.

[17] Zweig, A. & Chechik, G. Group online adaptive learning. Machine Learning, DOI 10.1007/s10994-017- 5661-5, August 2017. http://rdcu.be/uFSv

[18] Attenberg, J. , Weinberger, K. , & Dasgupta, A. Collaborative Email-Spam Filtering with the Hashing-Trick. http://www.cse.wustl.edu/~kilian/papers/ceas2009-paper-11.pdf بایگانی‌شده در ۱ آوریل ۲۰۱۱ توسط Wayback Machine

[19] Chappelle, O. , Shivaswamy, P. , & Vadrevu, S. Multi-Task Learning for Boosting with Application to Web Search Ranking. http://www.cse.wustl.edu/~kilian/papers/multiboost2010.pdf بایگانی‌شده در ۱ آوریل ۲۰۱۱ توسط Wayback Machine

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]

[۱۰]

[۱۱]

[۱۲]

[۱۳]

[۱۴]

[۱۵]

[۱۶]

[۱۷]

[۱۸]

[۱۹]