Global Editions

ری انفورسمنٹ لرننگ

کمپیوٹرز خود تجربے کرکے ایسے کام کرنا سیکھ رہے ہیں جو کوئی پروگرامر انھیں نہیں سکھا سکا۔

دستیابی: 1 سے 2 سال

ایک چھوٹی سی کمپیوٹر سیمولیشن میں چند خودکار گاڑیاں ایک چار لین کے ورچول ہائی وے پر ایک بہت مشکل کام کرنے میں لگی ہوئی ہیں۔ آدھی گاڑیاں بائيں طرف موجود ایکسٹ سے ٹریفک میں ضم ہونے کی کوشش کررہی ہیں، اور عین اسی وقت باقی گاڑیاں دائيں طرف کی لین سے بائيں لین میں منتقل ہورہی ہیں۔ آپ سمجھ رہے ہوں گے کہ ایک روبوٹ گاڑی کے لیے یہ ناممکن ثابت ہوگا، لیکن ان گاڑیوں نے یہ کام کر دکھایا۔

یہ سیمولیشن سپین کے شہر بارسیلونا میں منعقد ہونے والی مصنوعی ذہانت کی ایک کانفرنس میں پیش کی گئی تھی۔ مجھے یہ جان کر بڑی حیرت ہوئی کہ ان گاڑیوں کو کنٹرول کرنے والا سافٹ ویئر ایک روایتی پروگرام نہیں تھا، بلکہ اس نے لاتعداد بار مشق کرکے خود کا گاڑی چلانا سکھایا تھا۔ ٹریننگ کے دوران یہ سافٹ ویئر ہر کوشش کے بعد اپنی ہدایاتوں کو ایڈجسٹ کرتا تھا جس کے بعد گاڑیاں ایک مختلف پینترا آزمانے لگ جاتی تھیں۔ یہ گاڑیاں کئی بار ایک دوسرے سے ٹکرائيں، لیکن جب بھی وہ لین بدلنے میں کامیاب ہوئيں، سسٹم نے اس کا طریقہ ذن نشیں کرلیا۔

اس تکنیک کے، جس کا نام "ری انفورسمنٹ لرننگ (reinforcement learning)" ہے، ماضی میں بھی کافی مثبت نتائج سامنے آئے ہیں۔ پچھلے سال الفابیٹ (Alphabet) نامی کمپنی کی ایک ذيلی کمپنی نے، جس کا نام ڈیپ مائنڈ (DeepMind) ہے، اسی تکنیک کی مدد سے گو (Go) نامی بورڈ گیم کھیلنا سیکھا تھا، اور دنیا کے بہترین انسانی کھلاڑی کو شکست دی تھی۔ لیکن اب ری انفورسمنٹ لرننگ گیمز کی دنیا سے کہیں آگے بڑھنے والی ہے۔ خودکار ڈرائیونگ کے علاوہ، یہ ٹیکنالوجی روبوٹس کو ان چیزوں کی نشاندہی کرسکتے ہیں جو انھوں نے کبھی دیکھی نہ ہوں۔ اس کے علاوہ، ان کے لیے کسی ڈيٹا سینٹر کے آلات کی بہترین کانفیگریشن نکالنا بھی ممکن ہوگا۔

ری انفورسمنٹ لرننگ کسی نئے اصول کا نام نہیں ہے۔ ماہر نفسیات ایڈورڈ تھارن ڈائک (Edward Thorndike) نے اس کے متعلق ایک صدی پہلے مضامین شائع کیے تھے۔ انھوں نے کئی بلیوں کو مختلف ڈبوں میں بند کیا، جن سے نکلنے کا واحد راستہ ایک لیور تھا۔ کافی دیر تک بھاگ دوڑ کرنے کے بعد، ایک بلی کا اتفاق سے اس لیور پر پیر چلا گیا۔ اس کے بعد ان بلیوں کو ان ڈبوں سے باہر نکلنے کا راستہ سمجھ آگيا، اور وہ زیادہ جلدی ڈبے سے فرار ہونے لگ گئیں۔

مصنوعی ذہانت پر ابتدائی تحقیق کرنے والے ریسرچرز نے اس پراسیس کو مشینوں میں استعمال کرنے کی کوششیں کی۔ 1951ء میں ہارورڈ کے ایک طالب علم مارون منسکی (Marvin Minski) نے، جو بعد میں ایم آئی ٹی کے پروفیسر بھی رہے، اور جنھیں مصنوعی ذہانت کا بانی سمجھا جاتا ہے، ایک ایسی مشین ایجاد کی جس کے ذریعے ری انفورسمنٹ لرننگ کی مدد سے ایک چوہے کی ایک بھول بھلیاں میں راستہ تلاش کرنے کی کوششوں کی نقالی کی گئی۔ درجنوں ٹیوبز، موٹرز اور کلچز پر مشتمل سٹوکیسٹک نیورل انالوجی ری انفورسمنٹ کمپیوٹر (Stochastic Neural Analogy Reinforcement Computer، یا SNARC) نامی یہ مشین چالیس نیورونز اور سائناپسس کی سیمولیشن کرنے کی صلاحیت رکھتی تھی۔ جب بھی کوئی سیمولیٹڈ چوہا ورچول بھول بھلیاں سے نکلنے میں کامیاب ثابت ہوجاتا، چند سناپٹک کنکشنز کا جوڑ زیادہ مضبوط ہوجاتا، جس کی وجہ سے کامیابی کی وجہ بننے والے اقدام کو تقویت ملتی۔

اگلی چند دہائیوں میں ریسرچرز کی کوششیں زیادہ کامیاب نہیں ہوئيں۔ 1992ء میں آئی بی ایم کے ریسرچر جیرلڈ ٹیسورو (Gerald Tesauro) نے ایک ایسے پروگرام کا مظاہرہ کیا جس میں تاش کھیلنے کے لیے اس تکنیک کا استعمال کیا گیا تھا۔ جلد ہی یہ پروگرام بہترین انسانی کھلاڑیوں کو شکست دینے میں کامیاب ہوگیا، جو مصنوعی ذہانت کے لیے ایک سنگ میل تھا۔ تاہم ری انفورسمنٹ لرننگ کو زیادہ پیچیدہ مسائل میں استعمال کرنا مشکل ثابت ہورہا تھا۔ مملکت متحدہ میں ڈیپ مائنڈ کے ریسرچر اور ری انفورسمنٹ لرننگ کے حامی ڈیوڈ سلور (David Silver) کے مطابق لوگوں کو یہ تکنیک پسند تو بہت آئی، لیکن وہ اسے ایک کامیاب ٹیکنالوجی نہیں تسلیم کرتے تھے۔

مارچ 2016ء میں لوگوں کا نظریہ اس وقت بدلنے لگا جب ری انفورسمنٹ لرننگ کے ذریعے تربیت حاصل کرنے والا پروگرام الفا گو (AlphaGo) جنوبی کوریا کے لی سیڈول (Lee Sedol) کو شکست دینے میں کامیاب ہوگا، جس کا شمار گو کے بہترین کھلاڑیوں میں کیا جاتا تھا۔ دیکھنے والے دنگ رہ گئے، کیونکہ اس وقت روایتی پروگرامنگ کی مدد سے ایک اچھا گو کھیلنے والا پروگرام بنانا ناممکن سمجھا جاتا تھا۔ یہ کھیل نہایت پیچیدہ ہے، اور کئی چالیں ایسی ہیں کہ قابل گو کے کھلاڑی بھی مشکل میں پڑ جاتے ہيں، جس کی وجہ سے اس کی کوڈنگ آسان نہیں ہے۔ مصنوعی ذہانت کے ریسرچرز کا خیال تھا کہ کمپیوٹر کو انسانوں کی طرح کی کارکردگی کا مظاہرہ کرنے میں کم از کم دس سال لگیں گے۔

اپنا مقام قائم کرنے کی جدوجہد

سلور کہہتے ہيں کہ حال ہی میں ری انفورسمنٹ لرننگ کا فائدہ اس وجہ سے سامنے آرہا ہے کیونکہ اسے ڈیپ لرننگ کے ساتھ استعمال کیا جارہا ہے، جس میں ایک بہت بڑے سیمولیٹڈ نیٹورک کے ذریعے ڈيٹا کے پیٹرنز کی نشاندہی کی جاتی ہے۔

ری انفورسمنٹ لرننگ کو کامیاب بنانے کے لیے ریسرچرز ہر صحیح یا غلط قدم کو ایک ویلیو متعین کرتے ہیں، جسے ایک بڑے سے ٹیبل میں درج کیا جاتا ہے۔ کمپیوٹر جیسے جیسے سیکھتا رہتا ہے، وہ اس ٹیبل میں ردوبدل کرتا رہتا ہے۔ اگر کوئی بھی کام بہت زیادہ پیچیدہ ہو، تو ایک وقت ایسا آتا ہے جب یہ پراسیسنگ مزید قابل عمل نہیں رہتی ہے۔ تاہم پچھلے چند سالوں میں ڈیپ لرننگ کی مدد سے ڈيٹا کے پیٹرنز کی نشاندہی بہت آسان ہوگئی ہے۔

ڈیپ مائنڈ نے گیمز کے شعبے میں اپنا نام کمایا تھا۔ 2013ء میں انھوں نے ایک ایسے پروگرام کی تفصیلات شائع کی تھیں جو کسی سپرہیومن کی طرح ویڈیو گیمز کھیل سکتا تھا، جس کے بعد گوگل نے 2014ء میں 50 کروڑ ڈالر کے عوض اس کمپنی کو خریدلیا۔ اس کے بعد دوسرے ریسرچرز اور کمپنیوں نے ہمت پکڑی اور ان کی توجہ ری انفورسمنٹ لرننگ کی طرف چلی گئی۔ اب صنعتی روبوٹ بنانے والی کئی کمپنیاں مشینوں کو مینیول پروگرامنگ کے بغیر کام کرنا سکھا رہی ہیں۔ اس کے علاوہ، گوگل کے ریسرچرز ڈیپ مائنڈ کی مدد سے اپنے ڈيٹا سینٹرز کو بہتر طور پر توانائی استعمال کرنا سکھا رہے ہيں۔ ڈیٹا سینٹر کے پرزے توانائی کے استعمال کو اس طرح متاثر کریں گے؟ اس وقت اس سوال کا جواب نہیں دیا جاستا ہے۔ تاہم ایک ری انفورسمنٹ لرننگ کا الگارتھم سیمولیشن کے ڈیٹا سے تربیت حاصل کرکے کر زیراستعمال سسٹمز کے متعلق مشورے ضرور فراہم کرسکتا ہے۔

اس سافٹ ویئر کی صلاحیتوں کی بہترین مثال خودکار گاڑیوں سے ملتی ہے۔ اب بغیر ڈرائیور کی گاڑیاں پیچیدہ معاملات سے پوری طرح نبٹ نہیں پارہی ہیں۔ لہذا راستوں پر ٹریفک جام کی روک تھام کے لیے، انھیں اپنی گاڑی چلانے کی صلاحیتوں میں مزید بہتری لانے کی ضرورت ہے۔

بارسیلونا میں اس سافٹ ویئر کا مظاہرہ کرنے والی کمپنی کا نام موبل آئی (Mobileye) ہے، جو ٹیسلا موٹرز کے علاوہ درجنوں گاڑی بنانے والی کمپنیوں کو تحفظاتی سسٹمز مہیا کرتی ہے۔ موبل آئی کے ٹیکنالوجی کے نائب صرف شائے شالو شوارٹز ( Shai Shalev-Shwartz) نے اپنی پریزنٹیشن میں ٹریفک جام کی چند مثالیں بھی پیش کیں جن کا خودکار گاڑیوں کو ‎سامنا ہوسکتا ہے۔ اس کے ساتھ انھوں نے یہ بھی بتایا کہ خودکار گاڑیوں سے سارا وقت قانون کی تعمیل کرنے کی توقع کرنا بے وقوفی ہے، کیونکہ اس سے ایک ایک گھنٹے تک ٹریفک جام میں پھنسے رہنے کا امکان ہے۔

موبل آئی جلد ہی بی ایم ڈبل یو اور انٹیل کے ساتھ مل کر اس سافٹ ویئر کی ٹیسٹنگ کرنے والے ہیں۔ نیز، گوگل اور اوبر بھی کہتے ہیں کہ وہ اپنی خودکار گاڑیوں میں ری انفورسمنٹ لرننگ کی ٹیسٹنگ کررہے ہیں۔

سٹان فورڈ یونیورسٹی کی اسسٹنٹ پروفیسر ایما برنسکل (Emma Brunskill) کے مطابق ری انفورسمنٹ لرننگ کے استعمال میں اضافہ ہورہا ہے، اور سلسلہ وار فیصلے لینے کی صلاحیت کو فروغ دینے کی خصوصیت کی وجہ سے یہ تکنیک خودکار ڈرائیونگ کے لیے موزوں ثابت ہوسکتی ہے۔ اگر پروگرامرز خودکار گاڑیوں میں پیشگی طور پر ایک ایک کر کے ان تمام فیصلوں کی کوڈنگ کرتے تو شاید پیش رفت بہت سست ہوتی۔

تاہم ابھی بھی ری انفورسمنٹ لرننگ کی راہ میں رکاوٹیں پوری طرح ختم نہیں ہوئی ہیں۔ چینی کمپنی بیدو کے چیف سائنسدان اینڈرو نگ (Andrew Ng) کہتے ہیں کہ ان سسٹمز کے لیے وافر مقدار میں ڈیٹا درکار ہے، اور یہ صرف اسی وقت کامیاب ثابت ہوا ہے جب اسے سیمولیشنز میں مشق کرنے کا موقع ملا ہے۔ ریسرچرز اب تک ری انفورسمنٹ لرننگ کو پیچیدہ مسائل کے حل کے لیے استعمال کرنے کے طریقہ کار ڈھونڈنے میں لگے ہوئے ہیں۔ موبل آئی کو بھی اپنے پروٹوکولز میں ردوبدل کرنی پڑی تاکہ ایک ایسی خودکار گاڑی جو حادثات سے بچنے میں ماہر ہو، دوسروں کے لیے حادثوں کی وجہ نہ بنے۔

مظاہرہ دیکھنے کے بعد آپ کو لگے گا کہ یہ کمپنی اپنی کوششوں میں کامیاب رہی ہے۔ لیکن ری انفورسمنٹ لرننگ کا صحیح امتحان اسی وقت ہوگا جب خودکار گاڑیاں زیادہ عام ہوجائيں گی۔

تحریر: ول نائٹ (Will Knight)

Read in English

Authors
Top