Global Editions

آواز کی شناخت کی ٹیکنالوجی کو زیادہ وسیع پیمانے پر کس طرح استعمال کیا جاسکتا ہے؟

Photo Credit: FLICKR | MSANTOS7
اب آپ کو نہایت کم قیمت میں آواز کی شناخت کی ٹیکنالوجی مہیا کرنے کی کوششیں جاری ہیں۔

اگر گوگل کے ایک انجنیئر کی محنت رنگ لے آئے تو آپ کو آواز کی شناخت کی مہنگی ڈیوائسز پر پیسے خرچ کرنے کی ضرورت نہیں ہوگی۔ یہ انجنئیر، جن کا نام پیٹ وارڈن (Pete Warden) ہے، آواز کی شناخت کی ٹیکنالوجی کی قیمتوں میں اس قدر کمی لانا چاہ رہے ہیں کہ وہ ہر ایک کو باآسانی دستیاب ہوسکے۔

وارڈن آواز کی پراسیسنگ پر کام کرنے والے نیورل نیٹورکس کی تعداد کو اس حد تک کم کرنے کی کوشش کررہے ہیں کہ ان کا کم قیمت اور کم وزن چپس میں استعمال ممکن ہو۔ انھوں نے مملکت متحدہ کے شہر کیمبرج میں منعقد ہونے والی آرم ریسرچ سمٹ (Arm Research Summit) کے دوران بتایا کہ وہ صرف ایک کوائن کی بیٹری پر ایک سال کے عرصے تک چلنے والی ایک ایسی چپ بنانا چاہتے ہیں جس کے لیے غیرپیچیدہ آواز کی شناخت ممکن ہو اور جس کی لاگت محض 50 سینٹ ہو۔ وہ کہتے ہیں "اس وقت جو ٹیکنالوجی دستیاب ہے، اس میں یہ چپ بنائی جاسکتی ہے، لیکن اس میں ہمیں مزید وقت لگے گا۔"

اگر ایسا ممکن ہوجائے تو آواز کی شناخت کی ٹیکنالوجی اس قدر کم قیمت ہوجائے گی کہ وہ بچوں کے کھلونوں سے لے کر گھریلو اپلائنسز اور الیکٹرانکس تک ہر چیز میں نظر آنے لگی گی۔ تاہم وارڈن کے مطابق، اس کا سب سے زيادہ فائدہ فیکٹریوں میں ہوگا، جہاں اسے مشینوں میں خلاف معمول آوازوں کی نشاندہی کرنے کے لیے ٹرین کیا جاسکتا ہے۔

وارڈن گوگل میں ٹینسر فلو (TensorFlow) نامی مصنوعی ذہانت کے ٹول کے لیے موبائل اور ایمبیڈڈ (embedded) ایپلی کیشنز بنانے والی ایک ٹیم کی سربراہی بھی کررہے ہیں، اور وہ اعتراف کرتے ہیں کہ یہ سب اتنا آسان نہیں ہے۔ ایک چھوٹی سی مثال لیتے ہیں۔ ایمزان کے الیکسا سافٹ ویئر میں استعمال ہونے والی مصنوعی ذہانت کی ٹیکنالوجی کو محض سینکڑوں میگاہرٹز کی کلاک کی سپیڈز سے آراستہ بیٹری سے چلنے والی چپس پر استعمال کرنا اس وقت ممکن نہیں ہے۔ اس کی ایک وجہ یہ ہے کہ الیکسا کئی مختلف قسم کی آوازوں پر کام کر سکتا ہے، لیکن دوسری وجہ یہ ہے کہ زیادہ تر آواز کی شناخت کے مصنوعی ذہانت کے سسٹمز میں جو نیورل نیٹورکس استعمال ہوتے ہیں، ان کے لیے بڑی تعداد میں وسائل کی ضرورت پیش آتی ہے۔ اسی مسئلے کی وجہ سے الیکسا کی تمام پراسیسنگ کلاؤڈ میں کی جاتی ہے۔

وارڈن نے اس مسئلے کو محدود کرنے کے لیے صرف چند کمانڈز، جیسے کہ "آن"، "آف"، "شروع کریں" اور "بند کریں"، پر اپنی توجہ مرکوز کی ہے۔ اس کے علاوہ انھوں نے عام سپیچ کی شناخت کے الگارتھمز کا استعمال کرنے سے گریز کیا ہے۔ اس کے بجائے انھوں نے ایک ایسی تکنیک کا استعمال کیا ہے جس میں ہر آڈیو کلپ کو چھوٹے چھوٹے ٹکڑوں میں کاٹ کر ہر ایک کی الگ الگ فریکوینسی نکالی جاتی ہے۔ ان تمام فریکوینسیوں کو ایک ہی لائن میں رکھ کر فریکوینسی میں تبدیلی کا دو ڈائمنشنل خاکہ کھینچنے کے بعد ہر لفظ کی ادائیگی کے دستخط کی نشاندہی کے لیے ویژول پہچان کے الگارتھمز کا استعمال کیا جاتا ہے۔

شروع میں وارڈن کی ٹیم کو آڈيو کے ایک سیکنڈ لمبے کلپ کے 89 فیصد درستی کے ساتھ تجزیے کے لیے اسی لاکھ کیلکولیشنز کرنے کی ضرورت پڑی۔ یہ کیلکولیشنز ایک سمارٹ فون کے لیے تو ممکن ہیں، جس میں انٹریکشن کی گنجائش بھی ہوگی اور کلاؤڈ میں پراسیسنگ کروانے کی ضرورت بھی نہیں پیش آئے گی، لیکن یہ کم پاور کی چپ کے لیے ممکن نہیں ہوں گے۔ اس کے بعد ان کی ٹیم نے اینڈرائیڈ فونز میں استعمال ہونے والے الگارتھمز کا استعمال کرنے کی کوشش کی، اور اس کے نتیجے میں یہ سسٹم محض ساڑھے سات لاکھ کیلکولیشنز کے بعد ایک سیکنڈ لمبی سپیچ کا تجزیہ 85 فیصد درستی کے ساتھ کرنے میں کامیاب ہوگیا۔

اس تجربے کے بعد اس سسٹم کا کوڈ ٹینسرفلو کی ویب سائٹ پر ڈال دیا گيا، اور کوئی بھی شخص اسے استعمال کرکے اپنے خود کا سسٹم تیار کرسکتا ہے۔ اس وقت یہ کوڈ سمارٹ فونز اور راسبیری پائی (Rasbperry Pi) میں نصب چپس کے سافٹ ویئر کے لیے استعمال ہورہا ہے، اور اسے آرڈوینو (Arduino) بورڈز میں لگے ہوئے چھوٹے چپس پر استعمال کرنے کی کوششیں جاری ہیں۔

کیمبرج یونیورسٹی میں مصنوعی ذہانت کے سابقہ ریسرچر ٹونی رابنسن (Tony Robinson) جو اس وقت سپیچ کے پہچان کی کمپنی سپیچ میٹکس (Speechmatics) میں چیف ٹیکنیکل افسر کے عہدے پر فائز ہیں، کہتے ہیں کہ وارڈن کی کوششوں سے اگلے چند سالوں میں آواز کی پہچان کے استعمال میں اضافہ تو ہوگا، لیکن اس کی صلاحیتیں محدود ہونے کی وجہ سے یہ زيادہ مقبول ثابت نہیں ہو پائے گا۔ وہ کہتے ہیں کہ صارفین خود کو صرف چند گنے چنے احکامات تک محدود نہیں رکھنا چاہتے ہیں، اور جلد ہی اس سسٹم سے اکتا جائيں گے۔ ان کے اندازے کے مطابق گوگل اسسٹنٹ اور ایمزان کے الیکسا کی لسانی صلاحیتیں مہیا کرنے والی ہائی پاور چپس زيادہ مقبول ثابت ہوں گی۔

تحریر: جیمی کونڈلیف (Jamie Condliffe)

Read in English

Authors
Top