داستان فنی
“سلام بیب!” روش جدید درخواست اخبار در بی بی سی است. بیب به عنوان صدای بی بی سی، یک دستیار صوتی فعال است که به درخواست بینندگان و شنوندگان برای برنامه ها و محتوا پاسخ می دهد. صدا و شخصیت بیب محصول یک پلتفرم سفارشی و مبتنی بر هوش مصنوعی است که بر روی Azure اجرا میشود. این پلت فرم از خدمات Azure Cognitive و Azure Bot Service استفاده میکند تا به بیب توانایی درک، یادگیری و مکالمه را بدهد. معماری پشت بیب قابلیتهای یادگیری ماشینی قدرتمندی را در اختیار توسعه دهندگان بی بی سی قرار میدهد و به شرکت راههای جدیدی برای ارتباط با مخاطبان خود میدهد.
چالش یافتن صدای مناسب
از سال 1922، بی بی سی صدای قابل اعتماد اخبار در انگلستان بوده است، ابتدا از طریق پخش رادیویی و بعداً از طریق برنامههای تلویزیونی خود. بی بی سی برای سهولت یافتن اخبار و سرگرمی برای مخاطبانش، یکی از اولین ارائه دهندگان محتوا بود که از دستگاه های صوتی مانند Amazon Echo و Google Home پشتیبانی میکرد. دستگاههای صوتی متکی به پردازش زبان طبیعی هستند، دستهای ازهوش مصنوعی که به رایانهها امکان میدهد گفتار را بشنوند، زبان را تفسیر کرده و بر اساس کلمات مربوطه تصمیم گیری کنند.
پردازش زبان طبیعی یک علم در حال تحول است و ارتباط – تشخیص معنای یک گوینده – یک چالش کلیدی برای هوش مصنوعی است. ارتباط عبارت است از شناسایی نه تنها کلمات یک سخنرانی بلکه قصد آنها و سپس پاسخ مناسب به مخاطب. اما گفتار انسان با تلفیق گویش های منطقهای، لهجهها و اصطلاحات وام گرفته شده از زبانهای دیگر پیچیده است و دستگاه هایی که استفاده می کنیم گاهی اوقات اشتباه می کنند.
گروهی از مهندسان تیم صدا + AI بی بی سی میخواستند یک دستیار صوتی بسازند که نشانگر نام تجاری بی بی سی باشد. این بدان معناست که میتوانید تمام جنبههای تجربه را کنترل کنید، از جمله کلید واژه “OK، Beeb” ، صدای Beeb و نحوه پاسخگویی به درخواست کاربران. در این زمینه، یک کلمه کلیدی یک کلمه یا عبارت کوتاه است که به شما امکان می دهد صدا را برای بیب فعال کنید.
ویلیام واکر، مهندس نرم افزار در تیم توضیح می دهد: “چالش این بود که به کاربرانمان تجربهای را بدهیم که از بی بی سی انتظار دارند.” “برای انجام این کار، ما نیاز به کنترل کامل بر عناصر طراحی داریم. و این به معنای ایجاد یک دستیار صوتی سفارشی برای بی بی سی بود. “
تیم بی بی سی میخواست راه حلی منعطف پیدا کند که از این نوع سفارش سازی ها پشتیبانی کند. این راه حل باید آنقدر هوشمند باشد که بتواند به مخاطبان بی بی سی آنچه را که میخواهد ارائه دهد. فهرست صوتی و تصویری بی بی سی عظیم است و بیش از 5000 عنوان پادکست به تنهایی، میلیونها قسمت را نشان می دهد و این شامل برنامههای خبری، آب و هوا، کمدی، درام و دیگر برنامه ها نیز می شود. یک رابط صوتی طبیعی که به طور منحصر به فردی برای این نوع جستجو مناسب است.
این راه حل همچنین نیاز به ایجاد بستری انعطاف پذیر برای رشد آینده دارد. همانطور که خدمات صوتی بیشتری آنلاین شد ، تیم Voice + AI می دانست که از چندین محیط ابری پشتیبانی می کند و در نهایت ویژگی های فعال شده با صدا را برای همه مخاطبان بین المللی وابسته به BBC ارائه میدهد.
کریس دیکس ، مدیر تحول فناوری در بی بی سی می گوید: “به هیچ وجه نمی توانیم این کار را به تنهایی انجام دهیم، بنابراین ما به دنبال یک راه حل مقیاس پذیر و مبتنی بر ابر بودیم که میتوانست با ما کار کند.”
beeb انلاین میشود
راه حل بی بی سی یک دستیار صوتی سفارشی است که ویژگی های مکالمه را در کانال های مختلف ارائه میدهد. بی بی سی با مایکروسافت همکاری کرد زیرا دو شرکت نظرات خود را در مورد استفاده مسئولانه از هوش مصنوعی و فناوری صدای مصنوعی به اشتراک گذاشتند و هر دو به حریم خصوصی داده ها اهمیت میدهند.
یان واکر می گوید: “ما از بودجه عمومی برخوردار هستیم و مخاطبان باید به خدمات ما اعتماد کنند.” مایکروسافت این را درک کرد و آنها با ما همکاری میکنند تا راه حلی را ارائه دهیم که مطابق با استانداردهای ما باشد. “
تیم Voice + AI راه حلی را به عنوان خط لوله خدمات Azure ایجاد کرد و از پلتفرم Azure به عنوان سرویس (PaaS) نهایت استفاده را برد. دیکس می گوید: “PaaS قدرت فنی ما را افزایش میدهد و زمان ما را برای بازار افزایش می دهد.” Azure به ما قابلیتهای کلیدی را میدهد که به ما اجازه میدهد خیلی سریعتر از آنچه که قبلاً فکر می کردیم به اهداف خود برسیم. “
این راه حل توسط Azure و Microsoft Bot Framework از طریق استفاده از Direct Line Speech که از تشخیص گفتار و ترکیب گفتار پشتیبانی می کند. این مجموعه خدمات توسعه دهندگان را قادر می سازد تا ورودی و خروجی قابل تنظیم گفتار را با ربات ها و قابلیت های درک زبان طبیعی ترکیب کنند.
کلمه کلیدی “سلام ،بیب” نه تنها دستیار صوتی را بیدار میکند، بلکه یکی از چندین سفارشی سازی ها را نیز نشان می دهد که تیم Voice + AI برای نشان دادن شخصیت Beeb استفاده میکند. تیم بی بی سی این عبارت را برای آشنایی مردم با نام تجاری بی بی سی انتخاب کرد.
علاوه بر اینها، وقتی بیب پاسخ میدهد، صدا به طور منحصر به فرد نشان دهنده قدرت اخباری بی بی سی است. صدا از ویژگی های بخشی از خدمات ارائه شده در گفتار خدمات شناختی است. بی بی سی لحنی دوستانه به بیب داد و پاسخها را برای انتقال هرچه بیشتر صمیمیت تنظیم کرد. تیم Voice + AI از نزدیک با توسعه دهندگان محصولات مایکروسافت همکاری کرد و این کار منجر به بهبود طیف وسیعی از ویژگیها از جمله سفارشی سازی شدن بیب شد.
به تازگی، نسخه بتا Beeb به عنوان بخشی از برنامه Windows Insider پخش شد. تیم بیب در حال جمع آوری بازخورد کاربران از طریق برنامه برای بهبود توانایی بیب در درک و پاسخگویی است. برنامه بتا بر روی رایانه های شخصی ویندوز 10 اجرا می شود، اما تیم در حال برنامه ریزی برای توسعه رابط کاربری برای چندین کانال اصلی است که توسط مخاطبان بی بی سی استفاده میشود، مانند دستگاه های صوتی، برنامههای تلفن همراه ، سیستمهای صوتی داخل خودرو و همچنین تلویزیون های هوشمند.
معماری دستیار صوتی
هنگامی که برنامه Beeb کلمه کلیدی یعنی “سلام ،بیب” را تشخیص میدهد، زنجیرهای از رویدادها را آغاز میکند و از سطح سیستم عامل شروع می شود. آخرین نسخه ویندوز 10 از دستیارهای صوتی از طریق بستر Multiple Voice Assistant (MVA) پشتیبانی میکند. توسعه دهندگان کلمه کلیدی را با MVA ثبت کردند که به Windows امکان میدهد “OK، Beeb” را تشخیص دهد – حتی زمانی که برنامه Beeb اجرا نمی شود.
پس از اینکه برنامه کلمه کلیدی را شناسایی و تأیید کرد، از SDK گفتار برای ارتباط با ربات BBC از طریق خط مستقیم استفاده می کند. وقتی صدا به این کانال ارسال میشود، Direct Line Speech از قابلیتهای گفتار به متن در خدمات شناختی برای تبدیل کلمات گفتاری به متن استفاده میکند. سپس متن به رسمیت شناخته شده به ربات ارسال میشود، که از درک زبان برای تفسیر ورودی و تعیین پاسخ مناسب استفاده میکند.
هنگام ارسال پاسخ به برنامه ، کانال Direct Line Speech از متن به گفتار برای تبدیل پاسخ استفاده میکند. ویلیام واکر میگوید: “گفتار خط مستقیم به ما کمک میکند تا رویکرد تاخیری بسیار کمی را در پردازش گفتار ارائه دهیم.” “این برای یک رابط صوتی طبیعی بسیار مهم است.”
تیم Voice + AI از مجموعهای از ابزارها به نام Custom Speech استفاده کرد تا مطمئن شود Beeb محتوای کلیدی مانند عناوین پادکست را تشخیص میدهد. این تیم یک مدل سفارشی را برای تشخیص واژگان بی بی سی آموزش داد، که به بهبود دقت گفتار به متن و غلبه بر سایر موانع تشخیص گفتار، مانند سبک صحبت کردن و حذف سر و صدای پس زمینه کمک میکند.
این تیم همچنین از ابزارهای Custom Voice برای تولید صدای Beeb استفاده کرد. این تیم با استفاده از متن به گفتار عصبی، صدایی رسا و طبیعی را ایجاد کردند که با الگوها و لحن صدای انسان مطابقت دارد. این نوع ترکیب گفتار از طریق شبکه های عصبی عمیق تغذیه می شود. این تیم از ضبط صدای یک بازیگر برای آموزش بیب استفاده کرد و سپس از ابزارهای Custom Voice برای تنظیم ویژگیها، از جمله سبک صحبت کردن و میزان گفتار استفاده کرد، تا زمانی که بیب آنطور که بی بی سی میخواست کار کند.
درک زبان در بی بی سی
در این معماری، سرویس درک زبان از آنچه کاربران میگویند معنی میدهد. برای انجام این کار، درک زبان باید از نیت – اقدامی که بیب باید انجام دهد – نتیجه بگیرد. هر هدف را میتوان با مهارت های خاصی که میتوانند به طور مستقل توسعه داده شوند ترسیم کرد.
به عنوان مثال، وقتی Language Understanding قصد پخش پادکست خاصی را تشخیص میدهد، درخواست به ربات ارسال کننده محتوای صوتی و تصویری ارسال میشود. وقتی قصد شنیدن پیش بینی آب و هوا است، Language Understanding درخواست را به یک ربات متصل به API آب و هوا هدایت میکند. تیم Voice + AI چندین ربات برای رسیدگی به انواع مختلف پرس و جوهای کاربر، با تکیه بر درک زبان برای ارسال درخواست به ربات اختصاص داده شده به آن مهارت، توسعه داده است.
درک زبان همچنین میتواند کلمات مهم مرتبط با درخواستها را که نهادها نامیده میشوند، استخراج کند که زمینه های حیاتی مانند مکان، زمان و افراد را فراهم میکند. تیم بی بی سی برای آموزش درک زبان برای تشخیص اهداف و موجودیتها، نمونههایی از درخواست های کاربر را ارائه کرد.این نوع آموزش نیازی به هیچ گونه تغییری در کد بیب ندارد. در نتیجه یک مدل زبان طبیعی در حال پیشرفت است.
ویلیام واکر میگوید: “ما قادر به آموزش درک زبان بوده ایم تا بتوانیم برنامه ها و نام ایستگاه ها را از درخواست های کاربران به صورت قابل اطمینان تشخیص داده و استخراج کنیم.” “بهتر است بگوییم، ما با نمونه های نسبتا کمی توانسته ایم این کار را انجام دهیم.”
Beeb همچنین می تواند به سوالات عمومی پاسخ دهد. برای این منظور سوال را به یک ربات هدایت میکند که پاسخ ها را از پایگاه دانش ایجاد شده در Azure QnA Maker میگیرد، سرویسی که ایجاد یک لایه پرسش و پاسخ مکالمه ای بر روی داده های موجود را آسان می کند.
به تازگی، بی بی سی یک چت بات در فیس بوک ایجاد کرده است که به سوالات مربوط به ویروس کرونا پاسخ میدهد. تیم محتوا از QnA Maker برای جفت کردن سوالات متداول و پاسخهای به روز در مورد ویروس از سرویس بهداشت ملی بریتانیا (NHS) استفاده کرد. پیام عصبی به صدا این امکان را می دهد که چت بات با لحنی همدلانه صحبت کند و کاربران را راهنمایی کند و مقالات و مطالبی را از NHS توصیه می کند.
مراحل بعدی
Beeb در ژوئن 2020 با نظرات مثبت راه اندازی شد. مخاطبان بی بی سی به آسانی می تواند بهترین و مرتبط ترین محتوا را در دریایی از گزینه ها پیدا کند.
Azure بسترهای لازم را برای توسعه دهندگان بی بی سی برای بیان دیدگاه شرکت و تعیین مجموعه ای از حریم خصوصی و دستورالعمل های اخلاقی خود در مورد استفاده از صدا و داده های کاربر فراهم میکند. این امر در چارچوب های دستی-عمومی مصرف کننده امکان پذیر نیست.
حرکت به Azure اولین قدم در چشم اندازی بسیار گسترده تر برای ارائه اخبار و محتوا در سراسر جهان است. بی بی سی استفاده از خدمات گفتاری مجهز به هوش مصنوعی را برای دسترسی تقریباً هرکسی، در هر کجا و به هر زبانی متصور است.
ویلیام واکر توضیح میدهد: “ما میخواهیم به مردم کمک کنیم تا جهان پیرامون خود را در محیطی منسجم تر و قابل اعتمادتر از آنچه در غیر این صورت به آن دسترسی داشتند درک کنند.” “دستیار صوتی سفارشی ما در Azure این کار را برای ما انجام میدهد.”