بی بی سی دستیار صوتی سفارشی خود را به کمک Azure مستقر می کند

بی بی سی دستیار صوتی سفارشی خود را به کمک Azure مستقر می کند

2 شهریور 1400

نوشته شده توسط آیپا

داستان فنی

“سلام بیب!” روش جدید درخواست اخبار در بی بی سی است. بیب به عنوان صدای بی بی سی، یک دستیار صوتی فعال است که به درخواست بینندگان و شنوندگان برای برنامه ها و محتوا پاسخ می دهد. صدا و شخصیت بیب محصول یک پلتفرم سفارشی و مبتنی بر هوش مصنوعی است که بر روی Azure اجرا می‌شود. این پلت فرم از خدمات Azure Cognitive و Azure Bot Service استفاده می‌کند تا به بیب توانایی درک، یادگیری و مکالمه را بدهد. معماری پشت بیب قابلیت‌های یادگیری ماشینی قدرتمندی را در اختیار توسعه دهندگان بی بی سی قرار می‌دهد و به شرکت راه‌های جدیدی برای ارتباط با مخاطبان خود می‌دهد.

چالش یافتن صدای مناسب

از سال 1922، بی بی سی صدای قابل اعتماد اخبار در انگلستان بوده است، ابتدا از طریق پخش رادیویی و بعداً از طریق برنامه‌های تلویزیونی خود. بی بی سی برای سهولت یافتن اخبار و سرگرمی برای مخاطبانش، یکی از اولین ارائه دهندگان محتوا بود که از دستگاه های صوتی مانند Amazon Echo و Google Home پشتیبانی می‌کرد. دستگاه‌های صوتی متکی به پردازش زبان طبیعی هستند، دسته‌ای ازهوش مصنوعی که به رایانه‌ها امکان می‌دهد گفتار را بشنوند، زبان را تفسیر کرده و بر اساس کلمات مربوطه تصمیم گیری کنند.

پردازش زبان طبیعی یک علم در حال تحول است و ارتباط – تشخیص معنای یک گوینده – یک چالش کلیدی برای هوش مصنوعی است. ارتباط عبارت است از شناسایی نه تنها کلمات یک سخنرانی بلکه قصد آنها و سپس پاسخ مناسب به مخاطب. اما گفتار انسان با تلفیق گویش های منطقه‌ای، لهجه‌ها و اصطلاحات وام گرفته شده از زبان‌های دیگر پیچیده است و دستگاه هایی که استفاده می کنیم گاهی اوقات اشتباه می کنند.

گروهی از مهندسان تیم صدا + AI بی بی سی می‌خواستند یک دستیار صوتی بسازند که نشانگر نام تجاری بی بی سی باشد. این بدان معناست که می‌توانید تمام جنبه‌های تجربه را کنترل کنید، از جمله کلید واژه “OK، Beeb” ، صدای Beeb و نحوه پاسخگویی به درخواست کاربران. در این زمینه، یک کلمه کلیدی یک کلمه یا عبارت کوتاه است که به شما امکان می دهد صدا را برای بیب فعال کنید.

ویلیام واکر، مهندس نرم افزار در تیم توضیح می دهد: “چالش این بود که به کاربرانمان تجربه‌ای را بدهیم که از بی بی سی انتظار دارند.” “برای انجام این کار، ما نیاز به کنترل کامل بر عناصر طراحی داریم. و این به معنای ایجاد یک دستیار صوتی سفارشی برای بی بی سی بود. “

تیم بی بی سی می‌خواست راه حلی منعطف پیدا کند که از این نوع سفارش سازی ها پشتیبانی کند. این راه حل باید آنقدر هوشمند باشد که بتواند به مخاطبان بی بی سی آنچه را که می‌خواهد ارائه دهد. فهرست صوتی و تصویری بی بی سی عظیم است و بیش از 5000 عنوان پادکست به تنهایی، میلیون‌ها قسمت را نشان می دهد و این شامل برنامه‌های خبری، آب و هوا، کمدی، درام و دیگر برنامه ها نیز می شود. یک رابط صوتی طبیعی که به طور منحصر به فردی برای این نوع جستجو مناسب است.

این راه حل همچنین نیاز به ایجاد بستری انعطاف پذیر برای رشد آینده دارد. همانطور که خدمات صوتی بیشتری آنلاین شد ، تیم Voice + AI می دانست که از چندین محیط ابری پشتیبانی می کند و در نهایت ویژگی های فعال شده با صدا را برای همه مخاطبان بین المللی وابسته به BBC ارائه می‌دهد.

کریس دیکس ، مدیر تحول فناوری در بی بی سی می گوید: “به هیچ وجه نمی توانیم این کار را به تنهایی انجام دهیم، بنابراین ما به دنبال یک راه حل مقیاس پذیر و مبتنی بر ابر بودیم که می‌توانست با ما کار کند.”

 beeb انلاین میشود

راه حل بی بی سی یک دستیار صوتی سفارشی است که ویژگی های مکالمه را در کانال های مختلف ارائه می‌دهد. بی بی سی با مایکروسافت همکاری کرد زیرا دو شرکت نظرات خود را در مورد استفاده مسئولانه از هوش مصنوعی و فناوری صدای مصنوعی به اشتراک گذاشتند و هر دو به حریم خصوصی داده ها اهمیت می‌دهند.

یان واکر می گوید: “ما از بودجه عمومی برخوردار هستیم و مخاطبان باید به خدمات ما اعتماد کنند.” مایکروسافت این را درک کرد و آنها با ما همکاری می‌کنند تا راه حلی را ارائه دهیم که مطابق با استانداردهای ما باشد. “

تیم Voice + AI راه حلی را به عنوان خط لوله خدمات Azure ایجاد کرد و از پلتفرم Azure به عنوان سرویس (PaaS) نهایت استفاده را برد. دیکس می گوید: “PaaS قدرت فنی ما را افزایش می‌دهد و زمان ما را برای بازار افزایش می دهد.” Azure به ما قابلیت‌های کلیدی را می‌دهد که به ما اجازه می‌دهد خیلی سریعتر از آنچه که قبلاً فکر می کردیم به اهداف خود برسیم. “

این راه حل توسط Azure و Microsoft Bot Framework از طریق استفاده از Direct Line Speech که از تشخیص گفتار و ترکیب گفتار پشتیبانی می کند. این مجموعه خدمات توسعه دهندگان را قادر می سازد تا ورودی و خروجی قابل تنظیم گفتار را با ربات ها و قابلیت های درک زبان طبیعی ترکیب کنند.

کلمه کلیدی “سلام ،بیب” نه تنها دستیار صوتی را بیدار می‌کند، بلکه یکی از چندین سفارشی سازی ها را نیز نشان می دهد که تیم Voice + AI برای نشان دادن شخصیت Beeb استفاده می‌کند. تیم بی بی سی این عبارت را برای آشنایی مردم با نام تجاری بی بی سی انتخاب کرد.

علاوه بر اینها، وقتی بیب پاسخ می‌دهد، صدا به طور منحصر به فرد نشان دهنده قدرت اخباری بی بی سی است. صدا از ویژگی های بخشی از خدمات ارائه شده در گفتار خدمات شناختی است. بی بی سی لحنی دوستانه به بیب داد و پاسخ‌ها را برای انتقال هرچه بیشتر صمیمیت تنظیم کرد. تیم Voice + AI از نزدیک با توسعه دهندگان محصولات مایکروسافت همکاری کرد و این کار منجر به بهبود طیف وسیعی از ویژگی‌ها از جمله سفارشی سازی شدن بیب شد.

به تازگی، نسخه بتا Beeb به عنوان بخشی از برنامه Windows Insider پخش شد. تیم بیب در حال جمع آوری بازخورد کاربران از طریق برنامه برای بهبود توانایی بیب در درک و پاسخگویی است. برنامه بتا بر روی رایانه های شخصی ویندوز 10 اجرا می شود، اما تیم در حال برنامه ریزی برای توسعه رابط کاربری برای چندین کانال اصلی است که توسط مخاطبان بی بی سی استفاده می‌شود، مانند دستگاه های صوتی، برنامه‌های تلفن همراه ، سیستم‌های صوتی داخل خودرو و همچنین تلویزیون های هوشمند.

معماری دستیار صوتی

هنگامی که برنامه Beeb کلمه کلیدی یعنی “سلام ،بیب” را تشخیص می‌دهد، زنجیره‌ای از رویدادها را آغاز می‌کند و از سطح سیستم عامل شروع می شود. آخرین نسخه ویندوز 10 از دستیارهای صوتی از طریق بستر Multiple Voice Assistant (MVA) پشتیبانی می‌کند. توسعه دهندگان کلمه کلیدی را با MVA ثبت کردند که به Windows امکان می‌دهد “OK، Beeb” را تشخیص دهد – حتی زمانی که برنامه Beeb اجرا نمی شود.

پس از اینکه برنامه کلمه کلیدی را شناسایی و تأیید کرد، از SDK گفتار برای ارتباط با ربات BBC از طریق خط مستقیم استفاده می کند. وقتی صدا به این کانال ارسال می‌شود، Direct Line Speech از قابلیت‌های گفتار به متن در خدمات شناختی برای تبدیل کلمات گفتاری به متن استفاده می‌کند. سپس متن به رسمیت شناخته شده به ربات ارسال می‌شود، که از درک زبان برای تفسیر ورودی و تعیین پاسخ مناسب استفاده می‌کند.

هنگام ارسال پاسخ به برنامه ، کانال Direct Line Speech از متن به گفتار برای تبدیل پاسخ استفاده می‌کند. ویلیام واکر می‌گوید: “گفتار خط مستقیم به ما کمک می‌کند تا رویکرد تاخیری بسیار کمی را در پردازش گفتار ارائه دهیم.” “این برای یک رابط صوتی طبیعی بسیار مهم است.”

تیم Voice + AI از مجموعه‌ای از ابزارها به نام Custom Speech استفاده کرد تا مطمئن شود Beeb محتوای کلیدی مانند عناوین پادکست را تشخیص می‌دهد. این تیم یک مدل سفارشی را برای تشخیص واژگان بی بی سی آموزش داد، که به بهبود دقت گفتار به متن و غلبه بر سایر موانع تشخیص گفتار، مانند سبک صحبت کردن و حذف سر و صدای پس زمینه کمک می‌کند.

این تیم همچنین از ابزارهای Custom Voice برای تولید صدای Beeb استفاده کرد. این تیم با استفاده از متن به گفتار عصبی‌، صدایی رسا و طبیعی را ایجاد کردند که با الگوها و لحن صدای انسان مطابقت دارد. این نوع ترکیب گفتار از طریق شبکه های عصبی عمیق تغذیه می شود. این تیم از ضبط صدای یک بازیگر برای آموزش بیب استفاده کرد و سپس از ابزارهای Custom Voice برای تنظیم ویژگی‌ها، از جمله سبک صحبت کردن و میزان گفتار استفاده کرد، تا زمانی که بیب آنطور که بی بی سی می‌خواست کار کند.

درک زبان در بی بی سی

در این معماری، سرویس درک زبان از آنچه کاربران می‌گویند معنی می‌دهد. برای انجام این کار‌، درک زبان باید از نیت – اقدامی که بیب باید انجام دهد – نتیجه بگیرد. هر هدف را می‌توان با مهارت های خاصی که می‌توانند به طور مستقل توسعه داده شوند ترسیم کرد.

به عنوان مثال، وقتی Language Understanding قصد پخش پادکست خاصی را تشخیص می‌دهد، درخواست به ربات ارسال کننده محتوای صوتی و تصویری ارسال می‌شود. وقتی قصد شنیدن پیش بینی آب و هوا است، Language Understanding درخواست را به یک ربات متصل به API آب و هوا هدایت می‌کند. تیم Voice + AI چندین ربات برای رسیدگی به انواع مختلف پرس و جوهای کاربر، با تکیه بر درک زبان برای ارسال درخواست به ربات اختصاص داده شده به آن مهارت، توسعه داده است.

درک زبان همچنین می‌تواند کلمات مهم مرتبط با درخواست‌ها را که نهادها نامیده می‌شوند، استخراج کند که زمینه های حیاتی مانند مکان، زمان و افراد را فراهم میکند. تیم بی بی سی برای آموزش درک زبان برای تشخیص اهداف و موجودیت‌ها‌، نمونه‌هایی از درخواست های کاربر را ارائه کرد.این نوع آموزش نیازی به هیچ گونه تغییری در کد بیب ندارد. در نتیجه یک مدل زبان طبیعی در حال پیشرفت است.

ویلیام واکر می‌گوید: “ما قادر به آموزش درک زبان بوده ایم تا بتوانیم برنامه ها و نام ایستگاه ها را از درخواست های کاربران به صورت قابل اطمینان تشخیص داده و استخراج کنیم.” “بهتر است بگوییم، ما با نمونه های نسبتا کمی توانسته ایم این کار را انجام دهیم.”

Beeb همچنین می تواند به سوالات عمومی پاسخ دهد. برای این منظور سوال را به یک ربات هدایت می‌کند که پاسخ ها را از پایگاه دانش ایجاد شده در Azure QnA Maker می‌گیرد، سرویسی که ایجاد یک لایه پرسش و پاسخ مکالمه ای بر روی داده های موجود را آسان می کند.

به تازگی، بی بی سی یک چت بات در فیس بوک ایجاد کرده است که به سوالات مربوط به ویروس کرونا پاسخ می‌دهد. تیم محتوا از QnA Maker برای جفت کردن سوالات متداول و پاسخهای به روز در مورد ویروس از سرویس بهداشت ملی بریتانیا (NHS) استفاده کرد. پیام عصبی به صدا این امکان را می دهد که چت بات با لحنی همدلانه صحبت کند و کاربران را راهنمایی کند و مقالات و مطالبی را از NHS توصیه می کند.

مراحل بعدی

Beeb در ژوئن 2020 با نظرات مثبت راه اندازی شد. مخاطبان بی بی سی به آسانی می تواند بهترین و مرتبط ترین محتوا را در دریایی از گزینه ها پیدا کند.

Azure بسترهای لازم را برای توسعه دهندگان بی بی سی برای بیان دیدگاه شرکت و تعیین مجموعه ای از حریم خصوصی و دستورالعمل های اخلاقی خود در مورد استفاده از صدا و داده های کاربر فراهم می‌کند. این امر در چارچوب های دستی-عمومی مصرف کننده امکان پذیر نیست.

حرکت به Azure اولین قدم در چشم اندازی بسیار گسترده تر برای ارائه اخبار و محتوا در سراسر جهان است. بی بی سی استفاده از خدمات گفتاری مجهز به هوش مصنوعی را برای دسترسی تقریباً هرکسی، در هر کجا و به هر زبانی متصور است.

ویلیام واکر توضیح می‌دهد: “ما می‌خواهیم به مردم کمک کنیم تا جهان پیرامون خود را در محیطی منسجم تر و قابل اعتمادتر از آنچه در غیر این صورت به آن دسترسی داشتند درک کنند.” “دستیار صوتی سفارشی ما در Azure این کار را برای ما انجام می‌دهد.”

کلیه حقوق مادی و معنوی این سایت برای شرکت آرمان رایان شریف محفوظ می باشد