در چین، تولید کتابهای صوتی وقت و هزینه زیادی میطلبد، که بسیاری از افراد نابینا یا کم بینا را بدون متنهایی که برای تحصیل، اشتغال و لذت میخواهند می گذارد. به همین دلیل است که مرکز خدمات غیرانتفاعی Hongdandan با مشکلات بینایی از صدای سفارشی عصبی، قابلیت تبدیل متن به گفتار جدید در خدمات شناختی Microsoft Azure و بستر ایجاد محتوای صوتی برای ایجاد سریع کتاب های صوتی با کیفیت بالا با استفاده از شرکت هوش مصنوعی استفاده کرد.
لینا دونگ بینایی خود را در 10 سالگی از دست داد و با این کار، او به دو جهان دسترسی نداشت: جهان بصری پیرامون خود و دنیای خیالی که از طریق کتاب به آنها دسترسی پیدا کرد. علی رغم فرصتها و منابع محدود برای افرادی که در چین دچار کم بینایی میشوند، دونگ در کالج به تحصیل صداوسیما پرداخت. او اولین پخش کننده معتبر در چین بود که نابینا است، تا حدی به دلیل داوطلبانی که کتابهای درسی او را با صدای بلند میخواندند.
دونگ در حال حاضرمعلم هنرهای زبان در مرکز خدمات غیرانتفاعی پکن هنگ دندان در خدمات بینایی است. در هنگدندان، او به کودکان میآموزد که چگونه با استفاده از صدای آنها به عنوان ابزار، ایدههای خود را بیان کنند.
با این حال، دونگ از محدودیت دسترسی خود ناامید شد. او میخواست به افراد نابینا یا کم بینا، صرف نظر از مکان آنها، دانش بریل یا دسترسی حضوری به هنگ داندان کمک کند. آن زمان بود که او با Hongdandan و Microsoft همکاری کرد.
با استفاده از Custom Neural Voice، قابلیت تبدیل متن به گفتار (TTS) در خدمات هوش مصنوعی شناختی Azure، مایکروسافت یک نسخه هوش مصنوعی از صدای دانگ ایجاد کرد. این سازمان غیرانتفاعی اکنون از صدای مصنوعی که از ضبط های دانگ ایجاد شده است، استفاده میکند، علاوه بر این، او متن را به کتابهای صوتی جذاب تبدیل میکند. بدون نوشتن یک خط کد.
توانایی افزایش چشمگیر تعداد و کیفیت کتابهای صوتی، مأموریت غیر انتفاعی برای افزایش دسترسی به فرصتهای فرهنگی مانند آموزش برای افراد نابینا یا کم بینا را افزایش میدهد. شین زنگ، مدیر اجرایی Hongdandan در پکن توضیح میدهد: “با قابلیت صدای عصبی سفارشی، ما قبلاً توانسته ایم حجم زیادی کتاب صوتی برای کتابخانه آنلاین خود ایجاد کنیم که میتواند در 105 مدرسه نابینایان در چین استفاده شود.” مرکز خدمات آسیب دیده و به لطف قابلیت های هوش مصنوعی در Azure، اما این فقط آغاز کار است.
گسترش گزینه ها برای افراد مبتلا به کاهش بینایی
تجربه دونگ از کتابهای صوتی محدود فقط مختص او نیست. کتابهای صوتی موجود در چین معمولاً از نظر موضوعاتی که پوشش میدهند محدود هستند. نظرسنجی اخیر از افرادی که در چین نابینا یا کم بینا هستند نشان میدهد که تقریباً دو سوم آنها آرزو دارند که به کتابهای صوتی داستانی و ادبیات بیشتری دسترسی داشته باشند. علاوه بر این، ضبطها اغلب بدون احساسات و روباتیک به نظر می رسند، نه دقیقاً همانطور که مردم به طور طبیعی صحبت می کنند.
این کمبود منابع تأثیر جدی در چین دارد. کراسینگ وانگ، مدیر خیریههای مایکروسافت در چین می گوید: “ماساژ رایج ترین شغل برای افرادی است که در چین نابینا هستند -” نه لزوماً به دلیل استعداد، بلکه به این دلیل که مسیرهای فعلی شغلی که در دسترس آنها است ، پیشرفت و فرصتهای آنها را محدود میکند. “
این مشکل بسیار فراتر از مرزهای چین است. تخمین زده می شود که 285 میلیون نفر در سراسر جهان از دست دادن بینایی را تجربه کنند، از جمله 39 میلیون نفر نابینا هستند. از هر 10 مورد فقط 1 نفر به فناوریهای تطبیقی دسترسی دارد که به آنها امکان میدهد زندگی دلخواه خود را داشته باشند. زنگ میگوید: “برای افرادی که از دست دادن ویسون را دارند، صدا برای آنها یک راه مهم برای کشف دنیای خارج است، اما ابزارهای صفحه خوان و سایر منابع برای آنها کم است.” “ما میخواستیم توانایی یادگیری، مشارکت و مشارکت آنها را افزایش دهیم.”
ایجاد سریعتر کتابهای صوتی
ایجاد یک کتاب صوتی معمولی که توسط یک داوطلب خوانده شود، هفته ها یا حتی ماه ها طول میکشد. Hongdandan میخواست این روند را تسریع کند و استفاده از هوش مصنوعی میتوانست این کار را انجام دهد.
محتوای صوتی ایجاد پیشنهادات پلت فرم از پیش ساخته شده صداهایی که با AI ایجاد شده اند. با استفاده از فناوری TTS، این صداها هر متنی را به شیوه ای شبیه به انسان نسبت به فناوری های قبلی میخوانند. مایکروسافت بیش از 140 صدای عصبی از پیش ساخته شده در بیش از 60 زبان را برای مشتریانی ارائه میدهد که میخواهند به سرعت قابلیت خواندن با صدای بلند را اضافه کرده یا به چت بات صدا دهند. این فناوری تبدیل متن به گفتار عصبی (NTTS) میتواند در چند دقیقه متن را به کتاب صوتی دیجیتالی تبدیل کند.
داوطلبان Hongdandan و Microsoft آموزش دیده اند تا از پلتفرم ایجاد محتوای صوتی استفاده کنند، که نیازی به برنامه نویسی یا سابقه فنی ندارد. داوطلبان میتوانند به صداها برای تنظیم دقیق تلفظ، لحن و موارد دیگر گوش دهند تا ضبط ها با سبک و معنای کتابها مطابقت داشته باشد.
سفارشی کردن تجربه کتاب صوتی
Hongdandan با ایجاد دو صدای سفارشی و مارک دار برای کتاب های صوتی که تولید میکند، پا را فراتر گذاشته است. دونگ صدای شخصی خود را برای یکی از این موارد اهدا کرد. او می گوید: “من از اینکه چگونه ویژگی های صدای من را به خوبی تصویر می کند شگفت زده شده ام.”
این فرآیند ساده است و کسری از زمان مورد نیاز دیگر برنامه های TTS را میگیرد. ابتدا دانگ خود را در حال خواندن حدود 500 جمله ثبت کرد. در مرحله بعد، صدای عصبی سفارشی از این دادههای گفتاری برای آموزش صدای مصنوعی “لینا” استفاده میکند، که طبیعی به نظر میرسد، گویی شخص واقعی صحبت میکند. هنگامی که مدل صدای مصنوعی آموزش دیده و آماده تبدیل متن به گفتار است، کاربران میتوانند صدا را به روشهای مختلفی مانند صدای بلند، میزان صدا و تلفظ بیشتر تنظیم کنند.
این فرایند ساده و بدون کد بدین معناست که کاربران به یک فناوری گسترده یا پیشینه علوم رایانه نیاز ندارند. آنها میتوانند به سرعت صداهای واقع بینانه و شبیه به انسان را تنها با یک دهم داده های مورد نیاز فناوری های قبلی بسازند. زنگ میگوید: “ما از این که مایکروسافت چگونه میتواند صدای لینا را با این شیوه طبیعی با داده های گفتاری خود بازتولید کند، شگفت زده شدیم و ما را قادر میسازد تا کتابهای صوتی آموزشی را با سرعت بیشتری بسازیم.” Hongdandan همچنین با بازیگر مشهور چینی ، Zhou Xun همکاری کرد، که همچنین صدای خود را برای ایجاد یک تجربه سفارشی برای شنوندگان Hongdandan اهدا کرد.
دسترسی بیشتر به کتاب های صوتی
تهیه کتابهای صوتی سخت تر و گرانتر از کتابهای چاپی است. همچنین تولید آنها سخت تر و پرهزینه تر است. مدارس نابینایان قبلاً به کتابهای صوتی متکی بودند که انسان میخواند و ضبط میکرد، اما کتابخانههای صوتی آنها اکنون که Hongdandan در حال تولید کتاب های صوتی با NTTS است، گسترش مییابد. بیش از 8000 کودک کم بینایی در چین به این کتابها دسترسی خواهند داشت.
Hongdandan یک کتابخانه دیجیتالی برای 105 مدرسه برای نابینایان در سراسر چین دارد. این کتابخانه، که در بستر ابر Azure قرار دارد، اطمینان میدهد که کودکان و معلمان می توانند کتابها را بخوانند.از فلسفه و داستان گرفته تا تجارت و تاریخ هر کتابی فکر کنید در آژور موجود است.
این تأثیر حتی از طریق برنامه Hongdandan’s Eyes of Soul Library، که بر روی لاجورد ساخته شده است، گسترش مییابد. بیش از 400000 نفر از طریق این برنامه، وب سایت Hongdandan، کتابخانه دیجیتالی و سایر منابع آنلاین به کتابهای صوتی از Hongdandan دسترسی پیدا کرده اند. وانگ، دانش آموزی که نابینا است، به یاد میآورد: “در گذشته ، تنها زمانی میتوانستیم به کتابهای صوتی گوش دهیم که معلمانمان وقت فراغت داشته باشند.” “اکنون ما میتوانیم به راحتی از طریق تلفن های همراه به بسیاری از کتاب ها دسترسی پیدا کنیم. فناوری مشکلات زیادی را حل کرده است که قبلاً نمیتوانستیم بر آنها غلبه کنیم. این میتواند به افراد بیشتری مانند ما کمک کند تا کتابهای بیشتری بخوانند. “
استفاده از هوش مصنوعی و TTS با مسئولیت پذیری
Hongdandan و مایکروسافت برای گسترش دسترسی به کتابهای صوتی از لحاظ اخلاقی همکاری کرده اند. پروژه های کتاب صوتی به اصول هوش مصنوعی مسئول مایکروسافت پایبند بوده اند. به عنوان مثال استعدادهایی مانند دانگ و شون کاملاً درک کردند که چگونه از ضبط صدای آنها استفاده میشود. Hongdandan همچنین با اطلاع رسانی به شنوندگان هنگام ایجاد هرگونه محتوای صوتی توسط صداهای مصنوعی، برای شفافیت تلاش میکند. علاوه بر این، قابلیت صدای عصبی سفارشی توسط امنیت برتر Azure محافظت میشود.
Hongdandan با استقرار مسئولانه هوش مصنوعی، در تلاش برای دستیابی به حقوق صاحبان سهام برای افرادی است که دچار کاهش بینایی میشوند. تأثیر دسترسی بیشتر به کتابهای صوتی در طول تحصیل، اشتغال و زندگی روزمره موج میزند.
دونگ میگوید: “با استفاده از صدای دیجیتالی خود، میخواهم با افراد بیشتری مثل من تماس بگیرم و به آنها بگویم:” همیشه باور داشته باشید. شما قادر هستید بیش از آنچه تصور کنید. “