بزرگترین غیرانتفاعی چینی از فناوری تبدیل متن به گفتار برای افزایش دسترسی به کتاب های صوتی برای افراد نابینا استفاده می کند

بزرگترین غیرانتفاعی چینی از فناوری تبدیل متن به گفتار برای افزایش دسترسی به کتاب های صوتی برای افراد نابینا استفاده می کند

9 شهریور 1400

نوشته شده توسط آیپا

در چین، تولید کتاب‌های صوتی وقت و هزینه زیادی می‌طلبد، که بسیاری از افراد نابینا یا کم بینا را بدون متن‌هایی که برای تحصیل، اشتغال و لذت می‌خواهند می گذارد. به همین دلیل است که مرکز خدمات غیرانتفاعی Hongdandan با مشکلات بینایی از صدای سفارشی عصبی، قابلیت تبدیل متن به گفتار جدید در خدمات شناختی Microsoft Azure و بستر ایجاد محتوای صوتی برای ایجاد سریع کتاب های صوتی با کیفیت بالا با استفاده از شرکت هوش مصنوعی استفاده کرد.

لینا دونگ بینایی خود را در 10 سالگی از دست داد و با این کار، او به دو جهان دسترسی نداشت: جهان بصری پیرامون خود و دنیای خیالی که از طریق کتاب به آنها دسترسی پیدا کرد. علی رغم فرصت‌ها و منابع محدود برای افرادی که در چین دچار کم بینایی می‌شوند، دونگ در کالج به تحصیل صداوسیما پرداخت. او اولین پخش کننده معتبر در چین بود که نابینا است، تا حدی به دلیل داوطلبانی که کتابهای درسی او را با صدای بلند می‌خواندند.

دونگ در حال حاضرمعلم هنرهای زبان در مرکز خدمات غیرانتفاعی پکن هنگ دندان در خدمات بینایی است. در هنگدندان، او به کودکان می‌آموزد که چگونه با استفاده از صدای آنها به عنوان ابزار، ایده‌های خود را بیان کنند.

با این حال، دونگ از محدودیت دسترسی خود ناامید شد. او می‌خواست به افراد نابینا یا کم بینا، صرف نظر از مکان آنها، دانش بریل یا دسترسی حضوری به هنگ داندان کمک کند. آن زمان بود که او با Hongdandan و Microsoft همکاری کرد.

با استفاده از Custom Neural Voice، قابلیت تبدیل متن به گفتار (TTS) در خدمات هوش مصنوعی شناختی Azure، مایکروسافت یک نسخه هوش مصنوعی از صدای دانگ ایجاد کرد. این سازمان غیرانتفاعی اکنون از صدای مصنوعی که از ضبط های دانگ ایجاد شده است، استفاده می‌کند، علاوه بر این، او متن را به کتابهای صوتی جذاب تبدیل می‌کند. بدون نوشتن یک خط کد.

توانایی افزایش چشمگیر تعداد و کیفیت کتابهای صوتی، مأموریت غیر انتفاعی برای افزایش دسترسی به فرصتهای فرهنگی مانند آموزش برای افراد نابینا یا کم بینا را افزایش می‌دهد. شین زنگ، مدیر اجرایی Hongdandan در پکن توضیح می‌دهد: “با قابلیت صدای عصبی سفارشی، ما قبلاً توانسته ایم حجم زیادی کتاب صوتی برای کتابخانه آنلاین خود ایجاد کنیم که می‌تواند در 105 مدرسه نابینایان در چین استفاده شود.” مرکز خدمات آسیب دیده و به لطف قابلیت های هوش مصنوعی در Azure، اما این فقط آغاز کار است.

گسترش گزینه ها برای افراد مبتلا به کاهش بینایی

تجربه دونگ از کتاب‌های صوتی محدود فقط مختص او نیست. کتاب‌های صوتی موجود در چین معمولاً از نظر موضوعاتی که پوشش می‌دهند محدود هستند. نظرسنجی اخیر از افرادی که در چین نابینا یا کم بینا هستند نشان می‌دهد که تقریباً دو سوم آنها آرزو دارند که به کتاب‌های صوتی داستانی و ادبیات بیشتری دسترسی داشته باشند. علاوه بر این، ضبط‌ها اغلب بدون احساسات و روباتیک به نظر می رسند، نه دقیقاً همانطور که مردم به طور طبیعی صحبت می کنند.

این کمبود منابع تأثیر جدی در چین دارد. کراسینگ وانگ، مدیر خیریه‌های مایکروسافت در چین می گوید: “ماساژ رایج ترین شغل برای افرادی است که در چین نابینا هستند -” نه لزوماً به دلیل استعداد، بلکه به این دلیل که مسیرهای فعلی شغلی که در دسترس آنها است ، پیشرفت و فرصت‌های آنها را محدود می‌کند. “

این مشکل بسیار فراتر از مرزهای چین است. تخمین زده می شود که 285 میلیون نفر در سراسر جهان از دست دادن بینایی را تجربه کنند، از جمله 39 میلیون نفر نابینا هستند. از هر 10 مورد فقط 1 نفر به فناوری‌های تطبیقی ​​دسترسی دارد که به آنها امکان می‌دهد زندگی دلخواه خود را داشته باشند. زنگ می‌گوید: “برای افرادی که از دست دادن ویسون را دارند، صدا برای آنها یک راه مهم برای کشف دنیای خارج است، اما ابزارهای صفحه خوان و سایر منابع برای آنها کم است.” “ما می‌خواستیم توانایی یادگیری، مشارکت و مشارکت آنها را افزایش دهیم.”

ایجاد سریعتر کتابهای صوتی

ایجاد یک کتاب صوتی معمولی که توسط یک داوطلب خوانده شود، هفته ها یا حتی ماه ها طول می‌کشد. Hongdandan می‌خواست این روند را تسریع کند و استفاده از هوش مصنوعی می‌توانست این کار را انجام دهد.

محتوای صوتی ایجاد پیشنهادات پلت فرم از پیش ساخته شده صداهایی که با AI ایجاد شده اند. با استفاده از فناوری TTS، این صداها هر متنی را به شیوه ای شبیه به انسان نسبت به فناوری های قبلی می‌خوانند. مایکروسافت بیش از 140 صدای عصبی از پیش ساخته شده در بیش از 60 زبان را برای مشتریانی ارائه می‌دهد که می‌خواهند به سرعت قابلیت خواندن با صدای بلند را اضافه کرده یا به چت بات صدا دهند. این فناوری تبدیل متن به گفتار عصبی (NTTS) می‌تواند در چند دقیقه متن را به کتاب صوتی دیجیتالی تبدیل کند.

داوطلبان Hongdandan و Microsoft آموزش دیده اند تا از پلتفرم ایجاد محتوای صوتی استفاده کنند، که نیازی به برنامه نویسی یا سابقه فنی ندارد. داوطلبان می‌توانند به صداها برای تنظیم دقیق تلفظ، لحن و موارد دیگر گوش دهند تا ضبط ها با سبک و معنای کتابها مطابقت داشته باشد.

سفارشی کردن تجربه کتاب صوتی

Hongdandan با ایجاد دو صدای سفارشی و مارک دار برای کتاب های صوتی که تولید می‌کند، پا را فراتر گذاشته است. دونگ صدای شخصی خود را برای یکی از این موارد اهدا کرد. او می‌ گوید: “من از اینکه چگونه ویژگی های صدای من را به خوبی تصویر می کند شگفت زده شده ام.”

این فرآیند ساده است و کسری از زمان مورد نیاز دیگر برنامه های TTS را می‌گیرد. ابتدا دانگ خود را در حال خواندن حدود 500 جمله ثبت کرد. در مرحله بعد، صدای عصبی سفارشی از این داده‌های گفتاری برای آموزش صدای مصنوعی “لینا” استفاده می‌کند، که طبیعی به نظر می‌رسد، گویی شخص واقعی صحبت می‌کند. هنگامی که مدل صدای مصنوعی آموزش دیده و آماده تبدیل متن به گفتار است، کاربران می‌توانند صدا را به روش‌های مختلفی مانند صدای بلند، میزان صدا و تلفظ بیشتر تنظیم کنند.

این فرایند ساده و بدون کد بدین معناست که کاربران به یک فناوری گسترده یا پیشینه علوم رایانه نیاز ندارند. آنها می‌توانند به سرعت صداهای واقع بینانه و شبیه به انسان را تنها با یک دهم داده های مورد نیاز فناوری های قبلی بسازند. زنگ می‌گوید: “ما از این که مایکروسافت چگونه می‌تواند صدای لینا را با این شیوه طبیعی با داده های گفتاری خود بازتولید کند، شگفت زده شدیم و ما را قادر می‌سازد تا کتابهای صوتی آموزشی را با سرعت بیشتری بسازیم.” Hongdandan همچنین با بازیگر مشهور چینی ، Zhou Xun همکاری کرد، که همچنین صدای خود را برای ایجاد یک تجربه سفارشی برای شنوندگان Hongdandan اهدا کرد.

دسترسی بیشتر به کتاب های صوتی

تهیه کتابهای صوتی سخت تر و گرانتر از کتاب‌های چاپی است. همچنین تولید آنها سخت تر و پرهزینه تر است. مدارس نابینایان قبلاً به کتابهای صوتی متکی بودند که انسان می‌خواند و ضبط می‌کرد، اما کتابخانه‌های صوتی آنها اکنون که Hongdandan در حال تولید کتاب های صوتی با NTTS است، گسترش می‌یابد. بیش از 8000 کودک کم بینایی در چین به این کتاب‌ها دسترسی خواهند داشت.

Hongdandan یک کتابخانه دیجیتالی برای 105 مدرسه برای نابینایان در سراسر چین دارد. این کتابخانه، که در بستر ابر Azure قرار دارد، اطمینان می‌دهد که کودکان و معلمان می توانند کتابها را بخوانند.از فلسفه و داستان گرفته تا تجارت و تاریخ هر کتابی فکر کنید در آژور موجود است.

این تأثیر حتی از طریق برنامه Hongdandan’s Eyes of Soul Library، که بر روی لاجورد ساخته شده است، گسترش می‌یابد. بیش از 400000 نفر از طریق این برنامه، وب سایت Hongdandan، کتابخانه دیجیتالی و سایر منابع آنلاین به کتابهای صوتی از Hongdandan دسترسی پیدا کرده اند. وانگ، دانش آموزی که نابینا است، به یاد می‌آورد: “در گذشته ، تنها زمانی می‌توانستیم به کتابهای صوتی گوش دهیم که معلمانمان وقت فراغت داشته باشند.” “اکنون ما می‌توانیم به راحتی از طریق تلفن های همراه به بسیاری از کتاب ها دسترسی پیدا کنیم. فناوری مشکلات زیادی را حل کرده است که قبلاً نمی‌توانستیم بر آنها غلبه کنیم. این می‌تواند به افراد بیشتری مانند ما کمک کند تا کتابهای بیشتری بخوانند. “

استفاده از هوش مصنوعی و TTS با مسئولیت پذیری

Hongdandan و مایکروسافت برای گسترش دسترسی به کتابهای صوتی از لحاظ اخلاقی همکاری کرده اند. پروژه های کتاب صوتی به اصول هوش مصنوعی مسئول مایکروسافت پایبند بوده اند. به عنوان مثال  استعدادهایی مانند دانگ و شون کاملاً درک کردند که چگونه از ضبط صدای آنها استفاده می‌شود. Hongdandan همچنین با اطلاع رسانی به شنوندگان هنگام ایجاد هرگونه محتوای صوتی توسط صداهای مصنوعی، برای شفافیت تلاش می‌کند. علاوه بر این، قابلیت صدای عصبی سفارشی توسط امنیت برتر Azure محافظت می‌شود.

Hongdandan با استقرار مسئولانه هوش مصنوعی، در تلاش برای دستیابی به حقوق صاحبان سهام برای افرادی است که دچار کاهش بینایی می‌شوند. تأثیر دسترسی بیشتر به کتابهای صوتی در طول تحصیل، اشتغال و زندگی روزمره موج می‌زند.

دونگ می‌گوید: “با استفاده از صدای دیجیتالی خود، می‌خواهم با افراد بیشتری مثل من تماس بگیرم و به آنها بگویم:” همیشه باور داشته باشید. شما قادر هستید بیش از آنچه تصور کنید. “

کلیه حقوق مادی و معنوی این سایت برای شرکت آرمان رایان شریف محفوظ می باشد