Нейросеть от Google и компания Wonder Dynamics
Добрый день, дорогой читатель блога компании Smart Sites, сегоодня хотим немного отойти от СЕО и поговорить с вами о новинках в нашей IT сфере.
Нейросеть от Google
Группа разработчиков из Google создала нейросеть (несколько дополняющих другу друга нейросетей), которая по 5 секундной записи голоса любого человека может скопировать его и не просто скопировать, а воспроизвести любые надписные фразы. Вы можете спокойно послушать сами эти сэмплы на сайте https://google.github.io/tacotron/publications/speaker_adaptation/
И тут Вы можете сказать, что это далеко не новости и уже давно существуют много различных программ модулирующих человеческий голос, да даже обыкновенные голосовые помощники типа Алиса, Siri, Alexa, Маруся, Джой, Олег, Ева и другие, но тут большое дело в нюансах работы нейросети от Google. Так как на текущий момент Вы без труда сможете отличить любой голосовой помощник от реального человека, им ещё не хватает наличия большого сочетания звуков, специфики речи – они всё ещё очень роботизированы. И на их доработку по скромным оценкам может понадобиться ещё несколько лет, может и больше.
Достоинства нейросети от Google
И тут мы хотим выделить несколько ключевых особенностей:
- Нейросеть может обучиться абсолютно любом голосу, акценту, особенностям этого голоса на 5 секунд прослушивания оригинала звуковой записи человека. Далее нейросеть может воспроизвести этим голосом уже любую фразу написанную текстом и ощущения, что говорит программа, а не человек уже не возникает
- Экономиться очень много времени на создание новых любых звуковых файлов
Принцип работы
Концептуально принцип работы данной нейросети не отличается от принципов работы других неросетей. Даже тех, которые распознают фото и говорят вам, что изображено. Но тут есть нюанс, звук мы не видим и тяжело визуализировать то что мы видим и тут уже идут особенности работы.
- Если визуализировать звуковые волны, то можно узнать какие слова человек говорит.
Есть понимание, что у разных людей звуковые волны при произнесении одних и те же слов будут отличаться. С другой стороны, если проводить аналогию с картинками, сложно найти две одинаковые картинки кошки (даже одной породы) и это будет обусловлено её ДНК. И всё же мы без труда скажем, что это две разные кошки и точно не собаки и не бананы.
И тут также, как и с фото, даже если одни и те же звуки (слова) произносят разные люди со своими особенностями речи – это не делает звуковые волны и их визуализацию чем-то другим, что позволяет человечеству общаться между собой и какие бы не были у человека особенности речи. Если он скажет «[кот] – слово из 1 слога: ко́т, ударение падает на слог с единственной гласной в слове». Хотя у человека, есть разный тембр речи, дефекты речевого аппарат или разная громкость голоса. Но не всё так просто, как кажется на первый взгляд - Если сравнивать работу нейросети Google распознавания и воспроизведения речи с другими нейросетями, например, работающими с изображениями, то тут есть большое отличие. Если мы или нейросеть будет рассматривать несколько изображений или элементов, но тут никакого значения не будет иметь последовательность этих изображений. Со звуковыми всё намного сложнее смысл человеческой речи в том, чтобы передать максимум информации за минимальное время, мы говорим очень быстро и от порядка букв в слове будет зависеть произношение этих букв. Например, в русском языке даже есть специальные буквы, которые не имеют звука и, следовательно, звукового отображения, но необходимы, чтобы обозначить изменения звуков других букв – это «Ь» и «Ъ». Например, слово «дождь» имеет две буквы «д» - но это одна и таже буква в начале и конце слова, но она произноситься так по-разному, что при записи этого слова нам приходиться записывать отдельную букву «ь», чтобы указать эту разницу – и это один из явных и простых примеров, по факту каждая буква в каждом слове имеет свой вариант в зависимости от того идут ли они в начале слова или в конце, перед согласной или перед гласной, в закрытом слоге или открытом и так далее. И чтобы нейросеть адекватно понимала все эти комбинации, необходимо ей прописать все возможные варианты сочетания этих букв. И это ещё не говоря о индивидуальных различиях разных людей (тембр, интонация, место рождения и др.).
Как итог – программа может опереться только на визуализацию звуковой волны, а уже по ней уже свёрточная нейронная сеть делает свою работу. Подробнее о работе вы может прочитать сами, ознакомившись с оригинальной статьёй - https://arxiv.org/pdf/1806.04558.pdf
Компания Wonder Dynamics и Wonder Studio
Далее мы хотим поговорить о ещё одном расширении нашей реальности, компания стартап под названием Wonder Dynamics, основанная метром кинематографии Стивеном Спилбиргом и актёром Таем Шериданом.
Стартап под названием Wonder Dynamics анонсировал программное обеспечение Wonder Studio, позволяющее заменять реальных актёров убедительными компьютерными персонажами всего за несколько кликов в вашем браузере. Встроенный ИИ самостоятельно рассчитывает движение камеры, освещение, цвет и полностью заменяет актёра компьютерной графикой – прежде при создании фильмов этим занимались специальные студии и многие часы работы с огромным финансированием (https://wonderdynamics.com/).
Смысл данной статьи
А смыслом данной статьи, мы хотим вам сказать. Что будущее уже наступает, и мы с вами современники этого будущего, и данные технологии, которые я вам описал выше напрямую могут относиться к любой сфере деятельности, взять интернет-маркетинг. Мы сможем создавать свою собственную рекламу будущего, используя свой телефон и браузер, снимает видеоролик, озвучкой нашей рекламы можем быть мы сами, а можем взять любого героя, политика или голливудскую звезду, а сниматься в нашей рекламе будет любой персонаж, начиная от земного человека и заканчивая внеземной жизнью или гуманоидным андроидом.
Идея выходит на первый план и любой достаточно талантливый человека может быть легко реализована и для этого не надо быть «избранным»