Microsoft의 VALL-E에 대해 알고 싶었던 모든 것

Microsoft의 VALL-E에 대해 알고 싶었던 모든 것

Microsoft는 3초의 오디오 샘플을 듣기만 하면 모든 음성을 흉내내는 텍스트 음성 변환 AI 모델인 VALL-E를 개발했습니다.

계속 읽기 전에 다음 사항을 분명히 드리고 싶습니다. VALL-E는 WALL-E와 다릅니다. 우리 중 일부는 두 단어를 정확히 동일하게 발음하지만 두 단어 사이에는 많은 차이가 있습니다. WALL-E는 2008년에 출시된 디즈니-픽사 애니메이션으로 귀엽고 친근한 AI 로봇이 등장했습니다.

AI 요소는 실로 VALL-E와 WALL-E의 유사점입니다. 이자형.

VALL-E에 대해 우리는 무엇을 알고 있습니까?

기술적인 용어로 Microsoft는 VALL-E를 "신경 코덱 언어 모델"이라고 부릅니다. 보다 간단한 언어로 말하면 VALL-E는 텍스트 입력에서 오디오를 생성할 수 있을 뿐만 아니라 제공된 오디오 샘플의 음성을 흉내낼 수 있는 AI 모델입니다. 3초 정도의 짧은 음성 샘플을 들으면 어떤 목소리라도 흉내낼 수 있습니다. VALL-E는 아직 일반 대중이 접근할 수 없습니다. 목소리뿐만 아니라 공간의 분위기와 어쿠스틱에도 잘 어울릴 수 있죠. 여러 가지 유익한 방식으로 적용될 수 있음에도 불구하고 도덕적인 문제가 있습니다.

훈련 모델 –

연구원들은 Meta의 LibriLight 오디오 라이브러리의 7,000명 이상의 사람들과 비교하여 60,000시간의 영어 사용자에 대해 VALL-E를 교육했다고 주장합니다. 모방되기 위해서는 대상 화자의 음성이 훈련 데이터와 매우 유사해야 합니다. 이런 식으로 Al은 '훈련'을 활용하여 대상 화자의 목소리를 시도하고 모방할 수 있습니다.

감정 모방 –

Al 모델은 피치, 허스크, 질감 외에도 방의 음향은 물론 화자의 감정적 톤까지 시뮬레이션할 수 있다는 점을 강조해야 합니다. 따라서 VALL-E는 대상 음성에 방해가 있는 것처럼 대상 음성을 모방합니다.

Microsoft 연구팀에 따르면 "실험 결과에 따르면 VALL-E가 훨씬 더 나은 성능을 발휘하는 것으로 나타났습니다. 가장 진보된 제로 샷 TTS 시스템보다 음성 자연스러움과 화자 유사성 측면에서 그렇습니다. 또한 우리는 VALL-E가 합성 중에 화자의 감정과 음향 프롬프트의 음향적 맥락을 유지할 수 있음을 발견했습니다. “.

위협 –

The Al 모델은 로봇 공학, 미디어 제작 및 맞춤형 텍스트 음성 변환 애플리케이션에 적용될 수 있습니다. 그러나 부적절하게 사용하면 위협이 될 수 있습니다. 해당 업체는 경고했다 VALL-E는 화자 신원을 유지하면서 음성을 합성할 수 있기 때문에 모델이 음성 식별을 가장하거나 스푸핑하는 데 오용될 수 있다는 점입니다.

예를 들어 VALL-E는 합법적인 것처럼 보이는 스팸 전화를 생성하는 데 사용될 수 있습니다. 사람들을 속이기 위해서. 정치인이나 존경할 만한 사회적 존재감을 지닌 사람은 사기 행위로 입증되는 것처럼 명의 도용에 취약합니다. 음성 명령이나 음성 암호가 필요한 애플리케이션을 사용하는 사용자에게 위협이 닥칠 수 있습니다. 게다가 VALL-E에 의해 성우들의 일자리가 사라질 수도 있다.

윤리적 입장 –

또한 사업은 에는 “이 작품의 실험은 모델의 사용자가 대상 화자이고 화자가 수용했다는 가정 하에 진행되었다”는 윤리적 진술이 포함되어 있다. 모델이 모든 화자에게 일반화될 때 화자가 변경 실행에 동의하는지 확인하는 프로토콜과 수정된 음성을 감지하는 시스템이 음성 편집 모델에 포함되어야 한다고 명시되어 있습니다.

VALL은 어떻게 되나요? -E는 DALL-E와 다른가요?

DALL-E는 텍스트 설명에서 그래픽을 생성하는 OpenAI에서 만든 기계 학습 모델입니다. 프롬프트는 이러한 텍스트 대 이미지 설명을 설명하는 데 사용됩니다. 알고리즘이 사실적인 영상을 생성하려면 장면에 대한 설명만으로도 충분합니다. DALL-E는 사용자가 제공한 짧은 단어로부터 정확한 이미지를 구축하는 신경망 기술입니다. 텍스트 설명을 사용하고 사용자와 개발자가 데이터세트에 기여한 '학습' 데이터를 통해 언어를 학습합니다.

VALL-E에 대해 어떻게 생각하시나요?

이제 DALL-E(텍스트를 이미지로)와 비교하여 VALL-E(텍스트를 사운드로)에 대해 모두 알게 되기를 바랍니다. 일반 대중이 VALL-E에 언제 액세스하여 사용할 수 있는지에 대한 명확한 날짜는 없습니다. DALL-E에 관한 한 이미 모든 사람이 사용할 수 있도록 만들어졌습니다.

질문이나 권장 사항이 있으면 아래 댓글로 알려주시기 바랍니다. 우리는 귀하에게 해결책을 제공해 드리게 되어 기쁘게 생각합니다. 우리는 일반적인 기술 관련 문제에 대한 조언, 요령 및 솔루션을 자주 게시합니다. Facebook, Twitter, YouTube, Instagram, Flipboard, Pinterest에서도 저희를 찾아보실 수 있습니다.

읽기: 0

yodax