𝖂𝖎ƙ𝖎𝖊

Reconhecimento de fala: mudanças entre as edições

imported>Xqbot
imported>Legobot
m (A migrar 38 interwikis, agora providenciados por Wikidata em d:q189436)
Linha 31: Linha 31:
[[Categoria:Inteligência artificial]]
[[Categoria:Inteligência artificial]]
[[Categoria:Identificação automática e captura de dados]]
[[Categoria:Identificação automática e captura de dados]]
[[ar:تعرف على الكلام]]
[[ca:Reconeixement de la parla]]
[[cs:Rozpoznávání řeči]]
[[da:Talegenkendelse]]
[[de:Spracherkennung]]
[[el:Αναγνώριση ομιλίας]]
[[en:Speech recognition]]
[[es:Reconocimiento del habla]]
[[et:Kõnetuvastus]]
[[eu:Hizketaren ezagutza]]
[[fa:بازشناسی گفتار]]
[[fi:Puheentunnistus]]
[[fr:Reconnaissance automatique de la parole]]
[[gl:Recoñecemento da fala]]
[[he:מערכת זיהוי דיבור]]
[[hr:Prepoznavanje glasa]]
[[id:Pengenalan ucapan]]
[[it:Riconoscimento vocale]]
[[ja:音声認識]]
[[ko:음성 인식]]
[[mk:Препознавање на говор]]
[[ms:Pengecaman pertuturan]]
[[nl:Spraakherkenning]]
[[no:Talegjenkjenning]]
[[pl:Rozpoznawanie mowy]]
[[ro:Recunoaștere vocală]]
[[ru:Распознавание речи]]
[[simple:Speech recognition]]
[[sk:Rozpoznávanie reči]]
[[sr:Препознавање говора]]
[[sv:Taligenkänning]]
[[ta:பேச்சுணரி]]
[[th:การรู้จำคำพูด]]
[[tr:Ses konuşma tanımlayıcı yazılımlar]]
[[uk:Розпізнавання мови]]
[[ur:کلام شناسی]]
[[vi:Nhận dạng tiếng nói]]
[[zh:语音识别]]

Edição das 15h14min de 14 de março de 2013

Tecnologias de reconhecimento da fala (também denominado em alguns aparelhos como reconhecimento de voz) permitem que computadores equipados com microfones interpretem a fala humana, por exemplo, para transcrição ou como método de comando por voz. Tais sistemas podem ser classificados por requererem, ou não, que o usuário treine o sistema a reconhecer seus padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).

Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário, em ritmo normal, com precisão de cerca de 98% (duas palavras erradas em cem) enquanto sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras como, por exemplo, os dez dígitos do sistema decimal. Tais sistemas são populares por direcionar chamadas telefônicas recebidas, em grandes organizações, aos seus destinos.

Sistemas comerciais para reconhecimento da fala têm estado disponíveis desde os anos 90, porém é interessante notar que, apesar do aparente sucesso dessa tecnologia, poucas pessoas os usam.

Parece que a maioria dos usuários de computador pode criar e editar documentos mais rapidamente com um teclado convencional, apesar do fato de que muitas pessoas são capazes de falar consideravelmente mais rápido do que podem digitar. Além disso, o uso intenso dos órgãos da fala pode resultar em sobrecarga vocal.

Alguns dos problemas técnicos chaves do reconhecimento da fala são:

  • Diferenças entre os interlocutores são freqüentemente grandes e dificultam. Não está claro quais características da fala são independentes do falante.
  • A interpretação de vários fonemas, palavras e frases é sensível ao contexto. Por exemplo: os fonemas são geralmente mais curtos em palavras longas do que em palavras pequenas. As palavras têm significados diferentes em frases diferentes. Por exemplo: "Philip lies" [1] pode ser interpretado como Philip sendo um mentiroso ou como Philip deitando-se na cama.
  • A entonação e o timbre da fala podem mudar completamente a interpretação de uma palavra ou frase. Por exemplo: "Vai!", "Vai?" e "Vai." podem ser claramente reconhecidos por um humano, mas não tão facilmente por um computador.
  • Palavras e frases podem ter várias interpretações válidas de modo que o falante deixe a escolha da correta para o ouvinte.
  • A linguagem escrita precisa de pontuação de acordo com regras estritas que não estão fortemente presentes na fala e são difíceis de inferir sem conhecer o significado (vírgulas, fim de frase, citações).

O entendimento do significado das palavras ditas é pensado como um campo separado do entendimento natural da linguagem. Há vários exemplos de frases que soam iguais e só podem ser desambiguadas pela aparição do contexto: uma famosa camisa vestida por pesquisadores da Apple Inc. dizia "I helped Apple wreck a nice beach" [Eu ajudei a Apple a destruir uma bela praia], o que, quando pronunciado, soa como "I helped Apple recognize speech" [Eu ajudei a Apple a reconhecer a fala].

Uma solução geral para muitos dos problemas acima requer efetivamente conhecimento humano, experiência e uma avançada tecnologia em inteligência artificial. Especificamente, modelos estatísticos de linguagem são freqüentemente empregados para desambiguação e melhoramento da precisão do reconhecimento.

Nota

No exemplo, "lies" pode ser confundido com o presente dos verbos "mentir" e "deitar", já que, em inglês, ambos são escritos como "lie".

Predefinição:AIDC Predefinição:Bom interwiki

talvez você goste