Reconhecimento de fala: mudanças entre as edições

Edição das 22h34min de 29 de dezembro de 2005

Tecnologias de reconhecimento de voz permitem que computadores equipados com microfones interpretem a fala humana, por exemplo, para transcrição ou como método de comando por voz. Tais sistemas podem ser classificados por requererem ou não que o usuário treine o sistema a reconhecer seu padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).

Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário em um ritmo normal com uma precisão de cerca de 98% (duas palavras erradas em cem), e sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras (por exemplo, os dez dígitos do sistema decimal). Tais sistemas são populares por direcionar chamadas telefônicas recebidas em grandes organizações para seus destinos.

Sistemas comerciais para reconhecimento de fala têm estado disponíveis desde os anos 90. Porém, é interessante notar que apesar do aparente sucesso dessa tecnologia, poucas pessoas os usam.

Parece que a maioria dos usuários de computador pode criar e editar documentos mais rapidamente com um teclado convencional, apesar do fato de que muitas pessoas são capazes de falar consideravelmente mais rápido do que podem digitar. Além disso, o uso intenso dos órgãos da fala pode resultar em sobrecarga vocal.

Alguns dos problemas técnicos chaves do reconhecimento da fala são:

Diferenças entre os interlocutores são freqüentemente grandes e dificultam. Não está claro quais características da fala são independentes do falante.
A interpretação de vários fonemas, palavras e frases é sensível ao contexto. Por exemplo: os fonemas são geralmente mais curtos em palavras longas do que em palavras pequenas. As palavras têm significados diferentes em frases diferentes. Por exemplo: "Philip lies" ^[1] pode ser interpretado como Philip sendo um mentiroso ou como Philip deitando-se na cama.
A entonação e o timbre da fala podem mudar completamente a interpretação de uma palavra ou frase. Por exemplo: "Vai!", "Vai?" e "Vai." podem ser claramente reconhecidos por um humano, mas não tão facilmente por um computador.
Palavras e frases podem ter várias interpretações válidas de modo que o falante deixe a escolha da correta para o ouvinte.
A linguagem escrita precisa de pontuação de acordo com regras estritas que não estão fortemente presentes na fala e são difíceis de inferir sem conhecer o significado (vírgulas, fim de frase, citações).

O "entendimento" do significado das palavras ditas é pensado como um campo separado do entendimento natural da linguagem. Porém, há vários exemplos de frases que soam iguais, e só podem ser desambiguadas pela aparição do contexto: uma famosa camisa vestida por pesquisadores da Apple dizia "I helped Apple wreck a nice beach" [Eu ajudei a Apple a destruir uma bela praia], o que, quando pronunciado, soa como "I helped Apple recognize speech" [Eu ajudei a Apple a reconhecer fala].

Uma solução geral para muitos dos problemas acima requer efetivamente conhecimento humano e experiência e uma avançada tecnologia em inteligência artificial a ser implementada em computadores. Especificamente, modelos estatístico de linguagem são freqüentemente empregados para desambiguação e melhoramento da precisão do reconhecimento.

Nota

↑ No exemplo, "lies" pode ser confundido com o presente dos verbos "mentir" e "deitar", já que, em inglês, ambos são escritos como "lie".

cs:Rozpoznávání řeči da:Talegenkendelse de:Spracherkennung en:Speech recognition es:Reconocimiento del habla fi:Puheentunnistus fr:Reconnaissance vocale ja:音声認識 ko:음성 인식 nl:Spraakherkenning

[1]

@@ Linha 1: / Linha 1: @@
 [[Categoria:Inteligência Artificial]]
-{{msg:emtraducao2}}
+{{revisão}}
-Tecnologias de '''reconhecimento de voz''' permitem que [[computador]]es equipados com [[microfone]]s interpretem a fala humana , por exemplo, para transcrição ou como método de comando por voz.
+Tecnologias de '''reconhecimento de voz''' permitem que [[computador]]es equipados com [[microfone]]s interpretem a fala humana, por exemplo, para transcrição ou como método de comando por voz.
-Tais sistemas podem ser classificados por requererem ou não que o usuário treine o sistema a reconhecer seu padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer quer o usuário fale pausadamente. e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).
+Tais sistemas podem ser classificados por requererem ou não que o usuário treine o sistema a reconhecer seu padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).
-<!--
+Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário em um ritmo normal com uma precisão de cerca de 98% (duas palavras erradas em cem), e sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras (por exemplo, os dez dígitos do [[sistema decimal]]). Tais sistemas são populares por direcionar chamadas telefônicas recebidas em grandes organizações para seus destinos.
-Systems requiring a short amount of training can (as of 2001) capture continuous speech with a large vocabulary at normal pace with an accuracy of about 98% (getting two words in one hundred wrong), and different systems that require no training can recognize a small number of words (for instance, the ten digits of the decimal system) as spoken by most English speakers.  Such systems are popular for routing incoming phone calls to their destinations in large organisations.
-Commercial systems for speech recognition have been available off-the-shelf since the 1990s.  However, it is interesting to note that despite the apparent success of the technology, few people use such speech recognition systems.
+Sistemas comerciais para reconhecimento de fala têm estado disponíveis desde os anos 90. Porém, é interessante notar que apesar do aparente sucesso dessa tecnologia, poucas pessoas os usam.
-It appears that most computer users can create and edit documents more quickly with a conventional [[computer keyboard|keyboard]], despite the fact that most people are able to speak considerably faster than they can type.  Additionally, heavy use of the speech organs results in [[vocal loading]].
+Parece que a maioria dos usuários de computador pode criar e editar documentos mais rapidamente com um [[Teclado (computador)|teclado]] convencional, apesar do fato de que muitas pessoas são capazes de falar consideravelmente mais rápido do que podem digitar. Além disso, o uso intenso dos órgãos da fala pode resultar em sobrecarga vocal.
-Some of the key technical problems in speech recognition are that:
+Alguns dos problemas técnicos chaves do reconhecimento da fala são:
-* Inter-speaker differences are often large and difficult to account for. It is not clear which characteristics of speech are speaker-independent.
+* Diferenças entre os interlocutores são freqüentemente grandes e dificultam. Não está claro quais características da fala são independentes do falante.
-* The interpretation of many [[phoneme]]s, words and phrases are context sensitive. For example, phonemes are often shorter in long words than in short words. Words have different meanings in different sentences, e.g. "Philip lies" could be interpreted either as Philip being a liar, or that Philip is lying on a bed.
+* A interpretação de vários [[fonema]]s, palavras e frases é sensível ao contexto. Por exemplo: os fonemas são geralmente mais curtos em palavras longas do que em palavras pequenas. As palavras têm significados diferentes em frases diferentes. Por exemplo: "Philip lies" {{ref|1}} pode ser interpretado como Philip sendo um mentiroso ou como Philip deitando-se na cama.
-* Intonation and speech timbre can completely change the correct interpretation of a word or sentence, e.g. "Go!", "Go?" and "Go." can clearly be recognised by a human, but not so easily by a computer.
+* A entonação e o timbre da fala podem mudar completamente a interpretação de uma palavra ou frase. Por exemplo: "Vai!", "Vai?" e "Vai." podem ser claramente reconhecidos por um humano, mas não tão facilmente por um computador.
-* Words and sentences can have several valid interpretations such that the speaker leaves the choice of the correct one to the listener.
+* Palavras e frases podem ter várias interpretações válidas de modo que o falante deixe a escolha da correta para o ouvinte.
-* Written language may need punctuation according to strict rules that are not strongly present in speech, and are difficult to infer without knowing the meaning (commas, ending of sentences, quotations).
+* A linguagem escrita precisa de pontuação de acordo com regras estritas que não estão fortemente presentes na fala e são difíceis de inferir sem conhecer o significado (vírgulas, fim de frase, citações).
-The "understanding" of the meaning of spoken words is regarded by some as a separate field, that of [[natural language understanding]]. However, there are many examples of sentences that sound the same, but can only be disambiguated by an appeal to context: one famous T-shirt worn by Apple Computer researchers stated,
+O "entendimento" do significado das palavras ditas é pensado como um campo separado do entendimento natural da linguagem. Porém, há vários exemplos de frases que soam iguais, e só podem ser desambiguadas pela aparição do contexto: uma famosa camisa vestida por pesquisadores da [[Apple]] dizia "I helped Apple wreck a nice beach" [Eu ajudei a Apple a destruir uma bela praia], o que, quando pronunciado, soa como "I helped Apple recognize speech" [Eu ajudei a Apple a reconhecer fala].
-:''I helped Apple wreck a nice beach'',
+Uma solução geral para muitos dos problemas acima requer efetivamente conhecimento humano e experiência e uma avançada tecnologia em [[inteligência artificial]] a ser implementada em computadores. Especificamente, modelos estatístico de linguagem são freqüentemente empregados para desambiguação e melhoramento da precisão do reconhecimento.
-which, when spoken, sounds like ''I helped Apple recognize speech''.
+==Nota==
-A general solution of many of the above problems effectively requires human knowledge and experience, and would thus require advanced [[artificial intelligence]] technologies to be implemented on a computer. In particular, statistical language models are often employed for disambiguation and improvement of the recognition accuracies.
+{{Nota|1}}
--->
+No exemplo, "lies" pode ser confundido com o presente dos verbos "mentir" e "deitar", já que, em inglês, ambos são escritos como "lie".
 [[cs:Rozpoznávání řeči]]

Reconhecimento de fala: mudanças entre as edições

Edição das 22h34min de 29 de dezembro de 2005

Nota

O que estudar para o enem 2023

Qual melhor curso para fazer em 2023

Enem: Conteúdos E Aulas On-Line São Opção Para Os Estudantes

Como Fazer Uma Carta De Apresentação

Como Escrever Uma Boa Redação

Concurso INSS edital 2022 publicado

ARTIGOS DE TENDÊNCIA

Resultado do Enem 2023: Saí nesta terça-feira

Concurso Unificado: inscrições serão aceitas pelo GOV.BR

Como fazer uma redação passo a passo para concurso

Permaneça conectado

Parceiros

Reconhecimento de fala: mudanças entre as edições

Edição das 22h34min de 29 de dezembro de 2005

Nota

talvez você goste

Assine

ARTIGOS DE TENDÊNCIA

Permaneça conectado

Facebook

Parceiros