𝖂𝖎ƙ𝖎𝖊

Reconhecimento de fala: mudanças entre as edições

(TCC - Reconhecimento de voz)
imported>Gremista.32
Sem resumo de edição
 
(83 revisões intermediárias por 54 usuários não estão sendo mostradas)
Linha 1: Linha 1:
[[Categoria:Inteligência Artificial]]
{{revisão}}


{{msg:emtraducao2}}
'''Reconhecimento de fala''' é uma área interdisciplinar originária da [[linguística computacional]] cujo objetivo é desenvolver métodos e tecnologias que permitam o reconhecimento e a transcrição de linguagem falada de maneira automática. As tecnologias de reconhecimento de fala são normalmente conhecidas pela sigla em inglês '''ASR''' de '''Automatic Speech Recognition''' (reconhecimento automático de fala), '''Computer Speech Recognition''' (reconhecimento de fala por computador) ou '''STT''' de '''Speech to Text''' (fala para texto).


Tecnologias de '''reconhecimento de voz''' permitem que [[computador]]es equipados com [[microfone]]s interpretem a fala humana , por exemplo, para transcrição ou como método de comando por voz.
== Visão Geral ==
Tais sistemas podem ser classificados por requererem ou não que o usuário treine o sistema a reconhecer seu padrões particulares de fala,por ter a habilidade de reconhecer fala contínua ou por requerer quer o usuário fale pausadamente. e pelo tamanho do vocabulário que é capaz de reconhecer(pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).  
Tecnologias de '''reconhecimento da fala''' permitem que [[computador]]es equipados com [[microfone]]s reconheçam a fala humana, por exemplo, transcrevendo-a em texto que pode ser revertido em comandos. Por outro lado, o '''reconhecimento de voz''' é um problema distinto no qual o objetivo é identificar de maneira automática o falante em uma conversa. Em outras palavras, enquanto o reconhecimento de fala se preocupa em transcrever o áudio de uma fala para que um sistema computacional possa compreender a informação que está sendo falada, o reconhecimento de voz se preocupa em descobrir quem é o falante. As técnicas de reconhecimento de voz podem ter objetivo forense ou objetivarem a aplicação do sistema computacional a um ambiente com múltiplos falantes, como uma conversa entre seres humanos.


<!--
Os sistemas de reconhecimento de fala podem ser classificados por requererem, ou não, que o usuário treine o sistema a reconhecer seus padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).
Systems requiring a short amount of training can (as of 2001) capture continuous speech with a large vocabulary at normal pace with an accuracy of about 98% (getting two words in one hundred wrong), and different systems that require no training can recognize a small number of words (for instance, the ten digits of the decimal system) as spoken by most English speakers.  Such systems are popular for routing incoming phone calls to their destinations in large organisations.


Commercial systems for speech recognition have been available off-the-shelf since the 1990s. However, it is interesting to note that despite the apparent success of the technology, few people use such speech recognition systems.
Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário, em ritmo normal, com precisão de cerca de 98% (duas palavras erradas em cem) enquanto sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras como, por exemplo, os dez dígitos do [[sistema decimal]]. Tais sistemas são populares por direcionar chamadas telefônicas recebidas, em grandes organizações, aos seus destinos. Além disso, sistemas com vocabulário restrito podem ser usados para implementar '''comandos por voz''', uma vez que se torna mais fácil para o sistema reconhecer palavras ou frases previamente estabelecidas. Essas palavras podem ser interpretadas pelo sistema como comandos e programadas para a execução de uma rotina específica pelo sistema.


It appears that most computer users can create and edit documents more quickly with a conventional [[computer keyboard|keyboard]], despite the fact that most people are able to speak considerably faster than they can type.  Additionally, heavy use of the speech organs results in [[vocal loading]].
Sistemas comerciais para reconhecimento da fala têm estado disponíveis desde os anos 90, porém é interessante notar que, apesar do aparente sucesso dessa tecnologia, poucas pessoas os usam.


Some of the key technical problems in speech recognition are that:
Parece que a maioria dos usuários de computador pode criar e editar documentos mais rapidamente com um [[Teclado (computador)|teclado]] convencional, apesar do fato de que muitas pessoas são capazes de falar consideravelmente mais rápido do que podem digitar. Além disso, o uso intenso dos órgãos da fala pode resultar em sobrecarga vocal.
* Inter-speaker differences are often large and difficult to account for. It is not clear which characteristics of speech are speaker-independent.
* The interpretation of many [[phoneme]]s, words and phrases are context sensitive. For example, phonemes are often shorter in long words than in short words. Words have different meanings in different sentences, e.g. "Philip lies" could be interpreted either as Philip being a liar, or that Philip is lying on a bed.
* Intonation and speech timbre can completely change the correct interpretation of a word or sentence, e.g. "Go!", "Go?" and "Go." can clearly be recognised by a human, but not so easily by a computer.
* Words and sentences can have several valid interpretations such that the speaker leaves the choice of the correct one to the listener.
* Written language may need punctuation according to strict rules that are not strongly present in speech, and are difficult to infer without knowing the meaning (commas, ending of sentences, quotations).


The "understanding" of the meaning of spoken words is regarded by some as a separate field, that of [[natural language understanding]]. However, there are many examples of sentences that sound the same, but can only be disambiguated by an appeal to context: one famous T-shirt worn by Apple Computer researchers stated,
Alguns dos problemas técnicos chaves do reconhecimento da fala são:
* Diferenças entre os interlocutores são frequentemente grandes e dificultam. Não está claro quais características da fala são independentes do falante.
* A interpretação de vários [[fonema]]s, palavras e frases é sensível ao contexto. Por exemplo: os fonemas são geralmente mais curtos em palavras longas do que em palavras pequenas. As palavras têm significados diferentes em frases diferentes. Por exemplo: "Philip lies"{{ref|1}} pode ser interpretado como Philip sendo um mentiroso ou como Philip deitando-se na cama.
* A entonação e o timbre da fala podem mudar completamente a interpretação de uma palavra ou frase. Por exemplo: "Vai!", "Vai?" e "Vai." podem ser claramente reconhecidos por um humano, mas não tão facilmente por um computador.
* Palavras e frases podem ter várias interpretações válidas de modo que o falante deixe a escolha da correta para o ouvinte.
* A linguagem escrita precisa de pontuação de acordo com regras estritas que não estão fortemente presentes na fala e são difíceis de inferir sem conhecer o significado (vírgulas, fim de frase, citações).


:''I helped Apple wreck a nice beach'',
O entendimento do significado das palavras ditas é pensado como um campo separado do entendimento natural da linguagem. Há vários exemplos de frases que soam iguais e só podem ser desambiguadas pelo contexto: uma famosa camisa vestida por pesquisadores da [[Apple Inc.]] dizia "I helped Apple wreck a nice beach" [Eu ajudei a Apple a destruir uma bela praia], o que, quando pronunciado, soa como "I helped Apple recognize speech" [Eu ajudei a Apple a reconhecer a fala].


which, when spoken, sounds like ''I helped Apple recognize speech''.
Uma solução geral para muitos dos problemas acima requer efetivamente conhecimento humano, experiência e uma avançada tecnologia em [[inteligência artificial]]. Especificamente, modelos estatísticos de linguagem são frequentemente empregados para desambiguação e melhoramento da precisão do reconhecimento.


A general solution of many of the above problems effectively requires human knowledge and experience, and would thus require advanced [[artificial intelligence]] technologies to be implemented on a computer. In particular, statistical language models are often employed for disambiguation and improvement of the recognition accuracies.
== História ==
-->
As tecnologias de reconhecimento de fala tem seu início conjuntamente com a indústria telefônica, visando o aperfeiçoamento dos sistemas de comunicação. No anos de 1930, pesquisadores dos [[Laboratórios Bell]] propuseram o primeiro modelo para análise e síntese de fala.<ref>{{citar periódico|último1 =Juang|primeiro1 =B. H.|último2 =Rabiner|primeiro2 =Lawrence R.|título=Automatic speech recognition–a brief history of the technology development|página=6|url=http://www.ece.ucsb.edu/faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|acessodata=17 de janeiro de 2015|urlmorta= não|arquivourl=https://web.archive.org/web/20140817193243/http://www.ece.ucsb.edu/Faculty/Rabiner/ece259/Reprints/354_LALI-ASRHistory-final-10-8.pdf|arquivodata=17 de agosto de 2004|df=dmy-all}}</ref>


A forma mais simples de comunicação do ser humano é através da voz. O ser humano é dotado de uma extraordinária capacidade de processamento de informações de forma automática, onde ele consegue perceber durante o ato da comunicação, além da mensagem transmitida, diversas outras informações, como a emoção carregada no tom de voz , que pode indicar até o estado emocional do emissor, que pode fazer com que uma mesma frase possua  significados diferentes. O computador não possui essa capacidade de distinguir diferentes contextos em uma mesma mensagem, mas o campo de tecnologia da área de redes neurais está caminhando a passos largos, e tudo indica que dentro em breve esse tipo de situação estará sendo tratada.
== Soluções Comerciais ==
São inúmeras as aplicações que se podem se beneficiar desse tipo de interface, não só o comodismo de se substituir a dupla teclado/mouse para os usuários comuns, mas vai muito além, para os usuários especiais, portadores de deficiências visuais e motoras diversas, que ganharão uma forma direta de operação do computador.
Atualmente existem diversas pesquisas em andamento em diferente universidades e empresas do mundo. Algumas soluções comerciais com diferentes graus de desempenhos são:
Existe uma grande expectativa sobre o impacto que o reconhecimento do voz trará a todos: usuários, empresas, instituições de ensino, e o mais importante, essa nova interface é apenas uma parte da revolução, visto que o reconhecimento é apenas a parte da comunicação, e a grande revolução virá com as aplicações que se seguirão utilizando essa tecnologia.
* [https://www.ibm.com/watson/services/speech-to-text/ Watson STT] Solução [[IBM]] [[Watson (supercomputador)|Watson]] de reconhecimento de fala.
* [https://aws.amazon.com/pt/transcribe/ Amazon Transcribe] Solução [[Amazon]] de reconhecimento de fala.
* [http://www.verbio.com/webverbio3/pt/tecnologia/verbio-asr.html Verbio ASR ]{{Ligação inativa|1=|data=maio de 2019}} Solução de reconhecimento da fala.
* [[Vocapia Research]], [http://www.vocapia.com/speech-to-text-technology.html Voxsigma Software Suite]
* [https://www.dvoz.org/index.php DVOZ Sistemas] Sistemas de Biometria para Programadores.


== {{Links externos}} ==
== Nota ==
* [http://www.nlplab.cn/zhangle/slm.html Statistical Language Modeling (Natural Language Processing Lab, Northeastern University, China)]


[[da:Talegenkendelse]]
{{Nota|1}}
[[de:Spracherkennung]]
No exemplo, "lies" pode ser confundido com o presente dos verbos "mentir" e "deitar", já que, em inglês, ambos são escritos como "lie".
[[en:Speech recognition]]
 
[[es:Comprensión del lenguaje]]
{{Referências}}
[[fi:Puheentunnistus]]
 
[[fr:Reconnaissance vocale]]
{{AIDC}}
[[ja:音声認識]]
 
[[ko:음성 인식]]
[[Categoria:Inteligência artificial]]
[[nl:Spraakherkenning]]
[[Categoria:Identificação automática e captura de dados]]

Edição atual tal como às 20h13min de 29 de abril de 2022

Reconhecimento de fala é uma área interdisciplinar originária da linguística computacional cujo objetivo é desenvolver métodos e tecnologias que permitam o reconhecimento e a transcrição de linguagem falada de maneira automática. As tecnologias de reconhecimento de fala são normalmente conhecidas pela sigla em inglês ASR de Automatic Speech Recognition (reconhecimento automático de fala), Computer Speech Recognition (reconhecimento de fala por computador) ou STT de Speech to Text (fala para texto).

Visão Geral

Tecnologias de reconhecimento da fala permitem que computadores equipados com microfones reconheçam a fala humana, por exemplo, transcrevendo-a em texto que pode ser revertido em comandos. Por outro lado, o reconhecimento de voz é um problema distinto no qual o objetivo é identificar de maneira automática o falante em uma conversa. Em outras palavras, enquanto o reconhecimento de fala se preocupa em transcrever o áudio de uma fala para que um sistema computacional possa compreender a informação que está sendo falada, o reconhecimento de voz se preocupa em descobrir quem é o falante. As técnicas de reconhecimento de voz podem ter objetivo forense ou objetivarem a aplicação do sistema computacional a um ambiente com múltiplos falantes, como uma conversa entre seres humanos.

Os sistemas de reconhecimento de fala podem ser classificados por requererem, ou não, que o usuário treine o sistema a reconhecer seus padrões particulares de fala, por ter a habilidade de reconhecer fala contínua ou por requerer que o usuário fale pausadamente, e pelo tamanho do vocabulário que é capaz de reconhecer (pequeno, da ordem de dezenas a centenas de palavras, ou grande, com milhares de palavras).

Sistemas que requerem pouco treinamento podem capturar continuamente a fala com um amplo vocabulário, em ritmo normal, com precisão de cerca de 98% (duas palavras erradas em cem) enquanto sistemas que não requerem treinamento podem reconhecer um número pequeno de palavras como, por exemplo, os dez dígitos do sistema decimal. Tais sistemas são populares por direcionar chamadas telefônicas recebidas, em grandes organizações, aos seus destinos. Além disso, sistemas com vocabulário restrito podem ser usados para implementar comandos por voz, uma vez que se torna mais fácil para o sistema reconhecer palavras ou frases previamente estabelecidas. Essas palavras podem ser interpretadas pelo sistema como comandos e programadas para a execução de uma rotina específica pelo sistema.

Sistemas comerciais para reconhecimento da fala têm estado disponíveis desde os anos 90, porém é interessante notar que, apesar do aparente sucesso dessa tecnologia, poucas pessoas os usam.

Parece que a maioria dos usuários de computador pode criar e editar documentos mais rapidamente com um teclado convencional, apesar do fato de que muitas pessoas são capazes de falar consideravelmente mais rápido do que podem digitar. Além disso, o uso intenso dos órgãos da fala pode resultar em sobrecarga vocal.

Alguns dos problemas técnicos chaves do reconhecimento da fala são:

  • Diferenças entre os interlocutores são frequentemente grandes e dificultam. Não está claro quais características da fala são independentes do falante.
  • A interpretação de vários fonemas, palavras e frases é sensível ao contexto. Por exemplo: os fonemas são geralmente mais curtos em palavras longas do que em palavras pequenas. As palavras têm significados diferentes em frases diferentes. Por exemplo: "Philip lies"[1] pode ser interpretado como Philip sendo um mentiroso ou como Philip deitando-se na cama.
  • A entonação e o timbre da fala podem mudar completamente a interpretação de uma palavra ou frase. Por exemplo: "Vai!", "Vai?" e "Vai." podem ser claramente reconhecidos por um humano, mas não tão facilmente por um computador.
  • Palavras e frases podem ter várias interpretações válidas de modo que o falante deixe a escolha da correta para o ouvinte.
  • A linguagem escrita precisa de pontuação de acordo com regras estritas que não estão fortemente presentes na fala e são difíceis de inferir sem conhecer o significado (vírgulas, fim de frase, citações).

O entendimento do significado das palavras ditas é pensado como um campo separado do entendimento natural da linguagem. Há vários exemplos de frases que soam iguais e só podem ser desambiguadas pelo contexto: uma famosa camisa vestida por pesquisadores da Apple Inc. dizia "I helped Apple wreck a nice beach" [Eu ajudei a Apple a destruir uma bela praia], o que, quando pronunciado, soa como "I helped Apple recognize speech" [Eu ajudei a Apple a reconhecer a fala].

Uma solução geral para muitos dos problemas acima requer efetivamente conhecimento humano, experiência e uma avançada tecnologia em inteligência artificial. Especificamente, modelos estatísticos de linguagem são frequentemente empregados para desambiguação e melhoramento da precisão do reconhecimento.

História

As tecnologias de reconhecimento de fala tem seu início conjuntamente com a indústria telefônica, visando o aperfeiçoamento dos sistemas de comunicação. No anos de 1930, pesquisadores dos Laboratórios Bell propuseram o primeiro modelo para análise e síntese de fala.[1]

Soluções Comerciais

Atualmente existem diversas pesquisas em andamento em diferente universidades e empresas do mundo. Algumas soluções comerciais com diferentes graus de desempenhos são:

Nota

No exemplo, "lies" pode ser confundido com o presente dos verbos "mentir" e "deitar", já que, em inglês, ambos são escritos como "lie".

Referências

  1. Juang, B. H.; Rabiner, Lawrence R. «Automatic speech recognition–a brief history of the technology development» (PDF): 6. Consultado em 17 de janeiro de 2015. Cópia arquivada (PDF) em 17 de agosto de 2004 

Predefinição:AIDC

talvez você goste