Na ciência da computação, análise léxica, lexing ou tokenização é o processo de converter uma sequência de caracteres (como em um programa de computador ou página da web) em uma sequência de tokens (strings com um significado atribuído e, portanto, identificado). Um programa que realiza análise lexical pode ser denominado lexer, tokenizer,[1] ou scanner, embora scanner também seja um termo para o primeiro estágio de um lexer. Um lexer geralmente é combinado com um analisador, que juntos analisam a sintaxe de linguagens de programação, páginas da Web e assim por diante.
Primeiro estado da análise
A primeira etapa lê a entrada de caracteres, um de cada vez, mudando o estado em que os caracteres se encontram. Quando o analisador encontra um caractere que ele não identifica como correto, ele o chama de "estado morto" então, ele volta à última análise que foi aceita e assim tem o tipo e comprimento do léxico válido.
Um léxico, entretanto, é uma única lista de caracteres conhecidas de ser um tipo correto. Para construir um símbolo, o analisador léxico necessita de um segundo estado.
Segundo estado da análise
Nesta etapa são repassados os caracteres do léxico para produzir um valor. O tipo do léxico combinado com seu valor é o que adequadamente constitui um símbolo, que pode ser dado a um parser. (Alguns símbolos tais como parênteses não têm valores, e então a função da análise não pode retornar nada).
A análise léxica escreve um parser muito mais fácil. Em vez de ter que acumular, renomeia seus caracteres individualmente. O parser não mais se preocupa com símbolos e passa a preocupar-se só com questões de sintática. Isto leva a eficiência de programação, e não eficiência de execução. Entretanto, desde que o analisador léxico é o subsistema que deve examinar cada caractere único de entrada, podem ser passos intensivos e o desempenhos se torna crítico, pode estar usando um compilador.
Token
Um Token em computação é um segmento de texto ou símbolo que pode ser manipulado por um analisador sintático, que fornece um significado ao texto; em outras palavras, é um conjunto de caracteres (de um alfabeto, por exemplo) com um significado coletivo.
Tokens são os padrões que ocorrem em uma string, por exemplo: em uma data, 29/03/1991
, poderia utilizar dois tokens para dividir a string em três partes, utilizando a barra /
como padrão. Desse modo, qualquer data que for inserida poderá ser dividida e analisada separadamente em dia, mês e ano. O mesmo pode ser feito com expressões regulares, mas o método de tokens utiliza muito menos processamento, e, portanto, é mais rápido, apesar de não ser tão robusto.
Análise léxica do Python
Como a linguagem de programação Python passa por um interpretador, existe a necessidade implícita de analisar o código-fonte colocado dentro do interpretador (entrada: tokens), para que o código funcione corretamente (saída: parser).
Python é dividido em linhas lógicas que são separadas pelo token newline (nova linha). Como Python não há a definição de início e fim de blocos de códigos, e sim por indentação, os delimitadores são o Ident e o Dedent. São vários os tipos de tokens que são reconhecidos pela linguagem, como: identificadores, palavras-chaves, classes reservadas, strings, números inteiros, operadores, delimitadores, sequências, listas, dicionários, funções, classes, etc.
Ver também
Referências
- ↑ «Anatomy of a Compiler and The Tokenizer». University of Manchester. Departament of Computer Science. Consultado em 4 de junho de 2020