Python Token类型

## 概述
分词器生成的每个token 都有一个类型。这些类型被表示为整数常量。token 常量的实际整数值不重要。相反，应按变量名称引用token，并使用字典获取token 类型的名称。确切的整数值可能会在 Python 版本之间更改，新版本可能新增或删除一些token（事实上，在最新版本的 Python 中，他们已经删除了）。在下面的示例中，输出中显示的token 编号是 Python 3.9 中的编号。

token类型的值都是数字，原因是因为Python 解释器使用的分词器不是`tokenize`模块，它是一个效率更高的使用C编写的实现。C没有像Python这样的对象系统，因此使用整数类型来代替枚举类型（实际上，`tokenizer.c`有一个很大的token类型的数组，每个token 的数值是其在该数组中的索引）。该`tokenize`模块是用纯Python编写的，但是token 类型的值和名称是 C 分词器中的值和名称的镜像，但是有三个例外：`COMMENT` `NL`和 `ENCODING`。

所有token 类型都在`token`模块中定义（这是一个C编写的模块），但`tokenize`模块有这么一句代码：`from token import *` ，因此也可以从`tokenize`中导入它们。 最简单的方法就是从`tokenize`导入所有内容。 此外，上述`COMMENT` `NL`和 `ENCODING` 在 Python 3.7 之前不能从 `token`中导入， 仅可以从 `tokenize`中导入。

## tok_name 字典
`tok_name`字典保存了token和它们名称的映射：
```
>>> import tokenize
>>> tokenize.STRING
3
>>> tokenize.tok_name[tokenize.STRING] # Can also use token.tok_name
'STRING'
```

## token类型介绍
先定义一个函数，下面的示例都会用到这个函数
```
import io

def print_tokens(s):
    for tok in tokenize.tokenize(io.BytesIO(s.encode('utf-8')).readline):
        print(tok)
```
这里我们调用了`tokenize()`函数，这个函数会对代码进行词法分析，将代码解析成一个个的token，每个token包含以下信息：
```
TokenInfo:
  - type：当前token的类型；
  - string：当前token的字面内容；
  - start：tuple类型，表示起始行和起始列；
  - end：tuple类型，表示结束行和结束列；
  - line：当前token所在的行；
```
示例：
```
>>> print_tokens('x + 1\n')
TokenInfo(type=63 (ENCODING), string='utf-8', start=(0, 0), end=(0, 0), line='')
TokenInfo(type=1 (NAME), string='x', start=(1, 0), end=(1, 1), line='x + 1\n')
TokenInfo(type=54 (OP), string='+', start=(1, 2), end=(1, 3), line='x + 1\n')
TokenInfo(type=2 (NUMBER), string='1', start=(1, 4), end=(1, 5), line='x + 1\n')
TokenInfo(type=4 (NEWLINE), string='\n', start=(1, 5), end=(1, 6), line='x + 1\n')
TokenInfo(type=0 (ENDMARKER), string='', start=(2, 0), end=(2, 0), line='')
```
#### ENDMARKER=0 结束符
`tokenize()`最后总是会触发这个结束符。
```
>>> print_tokens('x + 1\n')

TokenInfo(type=63 (ENCODING), string='utf-8', start=(0, 0), end=(0, 0), line='')
TokenInfo(type=1 (NAME), string='x', start=(1, 0), end=(1, 1), line='x + 1\n')
TokenInfo(type=54 (OP), string='+', start=(1, 2), end=(1, 3), line='x + 1\n')
TokenInfo(type=2 (NUMBER), string='1', start=(1, 4), end=(1, 5), line='x + 1\n')
TokenInfo(type=4 (NEWLINE), string='\n', start=(1, 5), end=(1, 6), line='x + 1\n')
TokenInfo(type=0 (ENDMARKER), string='', start=(2, 0), end=(2, 0), line='')
```
#### NAME=1 标识符
该类型的token被用于所有标识符，包括 关键字/变量名/函数名/类名 等。

#### NUMBER=2 数字
该类型的token用于字面值为数字的数据，包括 整数/二进制/八进制/十六进制。

#### STRING=3 字符串

#### NEWLINE=4

#### INDENT=5

#### DEDENT=6

#### RARROW

#### ELLIPSIS

#### OP

#### AWAIT

#### ASYNC

#### TYPE_IGNORE

#### TYPE_COMMENT

#### SOFT_KEYWORD

#### ERRORTOKEN

#### COMMENT=61

#### NL

#### ENCODING

#### N_TOKENS

## 参考
> [The Token Types](https://www.asmeurer.com/brown-water-python/tokens.html)
> [Python Tokens](https://unacademy.com/content/cbse-class-11/study-material/computer-science/python-tokens/)