GensimSegTokenizer¶
此令牌解析器在默认情况下对传入的item中的图片、分隔符、题目空缺符等部分则转换成特殊字符进行保护,从而对文本、公式、标签进行令牌化操作。此外,从令牌化方法而言,此令牌解析器对文本均采用线性的分析方法,而对公式采用抽象语法树的分析方法。
与GensimWordTokenizer相比,GensimSegTokenizer解析器主要区别是:
提供了切分深度的选项,即可以在sep标签或者tag标签处进行切割
默认在item组分(如text、formula)的头部插入开始标签