tokenology

DNA and tokens

Usage

For GENA_LM tokens:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('aglabx/dna_tokens', force_download=True, use_fast=True)

print(tokenizer.vocab_size)

tokenizer.tokenize(dna_data.upper())

For 16S tokens:

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('aglabx/16S_1024_bpe_tokens', force_download=True, use_fast=True)

print(tokenizer.vocab_size)

tokenizer.tokenize(dna_data.upper())

Name		Name	Last commit message	Last commit date
Latest commit History 13 Commits
tokenizer		tokenizer
.gitignore		.gitignore
README.md		README.md
special_tokens_map.json		special_tokens_map.json
tokenizer_config.json		tokenizer_config.json
tokenizer_t2t_1000h_multi_32k.json		tokenizer_t2t_1000h_multi_32k.json
tokenizer_v1.json		tokenizer_v1.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

tokenology

Usage

About

Releases

Packages

Languages

aglabx/tokenology

Folders and files

Latest commit

History

Repository files navigation

tokenology

Usage

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages