Tokenizer Error #87

Sharefah-Alghamdi · 2021-03-23T17:49:41Z

Sharefah-Alghamdi
Mar 23, 2021

Hi everyone!

Thank you for sharing with us Arabert!
I hope you can help me with the error I got.

I'm trying to use Arabert in my code.
I downloaded the folder for
bert-base-arabertv02

then I use it like this:
pretrained_model='bert-base-arabertv02/tf1_model.tar.gz'
self.tokenizer = AutoTokenizer.from_pretrained(pretrained_model, do_lower_case=False)

but I got this error.

File "/usr/local/lib/python3.7/dist-packages/transformers/models/auto/tokenization_auto.py", line 383, in from_pretrained
config = AutoConfig.from_pretrained(pretrained_model_name_or_path, **kwargs)
File "/usr/local/lib/python3.7/dist-packages/transformers/models/auto/configuration_auto.py", line 387, in from_pretrained
config_dict, _ = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
File "/usr/local/lib/python3.7/dist-packages/transformers/configuration_utils.py", line 441, in get_config_dict
config_dict = cls._dict_from_json_file(resolved_config_file)
File "/usr/local/lib/python3.7/dist-packages/transformers/configuration_utils.py", line 524, in _dict_from_json_file
text = reader.read()
File "/usr/lib/python3.7/codecs.py", line 322, in decode
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x8b in position 1: invalid start byte

WissamAntoun · 2021-03-23T23:08:05Z

WissamAntoun
Mar 23, 2021
Maintainer

just use self.tokenizer = AutoTokenizer.from_pretrained("bert-base-arabertv02/", do_lower_case=False)

1 reply

Sharefah-Alghamdi Mar 27, 2021
Author

Thank you!
It fixed the error.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Tokenizer Error #87

{{title}}

Replies: 1 comment 1 reply

{{title}}

{{title}}

Select a reply

Tokenizer Error #87

Sharefah-Alghamdi Mar 23, 2021

Replies: 1 comment · 1 reply

WissamAntoun Mar 23, 2021 Maintainer

Sharefah-Alghamdi Mar 27, 2021 Author

Sharefah-Alghamdi
Mar 23, 2021

Replies: 1 comment 1 reply

WissamAntoun
Mar 23, 2021
Maintainer

Sharefah-Alghamdi Mar 27, 2021
Author