Это оригинальный датасет (без примененных каких либо трансформаций) c Kaggle «Russian Language Toxic Comments».
Это датасет c Kaggle «Russian Language Toxic Comments», к которому применены NLP-техники по очистке текста (смотри файл clean_df_ru_texts.py).
Это англоязычный датасет с Kaggle Toxic Comment Classification Challenge.
Это англоязычный датасет с Kaggle Toxic Comment Classification Challenge, над текстами которого сделали машинный перевод на русский язык с помощью библиотек argostranslate (offline) (версия модели была взята English => Russian), TextBlob (Google Translate API) и googletrans (Google Translate API), а после над переведенным вариантом текстов сделали чистку и нормализацию слов. Весь описанный алгоритм представлен в файле translate_clean_df_en_texts.py.