WARCファイルのダウンロードと前処理

概要

CommonCrawlに含まれるWARCファイルをダウンロードし,日本語データを抽出, 抽出したデータからいらないテキストを除く処理を行うスクリプトです.

なお, このスクリプトの内日本語データの抽出を行うところまではGoogle Colab Notebookでも対応可能です. CommonCrawlのデータ数は膨大であり, 個人だけでは対処しきれないので, 分割抽出/加工を行う計画です.

このスクリプトはGENIAC(東大松尾・岩澤研究室のプロジェクト, 2024)の活動の一環としても作成しています.

setup_commandsに入っているコマンドをターミナルに張り付けて実行をしてください.

dokcer-composeコマンドでコンテナを作成し, そのコンテナをご使用ください

docker-compose up -d