CommonCrawlに含まれるWARCファイルをダウンロードし,日本語データを抽出, 抽出したデータからいらないテキストを除く処理を行うスクリプトです.
なお, このスクリプトの内日本語データの抽出を行うところまではGoogle Colab Notebookでも対応可能です. CommonCrawlのデータ数は膨大であり, 個人だけでは対処しきれないので, 分割抽出/加工を行う計画です.
このスクリプトはGENIAC(東大 松尾・岩澤研究室のプロジェクト, 2024)の活動の一環としても作成しています.
- CommonCrawl上の指定したsnapshotのpath listをダウンロード
- path listをもとに...
- warc.gzファイルをダウンロード
- warcファイルを解凍
- 日本語のページを抜き出し
- ルールベースでクリーニング
- 機械学習でゴミ記事を除外
- corpusフォルダにテキストを書き出し
- warcファイルに""を書き込み(hdd容量の節約)
setup_commandsに入っているコマンドをターミナルに張り付けて 実行をしてください.
dokcer-composeコマンドでコンテナを作成し, そのコンテナをご使用ください
docker-compose up -d