n4okins / WATとかのデータの前処理についてのメモ

Created Fri, 26 Jul 2024 10:31:09 +0900 Modified Fri, 26 Jul 2024 10:31:09 +0900
298 Words

WAT2017などのやつ

自然言語処理のデータの前処理でたまに見るmosesdecoderやscript.converter.distributionの場所のメモとか。

京都大学さんのここにまとまっている。

script.converter.distributionはこのページのFor character conversionのやつ。

ただし自分の環境ではこの中のz2h-utf8.plはうまく動かなかった?ためPython版に書き換えた。 前処理のスクリプト中のperl -C z2h-utf8.plpython z2h-utf8.pyに変更すると動くはず。

mosesdecoderのGitHubはこちら。