WAT2017などのやつ
自然言語処理のデータの前処理でたまに見るmosesdecoderやscript.converter.distributionの場所のメモとか。
京都大学さんのここにまとまっている。
orchid.kuee.kyoto-u.ac.jp
script.converter.distributionはこのページのFor character conversionのやつ。
orchid.kuee.kyoto-u.ac.jp
ただし自分の環境ではこの中のz2h-utf8.pl
はうまく動かなかった?ためPython版に書き換えた。
前処理のスクリプト中のperl -C z2h-utf8.pl
をpython z2h-utf8.py
に変更すると動くはず。
mosesdecoderのGitHubはこちら。
GitHub - moses-smt/mosesdecoder: Moses, the machine translation system
github.com