読者です 読者をやめる 読者になる 読者になる

ウニ’s blog

勉強した結果を書いていきます

新Google翻訳のAPIを試す(3)

Python

BeautifulSoup4でePub構成ファイルの編集やってるけど、なかなか思い通りに行かずふてくされたりした。

ようやくなんとなく操作がわかってきた。xhtml→soupオブジェクト→xhtmlの変換ができた。
Google翻訳にぶち込むために、なるべくプレーンなデータ形状に変更が必要。しかしそれに伴い、タグ情報が結構落ちる。

頑張れば翻訳結果に対してタグを復旧させられるだろうけど、個人ではこれ以上の帳尻合わせは限界なり。
正直、天才が作っているgoogleサイト翻訳が新翻訳に対応するだろう。その後に、html系の翻訳データを読み込ませたほうが正確だろう。
頑張るところではないと判断した。

とにかく、今回は実験ソフトなので、この残念仕様で進めていく。

f:id:uni8inu:20161217020457p:plain
左が原文、右がBeautifulSoup4で加工後。
文字列は影響ないんだけど、pタグ内部のタグ情報がすべて落ちてて、レイアウトがちょっと変わってしまっている。
(brとか)

ねよう。