スティルハウスの書庫の書庫

はてなダイアリーで書いてた「スティルハウスの書庫」を移転してきました。

#appengine うそっ、私のMapReduce、遅すぎ?

Fredさんへの別件メール中で「Mapper API遅いなぁ〜」とちょっとグチをこぼしたら、「そんなはずはない」的なリアクションだったので、先日のテスト結果をお知らせしたところ、こんな返事が来ました:

You can adjust the processing_rate to be higher. The default of 100 is to prevent you from eating through quota too quickly. In mapreduce.yaml (Python) you add:
- name: processing_rate
  default: {some large number}

We missed this in the documentation. Thanks for point this out. We'll fix that.
Fred

なんぞそのおまじない。。どこにも書いてないよ! とりあえずこのprocessing_rate(1秒あたりの処理件数上限らしい)に適当に10000と設定したところ、10万件エンティティの処理が1分30秒で完了するようになりました(およそ1000件/秒)。まあまあのスピードです。

シャードの数は自動設定なので、データの件数をぐんと増やせばシャードも増えてスループットもどんどん上がるのかもしれません。。めざせHadoop!