#appengine うそっ、私のMapReduce、遅すぎ?
Fredさんへの別件メール中で「Mapper API遅いなぁ〜」とちょっとグチをこぼしたら、「そんなはずはない」的なリアクションだったので、先日のテスト結果をお知らせしたところ、こんな返事が来ました:
You can adjust the processing_rate to be higher. The default of 100 is to prevent you from eating through quota too quickly. In mapreduce.yaml (Python) you add: - name: processing_rate default: {some large number} We missed this in the documentation. Thanks for point this out. We'll fix that. Fred
なんぞそのおまじない。。どこにも書いてないよ! とりあえずこのprocessing_rate(1秒あたりの処理件数上限らしい)に適当に10000と設定したところ、10万件エンティティの処理が1分30秒で完了するようになりました(およそ1000件/秒)。まあまあのスピードです。
シャードの数は自動設定なので、データの件数をぐんと増やせばシャードも増えてスループットもどんどん上がるのかもしれません。。めざせHadoop!