プログラマでありたい

おっさんになっても、プログラマでありつづけたい

Amazonのランキングの不思議

 2014年8月末発売の「Rubyによるクローラー開発技法」が好調です。1ヶ月半くらい経過した今でも、Amazonのランキングで1000〜2000位くらいを維持しています。また2回目の増刷も決まり、望外の売れ行きです。
 ところで、自分で本を出して疑問に思うことがあります。それは、Amazonのランキングの謎です。在庫数や順位の変動、アフィリエイト経由の売上を見ていると、意外な疑問が出てきました。それは、トップヒット以外は、殆ど売れていないのではないかという疑惑です。Amazonといえばロングテールという新しいモデルの旗手ですが、実はテール部分の売上が想像以上に小さいのではという気がしてきました。理由としては、次の3点です。

  • 1日100冊程の売上で、ランキング100〜200位
  • 1日10冊程の売上で、ランキング1,000〜2,000位
  • 100,000位以降は、在庫数(残り何冊)の変動がなくても殆ど順位が変わらない

 Amazonのランキングの仕組みを調べたら面白そうだと思ったのですが、既にそのテーマの本があるのを思い出して読みました。その名も、「Amazonランキングの謎を解く」とズバリの内容です。以前、本屋で見かけて読んでみたいと思いつつスルーしていた本です。

Amazonランキングの謎



 「Amazonランキングの謎を解く」は、Amazonのランキングから数理モデルの説明をするという内容です。Amazonのランキングは例題として取り上げてるだけで、本質的な内容ではないです。しかし、著者が調べたランキング変動のアルゴリズムの推定が面白いです。エッセンスとしては、次の3点です。

  • ランキングは、最後に売れた順を基本としている。先頭に跳ぶ規則

 ⇒1冊売れれば、1番になる

  • 1時間あたりの集計で、当然その間に複数のタイトルが売れる。その期間内での売上数を加味する
  • 10,000位以内と10,000位以降では、少しアルゴリズムが違うらしい

 これらの推定のもとにランキングデータを調べていると、実はAmazonはロングテールビジネスではなく、一般の書店と同じようにビックヒットに頼るモデルなのではないかという結論に達しています。


 また、著者の推定では、売上とランキングは次のような関係のようです。

上位ランキング値と注文頻度の関係

順位 平均注文時間間隔
10位 5秒/冊
100位 1.5分/冊
1,000位 30分/冊
1万位 7.5時間/冊
順位 最後に売れてから
70万位 72日
60万位 41日
50万位 26日
40万位 16日
30万位 9日
20万位 4.5日
10万位 36時間
5万位 13時間
4万位 9時間
3万位 6時間

 実際の売れ行き以上の値ではないかと思いますが、この値を導き出した考え方の方が大事なので問題ないと思います。是非、どんな発想のもとに導いたのか読んでみてください。確率統計を専門とする人の思考過程がトレース出来て面白いです。

感想



 Amazonのロングテールモデルが成立しているかどうか、実際のところは解りません。よくよく考えたら、Amazon社自身もロングテールについては特に言及していなかったと思います。そんな中で外から見えるデータで、推定していくのは面白いと思います。
 ロングテールといえば、初めてその概念を知った時に頭の良い知人に説明したことがあります。知人曰く、言わんとすることは解るけど物流とか倉庫の保存コストを考えると、中々成立させるのは難しいのではと言っていたことを思い出しました。今だとKindleあるので、よりロジックの世界に近づいてきているのかもしれませんね。世の学者にしたら、理論検証の場が増えているので、面白い限りでしょうね。
 ちなみにこの著者さん、観測データを取るために随分と長い間Amazonのページを目視で定点観測していたらしいです。後の方で自動取得するプログラムを作ったらしい。うーん、意外でした。


Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)

Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)