週明けの11/29が、「データを集める技術」の発売日です。その前に残念なお知らせです。Excelによる一発目のサンプルコードであるAmazonのカテゴリーランキングの取得方法が代わりました。
変更点
サンプルとしてあげている「クラウド の 売れ筋ランキング」のHTMLのタグが変更されていました。1ヶ月ほど前はタイトルのタグの部分は、zg_titleという解りやすいクラス名で表現されていました。今現在だと、a-link-normalという汎用的なタグ名なので、もう少し上のタグからとって子要素の番号で指定する必要があります。その為、下記のようなスマートでない指定が必要です。
For Each element In objDoc.getElementsByClassName("a-fixed-left-grid-inner") 'シートに取得したタイトルの書き込み Worksheets(1).Cells(row, 1) = row Worksheets(1).Cells(row, 2) = element.Children(1).Children(1).innerText row = row + 1 Next element
今の気持ち
「Amazon Web Services クラウドネイティブ・アプリケーション開発技法」の発売を待つばかりという段階で、Cognito User Poolが発表されたりLambdaの仕様やAPI Gatewayの管理コンソールのインターフェースがどんどん変わっていく様を見るしかなかった時の気持ちと同じです。いつか必ず起こると思いながら、今起こるのかよと。つまりまぁ、しゃーないです。
スクレイピング本というものは、変化する前提で割り切るしかないのです。その為、やり方・考え方を伝えるのがメインにしないといけないですねという良い例でした。サンプルソースのページで出来るだけはフォローしていくようにする方針です。
- 作者: 佐々木拓郎
- 出版社/メーカー: SBクリエイティブ
- 発売日: 2016/11/29
- メディア: 単行本
- この商品を含むブログを見る