2016-01-01から1年間の記事一覧
Pythonクローリング&スクレイピングを頂きました。ありがとうございます。まだざっとしか読んでいませんが、Pythonのクローラー本で一番バランスが良いのではないでしょうか?Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド―…
Serverless Advent Calendar 2016の11日目です。ちょっと趣向を変えて、Serverlessでアプリを構築する場合、こんな感じになったよというのを紹介しようと思います。 Amazonのほしい物リストから商品情報を抜き出して、安売りしていたら通知してくれるBot 最…
遅くなりましたが、クローラー/Webスクレイピング Advent Calendar 2016の4日目です。先日、データを集める技術という本を出しました。冒頭の部分は、次のように始まっています。 2014年8月に「Rubyによるクローラー開発技法」という本を出版しました。書名…
一部先行発売していましたが、本日「データを集める技術」の発売開始です。紙版だけでなく、Kindle版も同時に発売の模様です。データを集める技術 最速で作るスクレイピング&クローラー (Informatics&IDEA)作者: 佐々木拓郎出版社/メーカー: SBクリエイティ…
週明けの11/29が、「データを集める技術」の発売日です。その前に残念なお知らせです。Excelによる一発目のサンプルコードであるAmazonのカテゴリーランキングの取得方法が代わりました。 変更点 サンプルとしてあげている「クラウド の 売れ筋ランキング」…
Webからデータを集めるというテーマで、「データを集める技術」という本を書きました。中身は、クローラー/スクレイピング本なのですが、それだと内容が「Rubyによるクローラー開発技法」と丸かぶりになってしまうので、本職プログラマでない人でも読めるよ…
執筆上の都合でAmazonのほしい物リストをRSS化するAPIを作ってみました。構成的には、次のような形です。 下記のようなURLで取得できます。wishlist_idの部分に公開のほしい物リストのIDを指定したら使えると思います。https://wishlist-api.takuros.net/pro…
GoogleスプレットシートのImportFeedなど、Import系のタブ関数を使っていると2度目はサクッと動きます。それもそのはずで、Google側でキャッシュをしていて、取りに行っていないからです。 ImportFeedのキャッシュの動作 例えば、下記のように取得し、隣の列…
前回、手軽にAppStoreからiOSアプリのランキングを取得する方法を紹介しました。Androidの場合は、どうしたら良いのでしょう?幾つか方法を考えてみます。対象は売上トップのAndroidアプリとして、URLは次の通りです。 https://play.google.com/store/apps/c…
スマホアプリの人気の動向を知りたい場合は、AppleのAppStoreとGoogle Playを見ると思います。今回は、それを自動的に取得する方法を紹介します。 AppStoreのRSS Feed GeneratorからURL取得 AppStoreのランキングは、RSS Feedで配信されています。また、いつ…
世の中、ひょんなことから思いもかけないようなデータが必要になる場合があります。そんな時に備えて、クローラー/スクレイピングのノウハウを持っているのは当たり前の時代です。(大嘘) そんな訳で、Webから簡単にデータを取ってくる方法を紹介します。…
Excel買うのはちょっと高いなぁと思っている時に重宝するのが、Google スプレッドシートです。ブラウザがあればどこでも使えて嬉しく、あのデータあのパソコンに入ってるのにとか、そういったことから開放されます。さらに他の人との共有も簡単なので、使い…
クローラー本を出していますが、可能であればプログラミング・レスで楽にしたいと思っています。そんな時にお勧めのツールが、IFTTTです。IFTTTは、説明不要かもしれませんが、Webサービス同士を連携するアプリです。今のご時世、サービス同士を組み合わせる…
予定をとっくに過ぎているのに原稿が書けません。そんな秋の夜長ですが、自分が書いた本がKindle版で割引率が拡大しています。結構お得感が出ているので紹介しておきます。 Kindel本は、改訂版が出た時に無料でアップデートできるという特典があります。技術…
たまに呟いていますが、マンションの内覧が好きです。正確に言うと、内覧をしながらその物件の10年後、20年後の価値を考え、購入するとどれくらいの利回りになるのかと妄想するのが好きです。そういう意味で、値付けパターンが単純な新築より、中古マンショ…
ちょっと上から目線のタイトルにしてみました。ハマり過ぎるのが解っていたので、Pokemonはするつもりはなかったです。しかし、こんなに流行になってしまうと、どんなものか把握していないと差し障りが出るレベルなので始めました。まだ数時間やったレベルで…
本を書いてると、よく『儲かるの?』と聞かれます。私は決まって、『儲かりません』と答えます。総額ベースではそれなりに貰っているのですが、何故そう答えるか整理してみます。 印税の仕組み 執筆に関する収入として、大きく2種類があります。1つはペー…
3日間のお祭りが終わったので、感想を残しておきます。私の立場としては、出展者やAWS本の著者、ベンダー、JAWSUG参加者など色々あります。まぁその辺りを無視して、ただの感想です。 出展者として AWS Summitのブースに立ったのは久しぶりでした。ブースに…
AWS Summit2016の興奮が冷めやまぬ今日この頃です。Amazonのクラウドのカテゴリを見ていると、新しい本が大量に並んでいました。AWS本が一気に4冊も登場ということで、軽く紹介してみます。タイトルと目次だけみて感想を書いているので、悪しからずご了承く…
AWSの本を2冊書いていますが、AWS認定資格を1つも持っていませんでした。(正確に言うと、ソリューションアーキテクトのアソシエイトを持っていたけれど、2016年4月末で有効期限切れで失効していました。)会社の後輩たちが、どんどんプロ資格を取っていって…
ふと気がついたのですが、ここ1〜2年で言語ごとのクローラー/スクレイピング本が出てきています。まとめがてらに感想と一緒に紹介してみます PythonによるWebスクレイピング 直近で出たスクレイピング本としては、PythonによるWebスクレイピングです。購…
2015年度のジュンク堂書店池袋本店のコンピュータ書の売り上げランキング。作って公開するの忘れてました。座談会レポートで一部公開されていますが、全部版です。 2015年総合ランキング まずは総合ランキングです。Excel本は凄いけど、カテゴリが違うのでは…
40手前の手習いで、cheerio-httpcliの使い方学習中です。 サンプルコードを読んで動作はなんとなく解ったので、次は欲しいデータを取得することで習熟していこうと思います。今回は、公開されたAmazonの欲しい物リスト(wish list)から、Amazonの商品管理コ…
不定期連載、Node.jsのcheerio-httpcliによるWebスクレイピング講座です。今回は具体的なcheerio-httpcliの使い方をみていきましょう。cheerio-httpcliが公開されてるGithubリポジトリには、豊富なサンプルがあります。サンプル例としては下記の通りで2016年…
2012年11月に買ったKindle Paperwhite。3年以上毎日酷使をしてたのですが、最近故障してしまいました。原因は何となく解っていて、風呂場で無防備に読んでたり、水たまりに落としたりが原因でしょう。ということで、新しいものを買い直そうと検討していまし…
趣味がブログの私は、朝起きてAmazonのアフィリエイトの結果を見るのが日課となっています。儲かる儲からないじゃなくて、どういう反響があったかの確認方法の1つにコンバージョンというのは重要です。 ※儲かれば嬉しいけどw ブログのアクセス解析をみてい…
東京ビッグサイトに3日間出勤中です。りんかい線に乗るために座れないよと思ってたら、有楽町線で豊洲まで行けばいいことに気が付きました。そのお陰で得た時間で1つ有益な話をしましょう。それは、鼻毛カッター! 鼻毛カッター 私が今まで買ったガジェット…
前回、Nexus 5Xを使ってみてgoogle恐ろしいと感じたというエントリーを書きました。Nexus 5Xを使って垣間見たスマホの未来Nexus5xというかAndroidを持ち始めての感想。Googleさん、恐ろしいね。登録してないのに自宅・職場を把握するのは無論のこと、隔週の…
少し間が空きましたが、cheerio-httpcliの使い方です。cheerio-httpcliは、HTMLパーサーであるcheerioに、文字コード変換のiconvを組み合わせたHTTPクライアントモジュールで取得したコンテンツの文字コードを良しなにUTF-8に変換してくれます。HTMLの解析&…
動物園のカバの方が、もう少し活発に動いているのではないかと思われるくらい、怠惰に過ごしているゴールデンウィークです。時間があるので色々とやろうとしているのですが、気がつけば寝てばかりという現実ありますよね。そんな中で唯一生産的なことをした…