プログラマでありたい

おっさんになっても、プログラマでありつづけたい

2016-01-01から1年間の記事一覧

Pythonクローラー本の決定版か!? 『Pythonクローリング&スクレイピング』

Pythonクローリング&スクレイピングを頂きました。ありがとうございます。まだざっとしか読んでいませんが、Pythonのクローラー本で一番バランスが良いのではないでしょうか?Pythonクローリング&スクレイピング ―データ収集・解析のための実践開発ガイド―…

ServerLessで、Amazonのほしい物リストから安売り情報を通知するBotを作ったよ

Serverless Advent Calendar 2016の11日目です。ちょっと趣向を変えて、Serverlessでアプリを構築する場合、こんな感じになったよというのを紹介しようと思います。 Amazonのほしい物リストから商品情報を抜き出して、安売りしていたら通知してくれるBot 最…

非エンジニアでも何とか出来るクローラー/Webスクレイピング術

遅くなりましたが、クローラー/Webスクレイピング Advent Calendar 2016の4日目です。先日、データを集める技術という本を出しました。冒頭の部分は、次のように始まっています。 2014年8月に「Rubyによるクローラー開発技法」という本を出版しました。書名…

「データを集める技術」、紙版・Kindle版の発売開始です。

一部先行発売していましたが、本日「データを集める技術」の発売開始です。紙版だけでなく、Kindle版も同時に発売の模様です。データを集める技術 最速で作るスクレイピング&クローラー (Informatics&IDEA)作者: 佐々木拓郎出版社/メーカー: SBクリエイティ…

「データを集める技術」の販売開始前に修正箇所のお知らせです

週明けの11/29が、「データを集める技術」の発売日です。その前に残念なお知らせです。Excelによる一発目のサンプルコードであるAmazonのカテゴリーランキングの取得方法が代わりました。 変更点 サンプルとしてあげている「クラウド の 売れ筋ランキング」…

「データを集める技術」という本を執筆しました

Webからデータを集めるというテーマで、「データを集める技術」という本を書きました。中身は、クローラー/スクレイピング本なのですが、それだと内容が「Rubyによるクローラー開発技法」と丸かぶりになってしまうので、本職プログラマでない人でも読めるよ…

Amazonのほしい物リストをRSS化するAPIを作ってみた

執筆上の都合でAmazonのほしい物リストをRSS化するAPIを作ってみました。構成的には、次のような形です。 下記のようなURLで取得できます。wishlist_idの部分に公開のほしい物リストのIDを指定したら使えると思います。https://wishlist-api.takuros.net/pro…

GoogleスプレットシートのImportFeedのキャッシュの話

GoogleスプレットシートのImportFeedなど、Import系のタブ関数を使っていると2度目はサクッと動きます。それもそのはずで、Google側でキャッシュをしていて、取りに行っていないからです。 ImportFeedのキャッシュの動作 例えば、下記のように取得し、隣の列…

Google PlayからAndroidアプリのランキングを取得する

前回、手軽にAppStoreからiOSアプリのランキングを取得する方法を紹介しました。Androidの場合は、どうしたら良いのでしょう?幾つか方法を考えてみます。対象は売上トップのAndroidアプリとして、URLは次の通りです。 https://play.google.com/store/apps/c…

AppStoreからiOSアプリのランキングを取得する

スマホアプリの人気の動向を知りたい場合は、AppleのAppStoreとGoogle Playを見ると思います。今回は、それを自動的に取得する方法を紹介します。 AppStoreのRSS Feed GeneratorからURL取得 AppStoreのランキングは、RSS Feedで配信されています。また、いつ…

環境構築レスでAmazonの商品レビューを取得する

世の中、ひょんなことから思いもかけないようなデータが必要になる場合があります。そんな時に備えて、クローラー/スクレイピングのノウハウを持っているのは当たり前の時代です。(大嘘) そんな訳で、Webから簡単にデータを取ってくる方法を紹介します。…

Google スプレッドシートの関数でWebからデータを取得する

Excel買うのはちょっと高いなぁと思っている時に重宝するのが、Google スプレッドシートです。ブラウザがあればどこでも使えて嬉しく、あのデータあのパソコンに入ってるのにとか、そういったことから開放されます。さらに他の人との共有も簡単なので、使い…

IFTTTで雑にエゴサーチして通知する

クローラー本を出していますが、可能であればプログラミング・レスで楽にしたいと思っています。そんな時にお勧めのツールが、IFTTTです。IFTTTは、説明不要かもしれませんが、Webサービス同士を連携するアプリです。今のご時世、サービス同士を組み合わせる…

AWS本とクローラー本のKindle版がお買い得になりました。

予定をとっくに過ぎているのに原稿が書けません。そんな秋の夜長ですが、自分が書いた本がKindle版で割引率が拡大しています。結構お得感が出ているので紹介しておきます。 Kindel本は、改訂版が出た時に無料でアップデートできるという特典があります。技術…

家賃補助がある場合のマンション購入考

たまに呟いていますが、マンションの内覧が好きです。正確に言うと、内覧をしながらその物件の10年後、20年後の価値を考え、購入するとどれくらいの利回りになるのかと妄想するのが好きです。そういう意味で、値付けパターンが単純な新築より、中古マンショ…

Ingress レベル16の私が、Pokemon Goを2日間やった感想

ちょっと上から目線のタイトルにしてみました。ハマり過ぎるのが解っていたので、Pokemonはするつもりはなかったです。しかし、こんなに流行になってしまうと、どんなものか把握していないと差し障りが出るレベルなので始めました。まだ数時間やったレベルで…

技術書執筆に関するお金の赤裸々な話

本を書いてると、よく『儲かるの?』と聞かれます。私は決まって、『儲かりません』と答えます。総額ベースではそれなりに貰っているのですが、何故そう答えるか整理してみます。 印税の仕組み 執筆に関する収入として、大きく2種類があります。1つはペー…

AWS Summit 2016 Tokyoの感想

3日間のお祭りが終わったので、感想を残しておきます。私の立場としては、出展者やAWS本の著者、ベンダー、JAWSUG参加者など色々あります。まぁその辺りを無視して、ただの感想です。 出展者として AWS Summitのブースに立ったのは久しぶりでした。ブースに…

もうすぐ出る/最近出たAWS本5冊

AWS Summit2016の興奮が冷めやまぬ今日この頃です。Amazonのクラウドのカテゴリを見ていると、新しい本が大量に並んでいました。AWS本が一気に4冊も登場ということで、軽く紹介してみます。タイトルと目次だけみて感想を書いているので、悪しからずご了承く…

AWS認定ソリューションアーキテクト - プロフェッショナルに合格したので、調子に乗って勉強方法を考えてみる

AWSの本を2冊書いていますが、AWS認定資格を1つも持っていませんでした。(正確に言うと、ソリューションアーキテクトのアソシエイトを持っていたけれど、2016年4月末で有効期限切れで失効していました。)会社の後輩たちが、どんどんプロ資格を取っていって…

クローラー/スクレイピング本が充実

ふと気がついたのですが、ここ1〜2年で言語ごとのクローラー/スクレイピング本が出てきています。まとめがてらに感想と一緒に紹介してみます PythonによるWebスクレイピング 直近で出たスクレイピング本としては、PythonによるWebスクレイピングです。購…

完全版!!ジュンク堂書店池袋本店2015年コンピュータ書売上げランキング

2015年度のジュンク堂書店池袋本店のコンピュータ書の売り上げランキング。作って公開するの忘れてました。座談会レポートで一部公開されていますが、全部版です。 2015年総合ランキング まずは総合ランキングです。Excel本は凄いけど、カテゴリが違うのでは…

cheerio-httpcliを使って、Amazonのほしい物リスト(Wish List)から商品コード(asin)を抜き出す

40手前の手習いで、cheerio-httpcliの使い方学習中です。 サンプルコードを読んで動作はなんとなく解ったので、次は欲しいデータを取得することで習熟していこうと思います。今回は、公開されたAmazonの欲しい物リスト(wish list)から、Amazonの商品管理コ…

Node.jsのWebスクレイピングモジュール 『cheerio-httpcli』のサンプルソースを読み解く

不定期連載、Node.jsのcheerio-httpcliによるWebスクレイピング講座です。今回は具体的なcheerio-httpcliの使い方をみていきましょう。cheerio-httpcliが公開されてるGithubリポジトリには、豊富なサンプルがあります。サンプル例としては下記の通りで2016年…

Kindle Paperwhiteの7,300円引きセール中。6,980円で買えるぞい!!

2012年11月に買ったKindle Paperwhite。3年以上毎日酷使をしてたのですが、最近故障してしまいました。原因は何となく解っていて、風呂場で無防備に読んでたり、水たまりに落としたりが原因でしょう。ということで、新しいものを買い直そうと検討していまし…

はてなブログにAmazonアソシエイトのMobile Popoverを設定する

趣味がブログの私は、朝起きてAmazonのアフィリエイトの結果を見るのが日課となっています。儲かる儲からないじゃなくて、どういう反響があったかの確認方法の1つにコンバージョンというのは重要です。 ※儲かれば嬉しいけどw ブログのアクセス解析をみてい…

人生に必要なのは、鼻毛カッターではないだろうか?

東京ビッグサイトに3日間出勤中です。りんかい線に乗るために座れないよと思ってたら、有楽町線で豊洲まで行けばいいことに気が付きました。そのお陰で得た時間で1つ有益な話をしましょう。それは、鼻毛カッター! 鼻毛カッター 私が今まで買ったガジェット…

Googleの狙う未来

前回、Nexus 5Xを使ってみてgoogle恐ろしいと感じたというエントリーを書きました。Nexus 5Xを使って垣間見たスマホの未来Nexus5xというかAndroidを持ち始めての感想。Googleさん、恐ろしいね。登録してないのに自宅・職場を把握するのは無論のこと、隔週の…

Node.jsのWebスクレイピングモジュール 『cheerio-httpcli』の使い方その1 cheerioでhtmlの要素指定

少し間が空きましたが、cheerio-httpcliの使い方です。cheerio-httpcliは、HTMLパーサーであるcheerioに、文字コード変換のiconvを組み合わせたHTTPクライアントモジュールで取得したコンテンツの文字コードを良しなにUTF-8に変換してくれます。HTMLの解析&…

Amazonプライム・フォト(cloud drive)で、写真のバックアップ。或いはAmazonプライムが凄い

動物園のカバの方が、もう少し活発に動いているのではないかと思われるくらい、怠惰に過ごしているゴールデンウィークです。時間があるので色々とやろうとしているのですが、気がつけば寝てばかりという現実ありますよね。そんな中で唯一生産的なことをした…