スクレイピングしている時の悩み

hpricotでXPATHで一発指定できれば良いんですが、
それだけではある程度までしか絞り込めなくって
結局、Stringオブジェクトにして、
それを正規表現で絞り込んでいったりするのはよくある事。


XPATHで指定するというのはコードがすっきりかつ明確になって良いのですが、
それだけでは全部まかなえないのが何か中途半端で気持ち悪いなーと思ったり。
しょうがないのかな。
読みやすさに加えて、スピードについても考慮してどのようにしたら良いか決めたい。


あと、nokogiriというのが流行っているみたいなのでそれも試そう。