前回まででSQLiteデータベースに履歴一覧を保存出来る様になり、少しは本格的(?)にアプリらしくなって来た。
今回はURLからWebページのタイトルを取得して表示する様に変更したい。
スレッドを使って非同期にHTTP通信を行ない、処理結果をListViewに反映すると言う、このブログの流れからすると今までで最高レベルの難易度(笑)になる内容だ。実際、作っていて「あ、そうだったのか」と気付かされる事が多くとても勉強になった。プログラミングは実際に手を動かして試行錯誤しながら習得するに限ると改めて感じた。
URLからHTMLを取得する
まずはHTTP通信でURLが示すWebページにアクセスしてHTML文字列を取得する部分だ。HttpUtilというクラスをプロジェクトに追加して、そこに色々書いて行く事にした。
そのHttpUtilクラスに作ったgetHtmlメソッドはこんな感じになった。
public static String getHtml(String url){ String result = null; HttpGet httpGet = new HttpGet(url); DefaultHttpClient client = new DefaultHttpClient(); HttpParams httpParams = client.getParams(); HttpConnectionParams.setConnectionTimeout(httpParams, 1000 * 10); //接続のタイムアウト(ms) HttpConnectionParams.setSoTimeout(httpParams, 1000 * 60); //データ取得のタイムアウト(ms) client.setParams(httpParams); try { // レスポンスを取得 HttpResponse httpResponse = client.execute(httpGet); int status = httpResponse.getStatusLine().getStatusCode(); if (HttpStatus.SC_OK == status){ //Content-Typeを取得 Header[] headers = httpResponse.getHeaders("Content-Type"); if (headers.length > 0) { String contentType = ""; contentType = headers[0].getValue(); if (contentType.contains("text/html")){ //HTMLを取得 HttpEntity entity = httpResponse.getEntity(); if (entity != null){ byte[] arr = EntityUtils.toByteArray(entity); //文字エンコーディングを判定 String encoding = detectEncoding(arr); if (encoding == null) encoding = findEncoding(entity, arr); //判定されたエンコーディングでバイト配列から文字列に変換 result = new String(arr, encoding); //entityのリソースを解放 entity.consumeContent(); } } } } } catch (ClientProtocolException e) { Log.d(TAG, e.getMessage()); } catch (IOException e) { Log.d(TAG, e.getMessage()); } finally { //HTTPクライアントを終了させる client.getConnectionManager().shutdown(); } return result; }
予想もしなかった部分でつまずいた。文字エンコーディングの判別だった。
SDK標準のDefaultHttpClientクラスが上手く処理してくれるのかと思っていたらそうではなく、取得したバイト配列を文字列に変換する部分は自分でやらないと行けない様だ。
最初は自前でResponseヘッダのContent-Typeを見たりmetaタグのcharsetの値を見たりして、なんとか上手く動くようにはなったのだが、それでもたまに表示したタイトルが文字化けしている事があった。なぜだろうと該当のWebページのソースを表示して見ると、metaタグでの指定はEUCなのに実際にはUTF-8でエンコーディングされている、などという様にResponseでの指定内容と実際のエンコーディングが異なっているケースがある事が分かった。
結局、Responseに含まれているエンコーディング指定は完全には信用出来ないのだ。ガーン!
それで色々調べた挙句、「juniversalchardet.jar」というライブラリを利用させてもらう事にした。
juniversalchardet - Java port of universalchardet - Google Project Hosting
juniversalchardet - Javaについて
このライブラリを使っている部分はこんな感じ。
private static String detectEncoding(byte[] arr){ byte[] buf = new byte[4096]; ByteArrayInputStream stream = new ByteArrayInputStream(arr); UniversalDetector detector = new UniversalDetector(null); try { int nread; while ((nread = stream.read(buf)) > 0 && !detector.isDone()) { detector.handleData(buf, 0, nread); } } catch (IOException e) { Log.d(TAG, e.getMessage()); } detector.dataEnd(); return detector.getDetectedCharset(); }
2011/06/02 追記:
下のページではjuniversalchardetについて「デコード時の文字コードがEUC-JPだった場合に、判定に失敗する可能性が非常に高い。」と書かれているので、要注意。
エンコード時の文字コードが不明なURLをJavaでデコード | grush-blog
HTMLからタイトルを抜き出す
HTMLが取得出来たら、次は<title>タグの始まりと終わりを探してその間の文字列を抜き出せばOKだ。
正規表現を使えば楽勝だ、と思っていたら、これも意外と手こずってしまった。
単純に
<title>タイトルの文字列</title>という形になっていれば問題無いのだが、
<title id='aaa'>タイトルの文字列</title>などの様に開始タグに属性が付いている事もある。
それに、
<title>(改行)みたいにtitleタグの中に改行が入っているケースもある。正規表現は行単位に処理される(と思う)ので、開始タグと終了タグの間に改行が入ってしまうと途端に話がややこしくなる。(多分。)
タイトルの(改行)
文字列(改行)
</title>
改行については最初に除去してから処理すればいいかと思ってやってみたけれども、そうすると文字列が長い場合に大量にCPUを使って戻って来なくなったりするので簡単には行かなそうだった。
そんなこんなで結局正規表現を使うのは止めて indexOf を駆使(?)して自前で抜き出す事にした。
本当はDOMを操作するライブラリなどを使えばこの辺を簡単にしてくれるメソッドが用意されているのかも知れない。
実際のタイトル抽出部分のコードがどうなったかは、こちらから参照可能だ。javaの達人であればもっとキレイに書けると思うので、ちょっと恥ずかしい。
それから、HTML文字列に数値文字参照(例:~→ 「〜」)が含まれている場合や、実体参照(例:>→「>」)が含まれている場合もあったので、タイトルを抜き出した後それぞれ変換処理をかませるようにしておいた。
単にHTMLからタイトルを抜き出すだけの処理なのに、結構色々あるものだ。
とここまで書いて今また一つ気付いてしまった。 コメントアウトされたtitleタグへの対応だ。
<!-- <title>コメントアウトされたタイトル</title>-->というパターンになっていると今回のコードだとコメントアウトされた方のタイトルを抜き出してしまう。こう言うケースにも対応しようと思うと、やはり何らかのDOMライブラリを使う方がいいのかも知れない。
<title>抽出して欲しいタイトル</title>
全ソースと次の目標
今回のソースでHTTP通信の処理は別スレッドで行う様になっている。Androidプログラミングでは必須とも言えるマルチスレッド化については、長くなりそうなので別のエントリで書こうと思う。
ダウンロードはこちらから。
mikehibm/android-browser-intent03 at intent04 - GitHub
AndroidでURLを開く度に自作のアプリを起動する
.