2011年6月3日

米国でHTC EvoのGingerbreadへのアップデート開始へ

Sprintから公式アナウンスがあった。


Sprint Community: Announcements: HTC EVO 4G from Sprint Gets Android Gingerbread Update

Gingerbreadが公開されたのが2010年の12月6日との事なので、ちょうどその半年後にEvoに反映される事になる。

よし、いよいよ来週からGingerbreadだー。


この際だからFroyo(Android 2.2)とGingerbread(Android 2.3)の違いを予習しておこう。

Android 2.3 Gingerbreadの新機能のまとめ | Macin' Blog

【レビュー】Google携帯「Nexus S」の実力は? - 【後編】Androidの"買い時"到来 (1) Gingerbreadで何が変わったのか | 携帯 | マイコミジャーナル

#android しづ子ファッション通信 Σ(^A^;) : で結局 gingerbread って何が変わったの? - Froyo から変化しているUIを集めてみた

Android 2.3(Gingerbread)における新機能、変更点のメモ | juggly.cn

Difference Between Android 2.2 (Froyo) and Android 2.3 (Gingerbread)

Android 2.2 (Froyo) Vs 2.3 (Gingerbread)

う~ん、NFC非搭載の端末では正直言ってあんまり劇的に感動させられる様な違いは無いのかも知れない。

文章に表せない点で使い勝手が良くなっている事に期待したい。あとはVoIPに標準対応という辺りが面白そうかな。






 

2011年6月1日

AndroidでURLを開く度に自作のアプリを起動する (4) HTTP通信を行ってタイトルを取得する



前回まででSQLiteデータベースに履歴一覧を保存出来る様になり、少しは本格的(?)にアプリらしくなって来た。

今回はURLからWebページのタイトルを取得して表示する様に変更したい。

スレッドを使って非同期にHTTP通信を行ない、処理結果をListViewに反映すると言う、このブログの流れからすると今までで最高レベルの難易度(笑)になる内容だ。実際、作っていて「あ、そうだったのか」と気付かされる事が多くとても勉強になった。プログラミングは実際に手を動かして試行錯誤しながら習得するに限ると改めて感じた。


前回までの画面

今回の画面
URLだけでなくページのタイトルも表示
すると一気に実用的(な感じ)になった。
ついでにListViewの各行の背景にグラ
デーションを使ってみた。




URLからHTMLを取得する


まずはHTTP通信でURLが示すWebページにアクセスしてHTML文字列を取得する部分だ。HttpUtilというクラスをプロジェクトに追加して、そこに色々書いて行く事にした。

そのHttpUtilクラスに作ったgetHtmlメソッドはこんな感じになった。

public static String getHtml(String url){
        String result = null;
        
        HttpGet httpGet = new HttpGet(url);
        DefaultHttpClient client = new DefaultHttpClient();
        HttpParams httpParams = client.getParams();
        
        HttpConnectionParams.setConnectionTimeout(httpParams, 1000 * 10);   //接続のタイムアウト(ms)
        HttpConnectionParams.setSoTimeout(httpParams, 1000 * 60);           //データ取得のタイムアウト(ms)
        client.setParams(httpParams);

        try {
            // レスポンスを取得
            HttpResponse httpResponse = client.execute(httpGet);
            int status = httpResponse.getStatusLine().getStatusCode();

            if (HttpStatus.SC_OK == status){
                //Content-Typeを取得
                Header[] headers = httpResponse.getHeaders("Content-Type");
                if (headers.length > 0) { 
                    String contentType = "";
                    contentType = headers[0].getValue();
                    if (contentType.contains("text/html")){

                        //HTMLを取得
                        HttpEntity entity = httpResponse.getEntity();
                        if (entity != null){
                            byte[] arr = EntityUtils.toByteArray(entity);
                            
                            //文字エンコーディングを判定
                            String encoding = detectEncoding(arr);
                            if (encoding == null) encoding = findEncoding(entity, arr);
                            
                            //判定されたエンコーディングでバイト配列から文字列に変換
                            result = new String(arr, encoding);
                            
                            //entityのリソースを解放
                            entity.consumeContent();            
                        }
                    }
                }
            }
        
        } catch (ClientProtocolException e) {
            Log.d(TAG, e.getMessage());
        } catch (IOException e) {
            Log.d(TAG, e.getMessage());
        } finally {
            //HTTPクライアントを終了させる
            client.getConnectionManager().shutdown();
        }
        
        return result;
    }


予想もしなかった部分でつまずいた。文字エンコーディングの判別だった。

SDK標準のDefaultHttpClientクラスが上手く処理してくれるのかと思っていたらそうではなく、取得したバイト配列を文字列に変換する部分は自分でやらないと行けない様だ。

最初は自前でResponseヘッダのContent-Typeを見たりmetaタグのcharsetの値を見たりして、なんとか上手く動くようにはなったのだが、それでもたまに表示したタイトルが文字化けしている事があった。なぜだろうと該当のWebページのソースを表示して見ると、metaタグでの指定はEUCなのに実際にはUTF-8でエンコーディングされている、などという様にResponseでの指定内容と実際のエンコーディングが異なっているケースがある事が分かった。

結局、Responseに含まれているエンコーディング指定は完全には信用出来ないのだ。ガーン!

それで色々調べた挙句、「juniversalchardet.jar」というライブラリを利用させてもらう事にした。
juniversalchardet - Java port of universalchardet - Google Project Hosting

juniversalchardet - Javaについて

このライブラリを使っている部分はこんな感じ。
private static String detectEncoding(byte[] arr){
        byte[] buf = new byte[4096];
        ByteArrayInputStream stream = new ByteArrayInputStream(arr);
        UniversalDetector detector = new UniversalDetector(null);

        try {
            int nread;
            while ((nread = stream.read(buf)) > 0 && !detector.isDone()) {
                detector.handleData(buf, 0, nread);
            }
        } catch (IOException e) {
            Log.d(TAG, e.getMessage());
        }
        detector.dataEnd();
        return detector.getDetectedCharset();
    }


2011/06/02 追記:
下のページではjuniversalchardetについて「デコード時の文字コードがEUC-JPだった場合に、判定に失敗する可能性が非常に高い。」と書かれているので、要注意。
エンコード時の文字コードが不明なURLをJavaでデコード | grush-blog




HTMLからタイトルを抜き出す


HTMLが取得出来たら、次は<title>タグの始まりと終わりを探してその間の文字列を抜き出せばOKだ。

正規表現を使えば楽勝だ、と思っていたら、これも意外と手こずってしまった。

単純に
<title>タイトルの文字列</title>
という形になっていれば問題無いのだが、
<title id='aaa'>タイトルの文字列</title>
などの様に開始タグに属性が付いている事もある。

それに、
<title>(改行)
タイトルの(改行)
文字列(改行)
</title>
みたいにtitleタグの中に改行が入っているケースもある。正規表現は行単位に処理される(と思う)ので、開始タグと終了タグの間に改行が入ってしまうと途端に話がややこしくなる。(多分。)

改行については最初に除去してから処理すればいいかと思ってやってみたけれども、そうすると文字列が長い場合に大量にCPUを使って戻って来なくなったりするので簡単には行かなそうだった。

そんなこんなで結局正規表現を使うのは止めて indexOf を駆使(?)して自前で抜き出す事にした。

本当はDOMを操作するライブラリなどを使えばこの辺を簡単にしてくれるメソッドが用意されているのかも知れない。

実際のタイトル抽出部分のコードがどうなったかは、こちらから参照可能だ。javaの達人であればもっとキレイに書けると思うので、ちょっと恥ずかしい。

それから、HTML文字列に数値文字参照(例:&#65374;→ 「〜」)が含まれている場合や、実体参照(例:&gt;→「>」)が含まれている場合もあったので、タイトルを抜き出した後それぞれ変換処理をかませるようにしておいた。

単にHTMLからタイトルを抜き出すだけの処理なのに、結構色々あるものだ。

とここまで書いて今また一つ気付いてしまった。 コメントアウトされたtitleタグへの対応だ。
<!-- <title>コメントアウトされたタイトル</title>-->
<title>抽出して欲しいタイトル</title>
というパターンになっていると今回のコードだとコメントアウトされた方のタイトルを抜き出してしまう。こう言うケースにも対応しようと思うと、やはり何らかのDOMライブラリを使う方がいいのかも知れない。




全ソースと次の目標


今回のソースでHTTP通信の処理は別スレッドで行う様になっている。Androidプログラミングでは必須とも言えるマルチスレッド化については、長くなりそうなので別のエントリで書こうと思う。

ダウンロードはこちらから。
mikehibm/android-browser-intent03 at intent04 - GitHub


AndroidでURLを開く度に自作のアプリを起動する







.

EclipseでAndroidのプログラムを実行しようとして変なxml.outファイルが出来てしまう場合

EclipseでAndroidの開発をしている時にすごく気になる事があった。

CTRL+F11で「実行」のはずが、何も起こらずに、代わりによく見ると変なファイルが出来ているのだ。

エディタでXMLファイルを開いている場合に発生する。

javaのソースを開いている場合は問題ないので、CTRL+F6を押してjavaのソースファイルを開いた状態にしてから実行する様に気を付けていたのだが、急いでいる時はついつい忘れてしまって、不便な事この上ない。

その解決方法が今日やっと見つかった。
C/J Prog's Blog: EclipseでF11を押すとAndroidManifest.xml.outが生成されるときの対処
- EclipseにADT PluginとWTP Pluginをインストールしている
- Androidプロジェクトで作業している
- xmlファイルを開いている
- (Ctrl+)F11を押す

これはEclipse WTPの機能で、xmlファイルに対して Run As > XSL Transformation を実行したことになるため。

以下の設定を変更すればOK。

Window > Preferences > Run/Debug > Launching を開き、
"Always launch the previously launched application' in the 'Launch Operation' section."
のラジオボタンを選択する。

との事。助かりました。

これですっきりした。ww







.