2003年[ 技術開発研究助成 ] 成果報告 : 年報第17号

視線追従により手術者の意図を計測し内視鏡術野を提示するシステムの開発

研究責任者

近江 政雄

所属:金沢工業大学 人間情報システム研究所 教授

共同研究者

朝倉 暢彦

所属:金沢工業大学人間情報システム研究所 助手

共同研究者

島田 洋一

所属:金沢工業大学人間情報システム研究所 教授

共同研究者

表 和彦

所属:金沢大学 医学部 助手

共同研究者

麿伊 正義

所属:金沢大学 医学部 教授

概要

1.はじめに
 本研究の目的は、安全で迅速な内視鏡手術を実現するために、手術者の意図に対応した術野を提示するシステムを実現することである1>。そのため、関心のあるところを見るための最も自然な行動が、そこに視線を向けることであるのに着目し、手術者の視線を計測し、それに追従して術野を移動させるシステム、および手術者が視線移動によってグラフィカルインタフェイスを選択して、術野情報を自在に操作するシステムを開発することをめざす。
 これまでの手術ロボットでは、手術者がボイスコントロールやフートスイッチによって術野を移動させている。その結果として、人間にとって自然なインタフェイスになっておらず、手術者の負荷が大きいばかりか誤動作の可能性も大きいことが、手術ロボットによる手術の経験者により指摘されている。また、患部や鉗子の色や形を認識して、術野を自動的に移動させる方法が提案されているが、この方法では画像処理による色や形の認識が必要になるため、システムが複雑になるばかりか、術野移動に遅延が生じることが避けられない2)。
 そこで本研究では、手術者の視線を追従することによって、内視鏡の術野を自動的に移動させるシステムの開発をめざすこととした。そのために、手術者の視線方向を計測するシステムを利用して視線追従システムを制作し、視線追従システムの有効性を検討するための心理物理学実験をおこなった。
2.視線追従システムの製作
 視線方向を計測するシステムとして、ナック社製の瞳孔・角膜反射追跡システム(EMR-8)を利用した。このシステムの原理は、低レベルの赤外光を眼球に照射し、その画像をビデオカメラによって取り込み、取り込んだ画像を画像処理することによって、瞳孔の中心点を求めるものである。それと同時に頭部の運動を計測し、同期ユニットシステムによって瞳孔の中心点の情報と合成して、視線方向の検出をおこなうことができる。その空間分解能は、水平方向640点、垂直方向480点、また時間分解能は、サンプリング周波数30Hzであり、本研究で必要とする仕様を満足するものである。
 瞳孔・角膜反射追跡システムによって計測された視線方向データを、シリアルインタフェイスを介してコンピュータに取り込み、その方向に応じてコンピュータのディスプレイ上に表示されたポインタを移動させる視線追従ソフトウエアを開発した。視線追従ソフトウエアは、本研究における視線に追従して術野を移動させるためのソフトウエアの基本をなすものであり、将来の拡張性を考慮して、もっとも普遍的な環境であるWindows980S上のVisualC++によって開発した。本研究で開発した視線追従システムは、ハードウエアとしての瞳孔・角膜反射追跡システムと視線追跡ソフトウエアによって構成されるものである。
3.視線追従システムの有効性の検討
 開発した視線追従システムの有効性を検討するために、そのアプリケーションとして、コンピュータディスプレイ上に描画されたキーボードをユーザの視線方向によって選択して、文字を入力するシステムに視線追従システムを応用してみた3)・4)。視線追従による文字入力システムにおいてはユーザの意図が明確であるため、視線追従システムの有効性を定量的に評価することが容易であると考えられる。したがって、視線に追従して術野を移動させるシステムの開発用プロトタイプとして、最適なものであると考えることができる。また、すでに視線追従による文字入力システムは、ユニバーサルインタフェイスの一環として、上肢によるキーボード入力が困難なユーザのために開発され、様々なタイプのものがすでに市販もされているが、その一方でその有効性の検討が必ずしも十分でないというきらいがあり、心理物理学実験をおこなう必要性がある。
3.1視線追従によるインタフェイスの問題点
 市販されている視線追従による文字入力システムにおいて文字を入力する方式としては、走査選択方式と直接選択方式という二っの方式がある。走査選択方式は、画面に表示されたキーボードの選択可能な文字を示すマーカーを一定速度で移動させ、目的の文字の位置にマーカーがきたときに、瞬きなどのキュー入力をおこなって文字を選択する方法である。文字の入力速度は遅いが、重度の障害をもつユーザにも使用できる入力方式である5)。
 直接選択方式は、キーボードを画面に表示し、ユーザが視線を向け、瞬きなどのキュー入力をおこなって、キーを選択する方式である。走査選択方式にくらべてインタフェースが自然であり、文字入力速度も速いが、配置できるキーの数は視線検出の精度によって制限される。視線検出の精度は、眼球運動計測装置の確度と精度という装置側の要因と、眼球運動の確度と精度、また注視しているときの微少眼球運動などの人間側の要因によって決定される。確度と精度が最も高い眼球運動計測装置を使用し、眼球運動実験や心理物理学実験に熟練した被験者を採用した場合では、画面上に45~66個のキーを配置できることが知られている。
 もちろんこれでも、通常のキーボードにくらべてキーの数は少ない。さらに、このような確度と精度が高い眼球運動測定装置は高価であるばかりでなく、その使い勝手がいちじるしく悪い。被験者の頭部および身体の固定、眼球運動の校正に要する長い時間、ないしは麻酔剤や散瞳剤の投与など、実験心理学教室における動機が高い被験者を対象とした眼球運動実験や心理物理学実験においてのみ使用可能な装置であり、現実に視線追従による文字入力システムとして使用することは出来ない。視線追従により手術者の意図を計測し内視鏡術野を提示するシステムについても事情は全く同じであり、手術の実施に影響を与えないように、簡便な眼球運動計測装置を使用して手術者の視線の方向を計測することがシステム開発の必要条件である。本研究で使用したナック社製の瞳孔・角膜反射追跡システムは、その条件を満足するものである。
 文字入カシステムにおいて簡便な眼球運動計測装置を使用すれば、必然的に視線検出の確度と精度が低くなって、配置できるキーの数が少なくなる。市販されている文字入力システムの画面キーボードでは、10個強のキーしか配置されていない。視線追従による内視鏡術野提示システムでは、手術者は患部の状況や手術の進行具合に応じて、内視鏡映像をズームインして患部の詳細を観察したり、ズームアウトして患部周辺の状況を観察したりする必要が生じる。また、関心のある部分をきわだたせるために内視鏡映像のコントラスト、明るさ、色調などを変化させたり、映像の一部にぼけやモザイクなどの処理を加えることを望む場合も生じる。これらの意図を伝えるためのインタフェイスが、手術者が画面上に設けられたボタンを注視することである。そのために使用することができるボタンの数は、文字入力システムの画面キーボードにおけるキーの場合と同様、10個強程度に制限されるのは、いうまでもない。 したがって、視線追従による内視鏡術野提示システムの開発にあたっては、ボタンの配列や入力方法などを工夫する必要がある。しかしながら、その基礎データを与えることが期待される視線追従による文字入力システムにおいて、有効なキー配列についての定量的な検討がほとんどおこなわれていない。そこで本研究では、制作した視線追従システムを視線追従による文字入力システムに使用して、最適キーボード配列を決定するための心理物理学実験をおこなった。
3.2視線追従による文字入力システムの有効性の評価
 キーの数が制限された場合のキーボード配置や文字入力方法に関しては、近年急激に一般社会に広まった携帯電話や個人用情報端末(PDA)などの片手キーボードにおける一本指による文字入力を対象とした研究がおこなわれている。本研究では、片手キーボードとしてひろく用いられている三通りの方式にもとついて、文字入力用の画面キーボードを制作し、その有効性を検討した。
 それぞれの画面キーボードは、もととなった片手キーボードにちなんで命名した。それぞれの片手キーボードの特徴は以下の通りである。
 (1)F入力方式は、携帯電話などの小型の携帯端末用に作成されたローマ字入力の方式である。15個のキーを3列5段の配列で使用する。中央の列に母音を配置し、左列に子音の「L」「KG」「SCZJ」「T」「HFBV」を、右列に子音の「N」「MX」「YQ」「R」「w」を配置しており、子音はほぼ「あかさたな」順に並んでいる。濁音と半濁音は清音キーを2回押して入力する。
 (2)CK入力方式は、PDA、携帯電話、ラベルライターなどの片手キーボード用に作成されたローマ字入力の方式である。12個のキーを3列4段の配列で使用する。上の2段に母音、下の2段に子音を配置し、「K」と「G」、「S」と「Z」のように清音の隣に濁音や半濁音を配置している。
 (3)T9入力方式は、現在の携帯電話でもっともよく用いられている、かな入力の方式である。12個のキーを3列4段の配列で使用する。一つのキーに各行の文字全てを配置し、上段は「あ」行から「な」行を、中段は「は」行から「わ」行を、下段に句読点と撲音をキーが並んでいる。望みの文字を入力するためには同じキーを連続して押すことが必要となる方式であり、別名かなめくり方式ともよばれる。
 ひらがな30文字により構成される10種類の例文を使用し、それぞれの文章を各画面キーボードで入力させ、入力し終わるまでの所要時間と、入力時に生じたエラー数を測定した。これらの例文を入力するための最小打鍵数の平均は、F画面キーボードで64.0回、CK画面キーボードで61.8回、T9画面キーボードで94.0回であった。被験者は、23歳から25歳の健常男性4名を採用した。十分な練習をおこなって、被験者にはそれぞれの画面キーボードに十分に慣れさせた。
 それぞれの画面キーボードについて、例文を入力する速度の被験者間平均および標準誤差を図1に示す。CK画面キーボードの入力速度が速い傾向が見られる。CK画面キーボードと、F画面キーボードおよびT9画面キーボードの入力速度の間には、危険率1%で統計的に有意な差がみられた。
 それぞれの画面キーボードについて、入カエラー率の被験者間平均および標準誤差を図2に示す。すべての画面キーボードの間で、エラー率に統計的に有意な差はみられなかった。
 全体的にエラー率は8%程度であり、これは決して無視できない大きさである。被験者の眼球運動の記録から、エラーの原因を調べたところ、3通りのものに分類できることがわかった。それらは、
 (1)カーソルずれ、すなわり注視しているキーとカーソルの位置がずれることによって発生するもの
 (2)フィードバック不足、すなわち入力時のフィードバックが弱いため、キーを押したことに気づかないことによって発生するもの
(3)勘違い、すなわち被験者が入力文章を勘違いしたために発生するもの
であった。これらのなかで、カーソルずれが原因で発生するエラーが68.1%、フィードバック不足が原因で発生するものが19.6%、勘違いによるものが12.3%であった。
 CK画面キーボードは入力速度が最も速かったので、視線追従による文字入力システムに最も適した画面キーボードであると考えられる。CK画面キーボードにおいては、母音が1つの行に横一列に配置されていること、また子音が「あかさたな順」に配置されていること、さらに清音と濁音・半濁音が同一キーに配置してあることが、ユーザにとって使いやすかった原因であると思われる。
3.3作業モデルによる評価
 それぞれの画面キーボードを操作しているときの被験者の情報処理過程を、作業モデルによって評価した。作業モデルとして、情報処理過程は眼球運動と判断から構成されると考えた。キーを見るときの眼球運動は、サッカードと停留からなる。これらの時間は眼球運動の特性によって決定されており、一回の眼球運動あたり約250msであることが知られている6)。被験者は、瞬きによってキーを選択したあと、表示の変化の知覚、入力文字が記号か母音か子音かの判断、入力文字が目的の文字かの判断などに時間を要する。これら判断に要した時間を同定することは困難であり、入カ所要時間から眼球運動に要した時間を引くことによって推定することにした。
 実験中の眼球運動の記録から、それぞれの試行ごとにサソカードの回数を数えて眼球運動に要した時間をもとめ、ついで判断に要した時間を計算によりもとめた。それぞれの画面キーボードについて、眼球運動に要した時間と判断に要した時間の平均値を図3に示す。眼球運動に要した時間が最も短いのはT9画面キーボードであり、ついでCK画面キーボードが短く、F画面キーボードが最も長くなった。一一方、判断に要した時間が最も短いのはCK画面
キーボードであり、ついでF画面キーボードが短く、T9画面キーボードが最も長くなった。
 T9画面キーボードで判断に要した時間が長かったのは、T9画面キーボードの認知負荷が重かったことを意味する。その一つの原因として、長時間の注視による眼の疲労の影響が挙げられる。T9画面キーボードは、ほぼ全てのキーに5文字を配置している。そのため、目的の文字を入力するために、連続してキーを押す必要が生じ、長い時間一ヶ所を注視しつづけることが多くなる。この長時間の注視が眼の疲労を引き起こしたのではないかと考えられる。実際に、被験者の内観によれば、T9画面キーボードを使用した場合には疲労が大きかったことが報告された。
 CK画面キーボードにおいても、ほぼ全てのキーに複数の文字が配置されているが、キーの配置は文字の使用頻度をもとついており、しかも1つのキーに最大3文字までしか配置されていない。そのため、眼の疲労が軽減され、認知負荷が軽減されたたものと考えられる。
4.手術者が術野情報を操作するシステムの画面表示
 視線追従による内視鏡術野を提示するシステムでは、術野が提示されているモニター画面上の一部にグラフィカルインタフェイスであるボタンを提示して、手術者の視線からその意図を計測する。手術者は、ボタンに視線を向けることによって、術野情報を自在に操作することができる。
 視線追従による文字入力システムの有効性についての心理物理学実験の結果から、キーボード配列の重要性が明らかになった。特に、スキャンパスを短くして眼球運動に要する時間を短くするよりも、認知負荷を少なくすることのほうが、視線追従による文字入力システムの有効性の向上に貢献することがしめされた。認知負荷にあたえる影響を少なくするためには、同一のボタンに複数の機能をもたせる場合には使用頻度を考慮すること、および視覚疲労を軽減するために同じボタンの長時間の注視をさけることが必要であることが明らかになった。
 これらの実験結果をふまえて設計した、視線追従によって内視鏡術野を提示するシステムにおける術野呈示画面におけるボタン配列の一例を図4に示す。視線追従による内視鏡術野提示システムで必要と考えられる、コントラスト・明るさ・色調の変化を左側に、ズーム・モザイク処理・ぼけ処理のボタンを右側に配置した。
実験室でのアンケート調査による主観評価では、図4に示されているような、ボタンの使用頻度を考慮し、同じボタンの長時間の注視をさけたボタン配列の評価が高かった。
5.まとめ
 眼球運動計測装置を利用して、視線追従により手術者の意図を計測し内視鏡術野を提示するシステムの開発をすすめた。とくに、術野情報を操作するためのインタフェイスの設計に重点をおき、制作した視線追従システムをユーザの意図が明確な視線追従による文字入力システムとして用いて、画面キーボード配列のユーザビリティに影響する要因を検討し、認知負荷を軽減させることの重要性を明らかにした。その結果を、視線追従による内視鏡術野呈示システムのインタフェイスに適用してボタン配列を設計し、そのユーザビリティが良いことを確認した。今後は、実際の手術現場において、開発したシステムによる作業の効率やユーザビリティについての心理物理学実験をおこなって、手術者の視線の方向に応じて内視鏡映像を提示するシステムを完成させていく。