[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[nikomat:07587] Re: Stereo Photos

To: nikomat@inolab.sys.es.osaka-u.ac.jp
Subject: [nikomat:07587] Re: Stereo Photos
From: HIURA Shinsaku <shinsaku@vision.kuee.kyoto-u.ac.jp>
Date: Thu, 11 Sep 1997 18:29:53 +0900
In-reply-to: Your message of "Thu, 11 Sep 1997 16:49:48 JST." <199709110749.QAA00286@nikongw.nikon.co.jp>
Reply-To: nikomat@inolab.sys.es.osaka-u.ac.jp

ひうらです。

よしださん：
> (1) 文法という不完全（例外が有るんだから 公理系でも 理論でもない）
>     な規則に縛られて パーザー命で 変換だけを やってきた。
>     大規模な辞書ができれば可能と信じてきた。
>     ＩＣＯＴ＆ＪＩＰＤＥＣ で 夢やぶれた。
> (2) 文章の表層だけを追う コーパスが大流行。
> という流れになってますよね？
> 
> 画像認識の場合、最初から (2)です。(1)が存在してなかったせいだと思います。
> しかし、(2)以上のことをしようとするなら、やはり 表層的情報（外延）からの
> セマンティクス(内包)のインダクションが必要になると思います。

画像の分野ではこういう意味的な部分よりも、まず画像の持つ幾何学的／光学
的性質からの解析が中心だったので、それが (1) の文法規則に相当するのだ
ろうと考えてもよいかもしれません。
（僕とか、ステレオビジョン研究は、こういう領域）

画像を単なる輝度値を持った画素の集合と考えて、特徴抽出 --> 統計的判別・
分類というのは文字認識などで昔から行われていますが、三次元的な（本来
幾何学的／光学的制約があるにもかかわらず、それを無視して）画像に適用
して結果を得ようとする考え方はわりと新しい流れと言えます。

> こうなると、画像の場合、とっかかりになる「（人間が認識する画像情報の意味
> 的）構造」が曖昧すぎて、結構大変。今の画像認識の研究者は皆 これを避けて
> ます（と、私は思う）。＃ まぁ さっさと論文書かなきゃいけないから仕方ないか。

60年代／70年代は、真面目に画像からボトムアップに世界の記述を得ようと
夢見られ、研究がされてましたが、結局

○画像中に存在する物理的実体と、人間の考えるその記述の関係は、
  は、人間という主体抜きでは考えることは出来ない

○上記の関係は、人間や機械が行おうとするタスクによって変化する。
  つまり最終的に得るべき記述は様々に変化し、多義性がある。
  その多義的記述を全て抽出することは情報量／処理的に困難
  また正解の定義も出来ない

ということになります。つまりタスクを指向した処理が必要であり、
上記のような曖昧性に正面切って立ち向かうのはそもそもおかしい
（人間だって、運転するときは車の動きや場所を重視して色には意識
  を払わないのに、信号機は色が重要であるとかいうふうに、必要な
  部分の情報だけを必要なタスクにしたがって抽出しているという考
  え方が主流になってきた）。

つまり、言語のようなコミュニケーションの手段では、その多義性は
ある程度小さい場合もあるが、画像のような知覚に関する領域では、
上記のような画像の意味的構造の曖昧性というのは、結局、認識する
主体そのものの定義／曖昧性を片付けてからでないと論じることは出
来ないということです。

というわけで、画像屋ではこういうボトムアップ的記述獲得は、
（さも人間が行っているかのように思えますが）実はそんなもの、
人間もやってない、定義もでけん、と考えられていると思います。
人間にとっても、世界を見てるような気になってますが、実際は
見たいところしか見えてなくって、見てないものは目に入ってても
見えてないというのが実際のところで、これは心理学的にも
ある程度妥当なのではないでしょうか。

逆に言えば、画像に内包されているかに見える意味性というのは
実は存在してなくて、結局その情報を得たいと思うことにより
発生するものであるわけです。結局知覚器官の本質なのですが。

---------
で、研究者は何をやってきたかというと、長らく幾何学的／光学的解析
による形状や反射率などの物理的「計測」が中心的な研究でした。
もしくは、task-specific な認識として、先の医用画像処理や文字認識
が行われてきたわけです。僕は前者の研究っすね。計測ですから。

決して論文が書けないから逃げてきてるわけじゃないんですね。
人間の記述を規範においたタスクグローバルな環境認識／記述手段の
提供なんて、ロボット屋が鉄腕アトム作るって言うぐらい難しいです。

しかし、次第に計測技術も認識技術も進歩してきましたから、これから
よしださんのおっしゃるような複雑な概念構造を持った認識というもの
に取り組んでいく必要があるのはまさにおっしゃる通りでしょう。

しかしそれをやろうとすると、概念構造の定義のためにはそれを意味付け
るタスクが必要になり、適切な（＝適度な複雑さを持った）タスクを探す
必要はあるでしょうね。究極は人間のように「生きる」というタスクかも
しれませんが、これはまだまだ無理でしょう。

というわけで、

> ただし、インダクションにより得られる概念構造は、そこで用いる抽象化手法の
> クライテリアに大きく依存します。だから、このクライテリアを 人間と同じよう
> にすれば良いのだけど、人間がどんなクライテリア使っているかなんか分かるわ
> けが無い。このクライテリアもまた インダクションの対象かもしれない。

のように人間を主体と考えた研究はまだまだなかなか難しいのではないか
と思います。もう少し簡単なタスクで頑張ってるというのが現状でしょう。

＃しかし、ここまで夢のある展開をなさるとは、やっぱ よしださん
＃大学向きなんじゃないですか？？？？

------------------------------------------------------
で・・・

> となりの先生との話によれば、どの程度の「知識」を持ち込んでいいかの
> 基準が純粋な光学屋さんと違うのだそうで、何を使ってもいい私の分野では、
> どのように辞書を作るかというテーマもあります。

高次の知識としてどのようなものを想定しておられるのか分かりませんが、
計測をやってきたので、ステレオならではの利点をどう生かすのか、とか
いわゆる三次元的な情報の構築の部分はすこしは手伝えると思います。

Follow-Ups:
- [nikomat:07591] Re: Stereo Photos
  - From: Koji YOSHIDA <yd@nikongw.nikon.co.jp>

References:
- [nikomat:07569] Re: Stereo Photos
  - From: Koji YOSHIDA <yd@nikongw.nikon.co.jp>

Prev by Date: [nikomat:07588] Butsuri Gakkai deno Meeting
Next by Date: [nikomat:07590] Reregist member.
Prev by thread: [nikomat:07577] Induction
Next by thread: [nikomat:07591] Re: Stereo Photos
Index(es):
- Date
- Thread