[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]

[nikomat:07591] Re: Stereo Photos



よしだ です。

# MLと 離れちゃっているが 良いのだろうか??

In message <199709110929.SAA09426@yomogi>
   "[nikomat:07587] Re: Stereo Photos "
   "HIURA Shinsaku <shinsaku@vision.kuee.kyoto-u.ac.jp>" wrote:
 > 画像を単なる輝度値を持った画素の集合と考えて、特徴抽出 --> 統計的判別・
 > 分類というのは文字認識などで昔から行われていますが、三次元的な(本来
 > 幾何学的/光学的制約があるにもかかわらず、それを無視して)画像に適用
 > して結果を得ようとする考え方はわりと新しい流れと言えます。

# こうなると兄者の出番でしょうが、機械学習屋の眼で見ちゃうと 2次元
# → 三次元 の処には、それほど魅力ある研究テーマは無いです。と言うよ
# り2次元で片付いていない問題が まだ沢山あると思ってます。

この統計的判別というものが かなり曲者で、統計って 同じパラメータ空間内に
あることが前提ですから、あくまでも変数(同志)の評価。
ところが 情報は 構造×変数 ですので、構造を無視した統計の運用だと かなりの
情報が取りこぼされてしまいます。

# 構造と変数を 同時に扱うものとして GPは侮れないです。

 > つまり、言語のようなコミュニケーションの手段では、その多義性は
 > ある程度小さい場合もあるが、画像のような知覚に関する領域では、
 > 上記のような画像の意味的構造の曖昧性というのは、結局、認識する
 > 主体そのものの定義/曖昧性を片付けてからでないと論じることは出
 > 来ないということです。
 >
 > というわけで、画像屋ではこういうボトムアップ的記述獲得は、
 > (さも人間が行っているかのように思えますが)実はそんなもの、
 > 人間もやってない、定義もでけん、と考えられていると思います。
 > 人間にとっても、世界を見てるような気になってますが、実際は
 > 見たいところしか見えてなくって、見てないものは目に入ってても
 > 見えてないというのが実際のところで、これは心理学的にも
 > ある程度妥当なのではないでしょうか。

そう。だから画像のほうが 研究者は 初めから諦めが良かった。:-)
眼と ITVのセンサー構造が そもそも違ってたから、データ処理において
かならずしも 人間を模倣しようとは思わなかった。一番原始的な例が 2値
化。人間と共通しているっぽいと思われる限度が ハイパス〜FFTの間や
アフィン変換。ハフ変換まで来ると、人間の認識のし易さよりも、コンピュ
ータでの処理のし易さが全面に出ている。

ところが、自然言語の人達は なまじパーザーとかは簡単に準備でちゃった
から、諦めが悪かった。計算機資源さえあれば。。。ってね。

 > 決して論文が書けないから逃げてきてるわけじゃないんですね。
 > 人間の記述を規範においたタスクグローバルな環境認識/記述手段の
 > 提供なんて、ロボット屋が鉄腕アトム作るって言うぐらい難しいです。

いや、全員が逃げていると言っているわけではないです。画像認識をやって
いる研究者の中に、実社会でのニーズが高いのに そこを追求している人が
居ないというのは、知ってて&興味を持っていながら 逃げているとしか思
えないです。しかも その実用分野を扱っていたりするし。。。

# もしくは そこに気付かないほど アホなのか? それは あるまい。
# 松山先生は気付いている。6年前のJSAIの松山論文が物議をかもし
# 出したけど、あそこで松山先生にイチャモン付けた人達こそ、足元を
# 見てないと思った。

 > > ただし、インダクションにより得られる概念構造は、そこで用いる抽象化手法の
 > > クライテリアに大きく依存します。だから、このクライテリアを 人間と同じよう
 > > にすれば良いのだけど、人間がどんなクライテリア使っているかなんか分かるわ
 > > けが無い。このクライテリアもまた インダクションの対象かもしれない。
 > 
 > のように人間を主体と考えた研究はまだまだなかなか難しいのではないか
 > と思います。もう少し簡単なタスクで頑張ってるというのが現状でしょう。

言語の機械翻訳、特に自然な会話でなく 新聞や 論文に限って言えば(つまり
会話者同志に 共通の文化や経験があるという前提が少なくて良いような会話
であれば)、そしてゴールを「そこそこの翻訳者」程度に限れば、更に同一
の領域の会話に限れば、このクライテリア(概念構造の生成&併合&分裂を決
定するための評価規範)の 補完&生成は 難しくないと思います。

 > #しかし、ここまで夢のある展開をなさるとは、やっぱ よしださん
 > #大学向きなんじゃないですか????

夢っていうと 遠い気もしますが、もう5年くらいの計画だけは立ってます。
私の中では これ やらせてくれるなら、 画像認識にも言語翻訳にも有用な
モノを作れると思ってます。言語翻訳のほうは A言語→B言語への片側通行
までんの「概念構造のなぞらえ」まで 実現が 見えてます。これは第3or4
フェーズくらいなので、5〜6年あれば 現実性を示せるだろうなぁ。第2
フェーズが EBL。第一フェーズが問題なのだ!(実は 会社でこっそり
やり出している ^^;;)

# やりたいこと全てやるには 残りの人生短すぎますね。^^;;


------
 吉田幸司  Dr.Eng. 1960.03.26生♂ Rh+O   (株)ニコン
    e-mail:yd@nikongw.nikon.co.jp        半導体露光装置第3設計部
    tel:03-3773-8502                            第3システムGr.
    fax:03-3775-9042                            知能システムR&D室