WoLF PSORTについて
概要
WoLF PSORTはアミノ酸配列から蛋白質の細胞内局在部位を予測する。WoLF
PSORTの予測法は、古くなったPSORTIIプログラムの大幅な改良で、既知の局在
化モチーフと、アミノ酸組成にように因果関係は弱いが、局在部位と相関のあ
る特徴に基づいて予測を行なう。WoLF PSORTはPSORTとPSORTIIと同じく、予測結果
以外にも局在化シグナルについて有効な情報を表示するようになっている。
我々の計算実験(論文は準備中)ではWoLF PSORTの予測率は80%を越えている。
特に、数の多い局在部位では、配列上の類似度があまりなくても、WoLF PSORT
から有意義な予測結果が得られるので、BLASTのような配列類似度検索ツール
を補うことができる。
学習データセット
現在使われているデータセットは動物で12,000個以上、植物と真菌類それぞれ
2,000個以上の蛋白質を含んでいる。データセットは主にUniprotを元にして集めたが、
Gene Ontologyから取った、数百個のナズナ(Arabidopsis thaliana)
蛋白質も含まれている。
特徴量
PSORT(中井、金久)、とiPSORT(坂内ら)、の特徴の一部分に、アミノ酸組成や
配列の長さを加えた集合を特徴量の候補として採用している。
分類法
我々が開発したWoLFプログラムで特徴量の選択と
重み付けを行なった後、重み付きkNN法で分類を行なう。つまり、クエ
リ配列を予測する方法は、局在予測用の特徴量から計算した類似度で、データ
セットの中からクエリ配列にもっとも類似したk個の蛋白の局在部位を
参考にして予測を行なう。
開発者
WoLF PSORTは
- CBRCのポール・ホートンと朴 根準
- 東工大の大林 武
- 東大医科研の中井謙太
が共同で開発している。
謝辞
- GOから局在データを抽出するに当たって、太田先生から貴重なアドバイスをいただきました。
- サーバの基本設計はC.J.Collier氏が行なった(ただし、その後の仕様の変更に対する責任は勿論ない...)