手術映像を基に外科医の動作を解析する
Vision Transformerモデル

手術中の映像から外科医の動作を抽出・解析するAIシステム「SAIS(Surgical AI System)」の開発と性能評価を報告した論文です。

A vision transformer for decoding surgeon activity from surgical videos

https://doi.org/10.1038/s41551-023-01010-8

手術支援
手術支援

要 旨

術中における外科医の操作は、術後転帰に大きな影響を及ぼします。しかしながら、多くの外科手技において、術中操作の詳細は多様性が大きく、十分に理解されていないのが現状です。本研究では、ロボット支援手術中に一般的に収集される術野映像から、術中の外科的行動の要素を解読するために、Vision Transformer(視覚変換器)と教師ありコントラスト学習を活用した機械学習システムを構築しました。このシステムでは、以下の要素を高精度で識別することが可能です:
-手術のステップ(サブフェーズ)
-外科医が実行した個々のアクション
-それらのアクションの質的評価
-各映像フレームがアクション解読に寄与する程度(寄与度)
本モデルは、米国と欧州の3つの病院から収集されたデータに基づいて広範な検証を行い、手術映像・術者・施設・手技の違いを超えて汎化可能であることを示しました。さらに、未注釈の術中映像からも、外科技(ジェスチャー)やスキルに関する有用な情報を抽出できることが確認されました。このように、術中行動を高精度に解読可能な機械学習システムは、外科医への技能フィードバックの提供、最適な外科的行動の特定、さらには術中因子と術後転帰の関連解析といった応用が期待されます。

The intraoperative activity of a surgeon has substantial impact on postoperative outcomes. However, for most surgical procedures, the details of intraoperative surgical actions, which can vary widely, are not well understood. Here we report a machine learning system leveraging a vision transformer and supervised contrastive learning for the decoding of elements of intraoperative surgical activity from videos commonly collected during robotic surgeries. The system accurately identified surgical steps, actions performed by the surgeon, the quality of these actions and the relative contribution of individual video frames to the decoding of the actions. Through extensive testing on data from three different hospitals located in two different continents, we show that the system generalizes across videos, surgeons, hospitals and surgical procedures, and that it can provide information on surgical gestures and skills from unannotated videos. Decoding intraoperative activity via accurate machine learning systems could be used to provide surgeons with feedback on their operating skills, and may allow for the identification of optimal surgical behaviour and for the study of relationships between intraoperative factors and postoperative outcomes.