(原标题:登上Nature却被打脸?LeCun对谷歌乳腺癌研讨泼冷水:NYU早有更好作用)
不久前,谷歌关于 AI 确诊乳腺癌的研讨登上了 Nature 杂志。这项研讨取得多方赞誉的一起遭到了 Yann LeCun 等研讨者的批评。Yann LeCun 等表明说,NYU 有一项相似的研讨,时刻更早、作用更好。
医疗是 AI 技能进入最深的范畴之一,人们期望 AI 能够在必定程度上协助医师更早、更精确地确诊病况,现在正在研讨的病种包含癌症、心脑血管疾病、眼部疾病等。早在2017 年,谷歌的DeepMind就宣告开端向乳腺癌建议应战。
近来,谷歌宣告,这一项目取得了重大进展:谷歌研制的乳腺癌检测深度学习模型打败了 6 名全日制放射科医师。
研讨的全体流程一览。
谷歌这次揭露的研讨是一种新式的深度学习钼靶印象体系(钼靶筛查是乳腺癌筛查的「金规范」)。与之前的模型比较,该模型有用减少了乳腺癌被过错辨认或遗失的状况,将乳腺癌检测的假阳性率降低了 5.7%,假阴性率也降低了 9.4%。
此外,该模型的泛化才能也十分强壮。尽管练习数据多为西方人,但却能够大范围的应用于我国人群,这点在医疗 AI 模型中十分难能可贵。
因为表现出色,这一作用很快就登上了《Nature》,并引发了很多重视。
但与许多高调官宣的研讨相同,这项作用也未能逃脱被质疑的命运。在 Twitter 上,Yann LeCun 等几位大佬现已就此问题吵得没法解开。
DeepMind高调官宣,LeCun 泼冷水
人在新年,刚发 Nature。DeempMind 创始人、这篇论文的作者之一 Hassabis 心境好到飞起。在DeepMind推特账号高调官宣之际,Hassabis 也发文力推,称「这是新一年一个很棒的开端!」
但没成想,一盆冷水很快就泼了过来。深度学习三巨子之一的 Yann LeCun 表明,这篇论文取得的作用 NYU 团队在之前现已做过了。
LeCun 表明,谷歌应当引证 NYU 的研讨,因为这个研讨作用还更好。LeCun 在谈论中留下了开源地址。
对此,Hassabis 不以为然,他表明,「咱们引证了这篇论文啊。LeCun 应该先读了论文再宣布愤恨的言辞。」
LeCun 则表明晰自己第一次读论文的时分看漏了引证。
固然,这或许仅仅一次小的误解。可是 LeCun 转发了另一位研讨者对这篇论文的点评,这就很耐人寻味了。
在这个谈论中,Hardian Health 的办理总监,具有放射科医学经历和 AI 经历的 Hugh Harvey 表明,上一年的 NYU 论文具有更好的作用、更多的数据验证、和更多的人类放射科医师进行了比照,一起代码和数据都是开源的。
Hugh Harvey 说到的这篇论文宣布于上一年 10 月份,该论文与谷歌的论文比照如下:
· 谷歌的研讨中触及 6 位放射科医师,NYU 的研讨用到了 14 位;
· 谷歌论文陈述的 AUC 是 0.889(UK)和 0.8107(US),NYU 的 AUC 作用为 0.895。
因而,这位研讨者断语,谷歌仅仅 PR 才能更强算了。
Yann LeCun 扒出来的 NYU 论文引起了一些研讨者的留意。通过比照,不少研讨者表明,谷歌的研讨确实存在一些问题。
纯属 PR,不能复现?
关于谷歌和DeepMind论文中的乳腺癌检测深度学习模型,专心于神经科学大数据分析的 Danilo Bzdok 教授宣布了自己的定见。他以为练习该模型所运用的代码过多地依靠谷歌的内部东西、根底设施和硬件,因而它是不可行的。
关于 Danilo Bzdok 的这种观念,谈论者也纷纷表明附和。有人急进地表明,这篇论文就不应该宣布出来。
也有人说,假如研讨中运用的模型无法复现,则应该保密不予宣布。谷歌揭露论文是为实时搜集用户的健康数据奠定根底,因为他们的软件只能在自己的根底设施上运转。除此之外,谷歌至少应该揭露练习过的模型。
别的,还有人表明晰自己仅仅将此看作一个未能实现研讨作用的科研项目算了,谷歌要么开源研讨中运用到的东西,要么运用那些揭露可用的东西。换言之,一项研讨理应供给能够复现试验的东西,不然就不能称之为科研制现。
会读片并不代表会治病
其实早在论文宣布的第一时刻,reddit 和 hackernews 等交际平台上就现已呈现了相关的评论,放射科医师也参加了进来。
一位放射科医师表明,其实,乳腺癌确实诊是一个十分复杂的进程,不仅仅读 X 光片那么简略。比较之下,读 X 光片或许仅仅很多确诊过程中的第一步。
其次,就乳腺癌检测而言,X 光查看作用其实并没那么精确,要想取得精确的查看作用,还要进行进一步的 B 超、核磁共振等查看。
所以,归纳来看,深度学习在医疗筛查、确诊方面的精确性逐渐的提高是一件功德,也是医师脍炙人口的,可是「AI 打败/替代人类医师」这种论调实在是不可取。
当下的医疗 AI 创业公司也多是声称能够辅佐医师,协助医师分管一些作业,而因为泛化功能差、稳健性差、数据存在成见、医疗仪器标准纷歧等种种问题的存在,「辅佐」这一人物做好都姑且困难重重,「打败」、「替代」的说法更是无从谈起。
谷歌论文:https:///articles/s41586-019-1799-6
NYU 论文:https://ieeexplore.ieee.org/document/8861376