撰文 | 微胖
中國有多少家法律 AI 創(chuàng)業(yè)公司?
總數(shù),恐怕還不足一個微信群成員上限的十分之一。
翻開斯坦福大學(xué)的百年人工智能報告,目錄中也看不到法律這個垂直細(xì)分領(lǐng)域。
有一百個邁向這個領(lǐng)域的動力,也有一百個放棄的理由:
論蛋糕大小,遠(yuǎn)不及出行、醫(yī)療、安防、金融等領(lǐng)域。
論產(chǎn)品的革命性與戰(zhàn)略性意義,可能不及虛擬語音助手和人工智能芯片。
所以在這個領(lǐng)域,你看不到流連于熱門細(xì)分領(lǐng)域的頂級資本。
然而,創(chuàng)業(yè)者們要解決問題的難度,卻絲毫不亞于熱門細(xì)分領(lǐng)域,甚至可以說難度更大,但人才所能獲得的回報遠(yuǎn)不及巨頭開出的價碼。
一些國內(nèi)大型法律科技公司相關(guān)業(yè)務(wù)負(fù)責(zé)人曾告訴筆者,在吸引非常優(yōu)質(zhì)的 NLP 人才方面,他們根本不是巨頭和明星獨(dú)角獸公司的對手。
所以,當(dāng)你發(fā)現(xiàn)法律人使用的搜索工具還停留在連 20 年前的谷歌時代時,也就不足為奇了。
不過最近,一家成立不久的法律 AI 創(chuàng)業(yè)公司冪律智能入駐清華科技園的創(chuàng)業(yè)大廈。這家由清華大學(xué)人工智能博士創(chuàng)立的公司想要用先進(jìn)的自然語言處理技術(shù)改變法律服務(wù)。
公司創(chuàng)始人、CEO 涂存超(左),清華大學(xué)劉知遠(yuǎn)教授(右)
一、為什么是法律?
今年三月,冪律獲得近千萬元天使輪融資。公司創(chuàng)始人涂存超是清華大學(xué)計算機(jī)系人工智能所應(yīng)屆博士研究生,和他一同創(chuàng)業(yè)的張?zhí)鞊P(yáng)是他的本科同學(xué),同樣剛剛拿到清華計算機(jī)系的博士學(xué)位。
「我做社交網(wǎng)絡(luò)數(shù)據(jù)挖掘,涂存超之前也做一些 network embedding 的工作!箯?zhí)鞊P(yáng)介紹道。
公司聯(lián)合創(chuàng)始人張?zhí)鞊P(yáng)
涂存超最初的想法很樸素:學(xué)以致用,希望能夠通過博士期間所學(xué)真正去改變一個領(lǐng)域,而不是在一個大公司里扮演著螺絲釘?shù)慕巧?/span>
最開始,他們也考慮了一些熱門的領(lǐng)域,比如金融、醫(yī)療、教育等行業(yè),但后來發(fā)現(xiàn)這些行業(yè)的數(shù)據(jù)壁壘比較嚴(yán)重。
「如果做醫(yī)療,你必須得跟某個醫(yī)院合作才能拿到數(shù)據(jù),這可能需要比較多的社會的資源!箤τ趶谋究埔恢弊x到博士,沒有太多社會資源的創(chuàng)業(yè)者來說,這個難度確實比較大。
一次偶然的機(jī)會,跟律師界朋友聊了后,他們發(fā)現(xiàn)法律行業(yè)是一個特別重文本的行業(yè),而且文本質(zhì)量特別高。
事實上,全國諸多法院在經(jīng)過 20 年的信息化建設(shè)后,流程數(shù)據(jù)、證據(jù)數(shù)據(jù)、文書數(shù)據(jù)、檔案數(shù)據(jù)等都比較完整。
特別是,中國裁判文書網(wǎng)上的幾千萬裁判文書都是公開的。
「與其它垂直領(lǐng)域相比,這些都是非常好的文本信息,質(zhì)量非常高,都是法官寫的,表述更加嚴(yán)謹(jǐn)規(guī)范,而且數(shù)量足夠大。每個文書都有非常詳細(xì)的標(biāo)注。比如,涉及哪些法條、犯哪些罪、量刑結(jié)果是什么、什么時間、發(fā)生的地域、法官是誰、代理律師是誰?這些標(biāo)注信息以及眾多的場景非常適合 NLP 技術(shù)的落地!涂存超說,
除了這些案例文書,法律領(lǐng)域還擁有法律法規(guī)、法學(xué)文獻(xiàn)、合同協(xié)議等豐富的文本數(shù)據(jù),這些數(shù)據(jù)也為法律智能提供了豐富的應(yīng)用場景。
「我們很務(wù)實,覺得這個方向前景很好,而且堅信技術(shù)一定能夠在這個方向發(fā)揮重要作用,所以立馬開始這個方向的調(diào)研、技術(shù)開發(fā)和嘗試。在抓取了幾千萬份數(shù)據(jù)后,我們首先做了一個智能檢索引擎!箯?zhí)鞊P(yáng)說。
至于為什么首先做搜索,一方面,檢索是基礎(chǔ)性工具,是法律行業(yè)初級從業(yè)者的基礎(chǔ)性需求;另一方面,現(xiàn)有的法律搜索已經(jīng)和百度、谷歌存在非常明顯的技術(shù)代差。
用戶已經(jīng)習(xí)慣了通用領(lǐng)域的基于語義理解的檢索方式,在百度或谷歌里檢索大段文本,或者直接問一個問題,系統(tǒng)可以直接給你答案。但是,法律領(lǐng)域的檢索工具還停留在關(guān)鍵詞搜索。
比如,律師遇到一個案件或者糾紛,就必須得檢索根據(jù)自己的工作經(jīng)驗總結(jié)出來一些關(guān)鍵詞,而且只有詞表里有的關(guān)鍵詞,才能檢索到結(jié)果。如果一句很簡單的自然語言形式的輸入,用戶可能就檢索不出結(jié)果。
「這種檢索方式甚至連 20 年前的谷歌搜索技術(shù)都不如,」張?zhí)鞊P(yáng)說。
去年四月,他們決定做這個事情。一年多后,他們發(fā)現(xiàn),NLP 在法律領(lǐng)域的應(yīng)用潛力還不止這些,比如,輔助量刑、合規(guī)審查、法律風(fēng)險提示、智能法律咨詢等,都有著非常好的前景和可行性。
「我們堅持做法律,有一個很重要的原因,就是我們覺得它更有可能做出來!雇看娉f。
「最近一年的發(fā)展,也印證了這個想法!箯?zhí)鞊P(yáng)補(bǔ)充道。
二、怎樣的一款產(chǎn)品?
輸入一段案情,或者一些法律要件的組合、甚至將整個案件或判決直接輸進(jìn)去,系統(tǒng)就可以識別出使用者的使用意圖,然后在相應(yīng)的地方進(jìn)行識別語義,匹配到可能相似的案件。
坦白說,這樣的法律檢索工具會非常吸引人,和 ROSS 做的事情也有些類似。據(jù)說,體驗過產(chǎn)品原型的業(yè)內(nèi)人士也驚訝于檢索效果。
冪律的檢索系統(tǒng)(年底會做出一個產(chǎn)品)有兩個亮點(diǎn):意圖識別和根據(jù)語義進(jìn)行匹配。
意圖識別系統(tǒng),能夠理解用戶帶著什么樣的目的搜索這個案子,用戶到底是想要有什么。
比如,類案推送、爭議焦點(diǎn),還是條文查詢。
「每一個領(lǐng)域的律師想要的東西可能也不完全一樣。做產(chǎn)品設(shè)計的時候,我們會調(diào)研不同應(yīng)用場景,不同律師檢索時想知道什么,接下來想做什么,為他們提供更好的搜索結(jié)果!箯?zhí)鞊P(yáng)說。
而基于語義理解進(jìn)行類案匹配,會將文本的深度分析技術(shù),比如關(guān)鍵詞抽取、關(guān)系和事件抽取、摘要生成等,適配到法律語境中。
「我們也在考慮,檢索出來海量相似案例之后,怎么樣就此生成一個報告!雇看娉f。
這與 ROSS 在一年多前接受我們的采訪時曾表達(dá)過的想法,不謀而合:
「接下來幾年的最大目標(biāo)之一,希望 ROSS 可以瀏覽多個案例和證據(jù),然后生成備忘錄,總結(jié)問題,并列出不同觀點(diǎn)。這將會改變律師們研究案子的方式!
「我們最核心能力,肯定還是 NLP 的基礎(chǔ)技術(shù)!雇看娉f,
「具體到法律領(lǐng)域,我認(rèn)為,現(xiàn)在應(yīng)該做類案匹配和判決預(yù)測。這兩個方面,我們算是做得最早,也應(yīng)該是做得最好的!
因此,除了所有法律人都會關(guān)注的類案推薦,他們也在將 NLP 技術(shù)用于判決預(yù)測。
比如,多模態(tài)異構(gòu)信息融合。如何融合案件判決時所要考慮的多文本信息(法律法規(guī)、司法解釋、甚至工商信息等),以便更好進(jìn)行結(jié)果預(yù)測。
另外,預(yù)測判決罪名、量刑還涉及智能推理決策技術(shù),比如如何模擬法官判案邏輯,在系統(tǒng)中引入推理能力。
而他們在這方面的研究正在得到學(xué)術(shù)上的肯定。
一個月前,涂存超參與的一篇研究罪名預(yù)測的論文 Few-Shot Charge Prediction with Discriminative Legal Attributes發(fā)表在了 NLP 四大頂會之一 COLING2018。
我們知道,罪名分布也是典型的長尾分布(冪律分布的一種形式,現(xiàn)在你知道公司名字的由來了):
如盜竊罪、搶劫罪等占了接近一半的案件。比較低頻的幾十個罪名,可能只占了百分之零點(diǎn)幾。
幾千萬案例文書當(dāng)中,幾個高頻罪名,比如盜竊罪、搶劫罪等占了接近一半的案件。比較低頻的幾十個罪名,可能只占了百分之零點(diǎn)幾。
但是,在目前的罪名預(yù)測研究中,低頻罪名的處理效果并不理想。
傳統(tǒng)上,罪名預(yù)測一般被當(dāng)作文本分類任務(wù)處理,利用案件相關(guān)的一些淺層文本文本特征或者屬性特征來預(yù)測結(jié)果。
近些年來,也有基于神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)分類模式的嘗試,但也不能很好處理低頻罪名和混淆罪名的問題。
涂存超所在的團(tuán)隊通過模擬法官的定罪邏輯,引入 10 個有代表性的區(qū)分性屬性(盈利、買賣行為、死亡情節(jié)、暴力行為等),作為事實描述到罪名的中間映射。
通過利用注意力機(jī)制生成與屬性相關(guān)的事實表示,對一個案件的不同屬性進(jìn)行預(yù)測,進(jìn)而預(yù)測最終罪名結(jié)果。結(jié)果,這一方法在低頻罪名預(yù)測上獲得了接近 50% 的提升。
現(xiàn)在的模型取得了較為理想的預(yù)測結(jié)果,然而,其中的可解釋性也需要進(jìn)一步挖掘,對一個法律產(chǎn)品的使用來說,這也是不可忽視的方面之一。
「智能推理決策當(dāng)中,這種可解釋性的問題也非常重要!雇看娉f,法官必須知道其所以然。
在技術(shù)方法上,引入知識圖譜、法律先驗知識,模擬法律人的思維邏輯,有可能打破法律智能的黑箱問題。
劉知遠(yuǎn)教授曾經(jīng)談及先驗語言知識與深度學(xué)習(xí)模型的有機(jī)融合對于理解世界的作用。他的團(tuán)隊也在模型中考慮先驗知識的作用,并做出了一些嘗試。
作為劉知遠(yuǎn)教授的博士研究生,涂存超最近也在做一些技術(shù)上的突破,
「看能否將現(xiàn)有的一些可解釋性研究,適配到法律智能領(lǐng)域。我們會有一些應(yīng)用,也會針對實際情況進(jìn)行一些改進(jìn)。」涂存超說。
三、怎樣的一支團(tuán)隊?
目前,國外大多數(shù)法律 AI 創(chuàng)業(yè)公司都少不了具有法律背景的核心成員(創(chuàng)始人或者聯(lián)創(chuàng)),比如 ROSS、LawGeex 以及被 LexisNexis 先后收購的 Lex Machina 和 Ravel Law 等。國內(nèi)更是如此,比如華宇元典、無訟、律品等。
冪律是為數(shù)甚少由純技術(shù)出身創(chuàng)業(yè)者組建的法律AI團(tuán)隊。
涂存超和張?zhí)鞊P(yáng)曾參加過數(shù)學(xué)和物理奧賽,其他一些團(tuán)隊成員曾是信息學(xué)奧賽國家集訓(xùn)隊成員。換句話說,這些人工智能專業(yè)的博士們幾乎有著類似的學(xué)霸型人生軌跡:
奧賽——保送清華——一路讀到博士——創(chuàng)業(yè)。
剛開始接觸這個領(lǐng)域的時候,對法律知識和行業(yè)的了解還停留在大學(xué)本科政治課的范圍內(nèi)。
研究人員或許可以做一款優(yōu)秀的產(chǎn)品,但這不一定意味商業(yè)上的成功。為避免陷入「技術(shù)為王」,一些投資人在建議技術(shù)見長的團(tuán)隊初期尋找合伙人時,仍要重視市場、商務(wù)等因素對公司的重要推動作用。
「從剛開始做這個東西時,我們就已經(jīng)意識到這個問題!箯?zhí)鞊P(yáng)說,
「我們也正在努力尋找這方面的人才,無論是實習(xí)生、全職還是合伙人,我們一直都在尋找!
不過,冪律現(xiàn)在做的法律檢索工具,更多的是將一個略成熟技術(shù)進(jìn)行應(yīng)用,對技術(shù)的需求更大。因此,通過與律師朋友、法學(xué)院同學(xué)、老師,包括一些公司合作來獲取法律資源的模式,足夠應(yīng)對當(dāng)下的法律需求。
在交流過程中,我們?nèi)匀豢梢泽w會到算法創(chuàng)業(yè)團(tuán)隊對技術(shù)的高度重視。
法律人主導(dǎo)的團(tuán)隊會使用開源工具,但是,冪律的團(tuán)體知道如何改進(jìn)這個工具。
比如,根據(jù)法律把分詞作好,需要更有經(jīng)驗的人。
涂存超曾參與過人工智能所開源分詞工具的開發(fā),「知道怎么去做一個分詞工具,怎么去改進(jìn)一個分詞工具,和只會直接用一個開源分詞工具,效果是有區(qū)別的!箯?zhí)鞊P(yáng)說。
算法、法律知識圖譜方面,也是如此。
「劉知遠(yuǎn)教授是做知識圖譜的,我對知識圖譜也算比較了解!雇看娉f。在他看來,并不是誰先花了很多資源構(gòu)建出這個東西,誰就能獲得先發(fā)優(yōu)勢。關(guān)鍵仍在于,誰能構(gòu)建出一個真正在算法上可用并能提升效果的法律知識圖譜。
在他們看來,法律人主導(dǎo)的 AI 創(chuàng)業(yè)公司也會存在一些不足。
「他們對技術(shù)的理解,與真正做 NLP 的人的理解,可能完全不一樣。」張?zhí)鞊P(yáng)說。
冪律考慮的是什么樣的算法能幫助這個領(lǐng)域提升工具效力,然后才考慮將它設(shè)計成一個很好的產(chǎn)品,但有一些競爭對手考慮更多的可能是尋找一個新的賣點(diǎn),把東西賣出去,但產(chǎn)品里面甚至沒有真正算法部分。
四、什么樣的產(chǎn)品進(jìn)階之路?
現(xiàn)階段的人工智能,更多扮演著賦能行業(yè)的角色。
許多法律AI初創(chuàng)公司的初衷,都是想讓技術(shù)惠及 C 端客戶,但最終落地時幾乎都選擇了服務(wù) B 端,比如,法院、公司法務(wù)部門和律所。
相較于 C 端,B 端用戶既保證了需求的體量與頻次,對產(chǎn)品價格也不會特別敏感。
冪律也表達(dá)了類似的規(guī)劃,「短期來看,無論數(shù)據(jù)條件、市場盈利模式、還是技術(shù)方面,短期內(nèi)都做不到(C 端)。所以,我們先為律所甚至法官、檢察官等從業(yè)者提供一個自然語言檢索工具!張?zhí)鞊P(yáng)說,
「他們的需求比較高頻,尤其是初級律師,檢索的質(zhì)量和效率都是瓶頸,所以,第一階段比較明確要做的,就是這個自然語言檢索平臺!
雖然這意味著,他們第一階段的產(chǎn)品會和北大法寶,無訟等以案例為主的檢索很相似,「但是,我們可能提供的功能會更強(qiáng)大!張?zhí)鞊P(yáng)說。
不過,在通用技術(shù)上進(jìn)行必要的積累、提供一些突破之后,冪律會考慮將基礎(chǔ)性技術(shù)應(yīng)用到具體細(xì)分方向。長期來看,冪律仍然希望能夠打造一個能夠面向 2C 的更通用的法律智能(平臺),降低普通人享受法律服務(wù)的門檻。
五、怎樣的決心?
對涂存超來說,過去一年讓他印象最深刻的體驗是法律人和人工智能研究人員之間的那段「最遠(yuǎn)距離」。
無論是研究還是產(chǎn)品,他們都深深感受到了橫梗在專業(yè)之間的知識壁壘。
比如,類案匹配引擎研究中,大家對什么是類案的理解完全不同。
「不光是法律知識對我們來說的一個壁壘,就連他們覺得什么樣的案子是相似的,我也完全不知道。」而另一方面,法律人士對于技術(shù)該怎么解決這個問題,也完全沒有概念。
「雙方之間存在的這種知識壁壘,包括交流成本都非常高。」涂存超說。
其實,涂存超的體驗幾乎是這個領(lǐng)域所有從業(yè)者的共鳴。但只要我們回顧一下,法律本科生沒有高數(shù)要求,理工科本科學(xué)生僅在政治課中感受過法律,就不難理解這個交叉領(lǐng)域里的巴別塔現(xiàn)象了。
盡管如此,他們?nèi)匀环磸?fù)強(qiáng)調(diào),冪律打算長期做這個事情,雖然創(chuàng)業(yè)仍然不是當(dāng)下人工智能博士們的主流選擇。
當(dāng)身邊有些同學(xué)拿到 80 多萬年薪的 Offer 時,涂存超和張?zhí)鞊P(yáng)卻告訴我們,在求職季里,他們一份簡歷都沒有投,因為當(dāng)時已經(jīng)決定創(chuàng)業(yè),雖然還沒拿到任何投資。
即使在敲定投資人方面,他們更多的還是考慮投資人與公司的優(yōu)勢互補(bǔ)與業(yè)務(wù)發(fā)展。
「無論是我們還是投資人和業(yè)界朋友,他們都看好這個領(lǐng)域的前景。」張?zhí)鞊P(yáng)說。
采訪接近結(jié)束時,我看到在還來不及收拾整理的會議室的黑板上,赫然寫著法律人再熟悉不過的三段論,團(tuán)隊最近還學(xué)習(xí)了犯罪四要件和三階層。
「目前為止,我們沒有遇到過任何一家公司,他們已經(jīng)有非常好的項目經(jīng)理來處理技術(shù)和法律兩方面的問題!刮彝蝗幌氲 IBM Watson Legal 的聯(lián)合創(chuàng)始人、首席專家 Brian Kuhn 在一年前曾分享過的一個觀察。
一個成功的法律AI創(chuàng)業(yè)團(tuán)隊,至少有能力將世界上「最遠(yuǎn)距離」的兩種思維比較好地結(jié)合起來。
征途,才剛剛開始。
為防止簡歷投遞丟失請抄送一份至:boshijob@126.com(郵件標(biāo)題格式:應(yīng)聘職位名稱+姓名+學(xué)歷+專業(yè)+中國博士人才網(wǎng))
中國-博士人才網(wǎng)發(fā)布
聲明提示:凡本網(wǎng)注明“來源:XXX”的文/圖等稿件,本網(wǎng)轉(zhuǎn)載出于傳遞更多信息及方便產(chǎn)業(yè)探討之目的,并不意味著本站贊同其觀點(diǎn)或證實其內(nèi)容的真實性,文章內(nèi)容僅供參考。