專訪玻森數據:這款基於NLP技術的企業情報系統,商業化現狀是這樣的
雷鋒網按:深度學習的出現,使得NLP技術有著巨大的突破,但總體來說,NLP對於淺層次的特徵提取、分類等問題已比較成熟,而深層次的語義理解是當下的研究熱點。目前,NLP技術在文本處理方面的主要應用有智慧搜尋引擎、機器翻譯、文獻摘要自動生成、文本分類等;在語音方面主要有智慧客服、多媒體資訊提取與文本轉化等。
同時,國內NLP領域的創業公司不斷進行其商業化探索。2012年成立的NLP技術供應商玻森資料便是這樣一家。到如今,公司已經找到了聚焦產品:風報,而據公司CTO趙迎賓介紹,公司現在也有了一個比較健康的現金流。
據趙迎賓介紹,風報是一款基於NLP技術的企業情報系統,通過在全網採集包括工商、涉訴、稅務、行政處罰等海量政府公開信息以及媒體資訊,用NLP技術從不同角度挖掘實體之間關聯,為企業提供風險控制及情報分析。“風報相當於企業情報行業的“百度”,是一種搜集資訊的管道。”趙迎賓對雷鋒網介紹道,通過NLP技術,風報可以幫助企業和個人在海量資訊中挖掘有效資訊,節省大量人工查詢時間及協力廠商調查成本投入。
NLP技術與風控
2016年,玻森資料便與鋼鐵行業B2B電商“獨角獸”找鋼網牽手,將風報用於其供應鏈金融業務中。找鋼網成立於2012年,到2015年時,已經一躍而成為行業內的獨角獸,同時,以撮合買賣雙方起家的找鋼網也開始佈局供應鏈金融,那麼,風控自然不可缺少。
供應鏈金融在貿易領域早已是再常見不過的融資模式之一,但隨著人工智慧的發展,這一領域正在延伸出新的枝幹。不同于消費者金融風控,供應鏈金融最大的風險在於企業經營風險,大宗商品價格波動相對來說比較平穩,即使存在“產能過剩”,依託大型的B2B平臺,根據歷史的交易資料,也可以進行相應的風險控制。大資料風控有效的前提是掌握盡可能多的資料,一般而言,資料來源包括自有平臺資料、外部抓取資料和與合作機構交換資料,取得這些資料後再進行去噪清洗建立風控模型。
而通過NLP技術,將網路上非結構化的資料結構化,接入金融領域的風控模型後,能大大節省了資料整理的時間。
據玻森資料CEO李臻此前介紹,對於金融領域的大資料風控模式,風報能做的有兩點:一是企業資訊過窄的問題,通過風報系統的裁判文書結構化分析和資訊公告關聯挖掘,擴大資料來源;二是快速獲取資訊的問題,通過風報系統核心的NLP技術及開庭公告、事件資訊等功能能夠説明企業從海量的資訊中即時獲取所需資訊,同時實現對交易對手的動態監控。
找鋼網金融事業部副總經理卞崢對雷鋒網介紹說,找鋼網平臺內有大量的企業交易資料,同時在網路上抓取大量資料,“對於我們來說,有效的資料樣本自然是多多益善,風報的接入擴大了資料來源。”“外部抓取的資料比較散,而通過NLP技術,把這些比較散的資料來源結構化,進行二次處理會方便得多。”
對於產品體驗效果,卞崢講道,總體上是不錯的,“但希望資料來源頭越多越好,並且資料來源能更加結構化。”
風報背後的NLP技術
據瞭解,從資訊獲取到企業情報,風報的背後有四個步驟:
獲取資料
形成資訊(用NLP技術,在非結構化文本中抽取核心語義)
產生情報(對新聞拆解分析,通過資料採擷對事件進行分類、以時間軸呈現企業情報資訊)
得到認知(視覺化呈現企業和個人關聯)。
在形成資訊的過程中,涉及如何對句子進行正確拆分;如何進行實體識別,識別出相關人員和群體;以及通過機器學習的方法,對每項內容進行標籤化處理。為了向雷鋒網解釋NLP技術在此的應用,趙迎賓舉了這樣一個例子:
A跟B正在進行一場離婚訴訟,在其證據中提到B在中國農業銀行的一個帳戶,這與中國農業銀行其實並沒有關係,需要用到語義分析技術,來判斷到底誰是案件中的當事人。
雷鋒網根據公開資料瞭解到,目前中國與“企業資訊服務”相關的公司有2000多家,風報、啟信寶、企查查等均屬這一類。
在資料來源上,知名度較高的企信寶是通過征信中心與連接相關征信網站資料介面的獲取,風報則是聚焦在散落在全網中的企業外部文本資料,從海量的企業事件角度切入。玻森資料公司CEO李臻認為,有 80% 的商業情報都以非結構化的自然語言文本形式存在於網路的各個角落,但沒人處理這些資訊。雷鋒網對公司CEO李臻的採訪中也提到,“相比其他產品,風報的核心是分析能力。企業資訊涉及很多裁判文書等非結構化文本,提煉關鍵資訊要進行去重、實體抽取、分詞、清洗及分析等,這些不是資訊匯總就能完成的。”
玻森資料的商業化
事實上,企業資訊服務行業並不是玻森資料一開始就紮根的領域。
據趙迎賓介紹,2012~2014年的這段時間,玻森資料尋求的是與諮詢機構的合作,諮詢公司進行行業調研時會用到大量資料,玻森資料的NLP技術則可對其進行分析和結構化,節省查閱資料的時間。“希望通過十幾個案例積累,找到一種互聯網資料分析的通用化方式,但發現這種嘗試行不通。”“諮詢行業是一個創意驅動的行業,不同報告分析角度不一樣。”
而2015年後,隨著大量政府資訊公開,玻森資料開始做企業資訊服務,並于同年九月發佈了風報這款產品,2016年,開始對外銷售。到目前為止有一年多的時間,公司已經積累了120家客戶。
風報主要採用合同銷售的形式,按照使用量收費,公司的客戶群體可大致分為3類:
第一類是泛金融,包含保險、融資租賃等。
第二類是政府,政府會對所在區內的企業進行風險調查。風報是其一種搜集資訊的管道。
第三類客戶,介於B端與C端之前,是投資人、媒體等,這些人需要瞭解很多的公司背景資訊。
“在風報開始銷售之後,公司就有一個比較健康的現金流。”趙迎賓對雷鋒網講道,據瞭解,波森資料已經有過三輪融資,最近在做B輪。
趙迎賓介紹說,風報每週都會有新版本發佈,主要集中在幾個方面:第一方是在系統中集成新的資料來源,對企業相關的公開未挖掘資料進行結構化以及資料分析;第二,希望對互聯網上56000多家政府網站全覆蓋,做一個相當於政府網站方面的百度,並且需要比百度做得更深。
那麼,玻森資料的未來向哪裡走呢?趙迎賓用玻森的定位告訴雷鋒網答案。
玻森資料以NLP技術為核心,在該平臺上搭建各種商業化應用,專注於SAAS領域,聚焦在風報這個產品上。
有價值的資料、有競爭力的演算法、有商業場景和圍繞著這個商業場景的產品化能力,這三者是保證公司競爭力的法寶,他補充道。