網頁資料蒐集技術
1. 對公開網站進行網頁資料蒐整、儲存 (包含靜態頁面及AJAX動態頁面)
2. 提供網URL、標題、文字內容等欄位資訊,並包含使用者回文(例如:Facebook 留言板)資訊。
3. 可根據該使用者ID查詢使用者IP,系統可抓取該使用者上次上站的IP位置,並轉換成經、緯度與所在鄉鎮城市名稱。例如:PTT 可查詢使用者IP位置與上站次數。並能夠抓取PTT使用者的IP與登入次數(包含發文與回文使用者)
4. 提供TELNET 資料蒐集模組,以備網頁蒐集模組失效時(例如: PTT網站伺服器過載導致無法存取),TELNET 蒐集模組還能持續蒐集輿情資訊。
資料銜接API
1. 提供一資料Web Service 接口,並可以透過設定時間區間參數、資料來源參數以及資料輸出格式,篩選取用資料
2. 提供之資料輸出格式必須包含JSON與CSV等格式資料
3. 能夠提供一包含即時輿情資訊的資料庫,可使用資料庫連接工具連結該資料庫,並自由取用輿情資訊做進階分析。
文章分群功能
1. 可以將每日各頻道產生的相似文章進行文章分群
2. 可以透過 API 或告警系統獲取分群結果
文章摘要功能
1. 提供文章摘要功能,將每日蒐集到的各文章濃縮並重新摘要成一新短文,節省本單位人員閱讀文章的時間。
2. 可以從文章回文中挑選出每篇文章中最重要的回文文章
3. 可以透過 API 或告警系統獲取摘要訊息
文章自動分類機制
1. 提供文章自動分類機制。使用者可透過一搜尋介面篩選與事件相關的主題輿情,當使用者從篩選文章中標記數篇(50篇以上)相關文章後,系統可根據使用者的標記產生文章自動分類模型,往後系統可自動為輿情標記類別標籤。
地理資訊視覺化與分析功能
1. 提供一地理資訊視覺化分析介面。當蒐集到的輿情資訊包含IP或地理位置資訊時(經緯度),本單位可將該資訊標記在地圖上。
2. 當使用者縮小地圖時,該系統可以自動統計出各區域的輿情聲量。
熱門文章告警
1. 可以設定資料篩選參數,可以依觀測頻道的文章回文數、讚數或其他數值資訊(例如: 點閱數)進行熱門文章篩選
2. 根據資料篩選條件篩選文章,並以API或告警系統提供熱門文章摘要、重要回文資訊、每日文章分群結果
關鍵字追蹤功能
1. 提供類似Google Alert 功能,能定期追蹤與使用者設定關鍵字相符的輿情資訊。
2. 可以透過 API 或告警系統獲取摘要訊息
告警設置介面
1. 可以透過該介面設定告警篩選條件及收件者之EMAIL
2014年的九合一選舉結束後,從政治人物、政黨組織到政府機關對網路輿情分析的需求日益增長,因此LargitData將原本定位為資料蒐集工具的InfoLite,進階轉換為輿情監控系統InfoMiner。
當時正逢2014年的九合一選舉期間,經朋友介紹認識時任柯文哲競選總部網路部主任的戴季全,受託將InfoLite應用在蒐集網路上討論台北市長選情的輿論,成功在選舉期間探勘出選民對於候選人的喜好。
之後便延伸該應用,製作了InfoMiner,專門為有輿情需求的單位,蒐集相關輿情與提供文字分析服務,讓用戶能知己知彼,百戰不怠。