Diffbotとは?AIによるWebデータ抽出とナレッジグラフの仕組み・料金・活用法
Webページの情報を自動で収集・整理したいとき、HTMLの構造はサイトごとに異なるため、従来のスクレイピングではページごとにルールを書き換える必要がありました。Diffbotは、この課題をAI(コンピュータビジョンと自然言語処理)で解決するプラットフォームです。URLを渡すだけでページの種類を自動判別し、整理済みのJSONデータとして出力します。さらに、Web全体をクロールして構築した100億件超のエンティティを持つナレッジグラフも提供しており、企業情報や人物情報、ニュース記事などを横断的に検索できます。 Diffbotの会社概要 Diffbotは2008年にスタンフォード大学AIラボ出身のMike Tung氏が設立した米国のAI企業です。本社はカリフォルニア州メンロパークに置かれ、独自のデータセンターからインフラを運用しています(出典: Diffbot公式)。 項目 内容 設立 2008年 創業者・CEO Mike Tung(スタンフォード大学AIラボ出身) 本社 カリフォルニア州メンロパーク 従業員数 約35名(出典: GetLatka) 累計資金調達 1,300万ドル 売上高(2024年) 310万ドル(出典: GetLatka) 主要投資家 Felicis Ventures、Accenture Ventures、DGベンチャーズ 企業のミッションは「人類の知識を統合する最初の自律システムを構築し、知的システムの到来を加速させる」というものです。Microsoft Bing、eBay、Adobe、Dow Jones、Snapchat、Nasdaq、DuckDuckGoなど400社以上がDiffbotのデータを活用しています(出典: Diffbot公式)。 従来型スクレイピングとの技術的な違い 一般的なWebスクレイピングツールは、CSSセレクターやXPathなどのルールを人間が定義して、ページ内の要素を指定します。この手法はサイトのHTML構造が変わると動作しなくなるため、保守コストが高くなりがちです。 Diffbotはこれとは別の手法で動作します。ページのレンダリング結果に対してコンピュータビジョン(画像認識)を適用し、「このブロックはタイトル」「ここは本文」「これは価格」といった判別をAIが自動で行います。独自のChromiumベースのレンダリングエンジンを搭載しているため、ReactやVue.jsなどのSPA(シングルページアプリケーション)も正しく解析できます。 この仕組みにより、以下の利点が生まれます。 サイトごとのルール定義が不要: HTMLの構造に依存しないため、どのサイトでも同じAPIで対応可能 HTML変更に強い: ルールベースと異なり、デザイン変更による動作停止が起こりにくい 意味的なデータ抽出: 抽出されたデータに意味(セマンティクス)が付与されるため、エンティティ間の関係性も把握できる 主要プロダクトの機能 Diffbotは用途に応じた複数のAPIとプロダクトを提供しています。 Extract API 指定したURLのWebページをAIで解析し、構造化されたJSONデータとして返すAPIです。ページの種類(記事、商品、ディスカッション、画像、動画など)を自動的に判別し、それぞれに最適化されたフィールドでデータを出力します。 記事ページの場合の出力例: タイトル、著者、公開日 本文テキスト、画像URL 言語検出、センチメント分析結果 商品ページの場合の出力例: 商品名、説明文、価格(通常価格・セール価格) ブランド、SKU、在庫状況 レビュー数、評点 Crawl API Webサイト全体を自動的に巡回し、Extract APIと組み合わせて大量のページからデータを一括収集するAPIです。クロール対象のドメインやURLパターン、ページ数上限、巡回間隔を設定でき、定期実行による継続的なデータ収集にも対応しています。 Knowledge Graph DiffbotがWeb全体をクロールして構築した、世界最大級の自動生成ナレッジグラフです。以下の2つの機能で構成されています。 機能 概要 KG Search DQL(Diffbot Query Language)を使い、10億超のエンティティから企業・人物・製品・記事などを検索 KG Enhance 自社の保有データ(企業名やドメインなど)をDiffbotのナレッジグラフで補完・拡充 ナレッジグラフのデータ規模(公式サイト掲載値): ...