Блогорад блоггер самого блог : самый большой граф знаний

Сеть как база данных: самый большой граф знаний
Представьте, что вы можете получить всю сеть в базе данных и структурировать ее. Тогда вы сможете получить ответы на сложные вопросы в считанные секунды, выполняя запросы, а не поиск. Это то, что обещает Diffbot.
Интернет является одним из величайших достижений и ресурсов человечества. Все расширяющиеся и почти всеобъемлющие, мы все стали зависеть от этого. Есть только одна проблема: для получения информации требуется работа.

ИЗБРАННЫЕ ИСТОРИИ
После iPhone: как долго Apple может ждать следующей большой вещи?
Эй, яблоко: забудь об AirPower. Получите ваши аксессуары действовать вместе
Кто-нибудь действительно заботится об этих ежемесячных показателях «доли рынка»?
Hyperloops и воздушные такси: вот как может выглядеть жизнь в 2030 году
Это потому, что информация находится в документах , а документы в Интернете повсюду, и кто-то должен найти их и прочитать их, чтобы извлечь эту информацию. Поисковые системы прошли долгий путь, и они очень помогают в поиске, но не в извлечении. По крайней мере, до сегодняшнего дня.

Также: дзен и искусство структур данных: от самонастройки до сам проектирующихся систем данных

Google и его коллеги могут иногда создавать впечатление, что они могут понять и ответить на вопросы. Часть причины - добавление человеческих знаний в смесь. Известно, что Google перешел от использования чисто текстовых и статистических методов к добавлению формы курирования, когда купил MetaWeb . MetaWeb разработал Freebase, который представлял собой краудсорсинговый граф знаний, похожий на подход к Википедии, которая была интегрирована в поисковую систему Google.

Съешь свое сердце, Google
Это позволяет Google сделать некоторые из его волшебства. Если вы , например, Google « Google », вы не просто получаете кучу ссылок. Вы также получите информационное окно, в котором перечислены факты, такие как генеральный директор Google, учредители и адрес. Это связано с тем, что в графе знаний Google есть запись, в которой Google указан как компания, и вот некоторые из свойств, которыми обладают компании, поэтому Google выбирает и отображает эту информацию из Википедии.

Икс
Но если вы попробуете Googling «сколько сотрудников у Google» или «каков адрес Google», вы получите набор ссылок. Вы по своему усмотрению - вы должны прочитать документы и выяснить ответ. Если бы эта информация была в базе данных, вы бы набрали что-то вроде « ВЫБЕРИТЕ Адрес ОТ ОРГАНИЗАЦИЙ, ГДЕ Имя = Google », и вы получите ответ в считанные секунды. В этом разница между структурированной и неструктурированной информацией.

Также: MemSQL 6.5: NewSQL с автономной оптимизацией рабочей нагрузки, улучшенным приемом данных и скоростью выполнения запросов.

Special Report: A Guide to Data Center Automation (free PDF)

The data center has become a core part of the modern enterprise, and automation is driving the agility and digital transformation necessary for businesses to thrive and succeed. This ebook, based on the latest ZDNet/TechRepublic special feature,...

eBooks provided by TechRepublic
Это также то, что Diffbot представляет сегодня: возможность запрашивать сеть как базу данных. Этот впечатляющий подвиг также основан на графе знаний. Разница заключается в том, что в случае с Diffbot граф знаний только частично курируется людьми и автоматически заполняется при сканировании сети. ZDNet поговорил с Майком Тунгом, генеральным директором и основателем Diffbot, чтобы узнать, как Diffbot делает это.

Diffbot принимает и анализирует всю сеть в графе знаний - базе данных, которую вы можете запросить. Изображение: Diffbot

Прежде всего, вы должны сканировать сеть. Именно здесь приходят Gigablast и Мэтт Уэллс. Gigablast - это поисковая система, созданная Мэттом Уэллсом, вице-президентом Diffbot по поиску, в 2000 году. Тунг говорит, что именно это Diffbot использует для сканирования и хранения каждого отдельного документа в Интернете. Как бы это ни было тяжело, это даже не половина работы.

Действительно сложная часть заключается в получении информации из документов, и в этом вся магия. Тунг объясняет, что это делается с использованием компьютерного зрения, машинного обучения (ML) и обработки естественного языка (NLP).

Компьютерное зрение помогает Diffbot понять структуру документов. Он имитирует способ, которым люди разбивают документы, выясняя, каковы структурные элементы каждого документа - такие вещи, как заголовки, блоки и т. Д. В идеальном мире это должно быть возможно путем проверки структуры HTML веб-документов. Но не все в Интернете - это HTML, и HTML-документы тоже не идеальны.

Также: MemSQL 6.5: NewSQL с автономной оптимизацией рабочей нагрузки, улучшенным приемом данных и скоростью выполнения запросов.

После структуры приходит контент. Контент анализируется с использованием комбинации НЛП и ML, в результате чего структурированные знания добавляются в граф знаний Diffbot (DKG). Тунг продемонстрировал пример, основанный на Мариссе Майер, бывшем генеральном директоре Yahoo.

Взяв за основу краткий текст о Майере, система Diffbot обработала его и смогла извлечь все факты, описанные в тексте: пол Майера, историю трудоустройства, образование и т. Д. Таким образом, Диффбот добавляет запись для Майера в своих знаниях. график, и заполняет его такими свойствами, как пол, возраст и тому подобное.

«Вопреки распространенному мнению, граф знаний Google основан не на автоматизации» , - говорит Тунг. «В отличие от Google, целью нашей обработки является не ранжирование страниц, чтобы люди могли их прочитать (и по ходу дела внедряли какую-то рекламу), а скорее чтобы вообще избежать чтения человеком.

DKG - это первый граф знаний в веб-масштабе, полностью синтезированный автоматической системой искусственного интеллекта без участия человека. Вот почему основным препятствием для роста является количество машин, которые мы посвящаем этому приобретению знаний », - добавляет он, заключая, что в настоящее время DKG содержит что-то в области триллиона фактов.

От паутины документов до паутины данных
Это не совсем новое. Первым, кто выдвинул идею перехода от паутины документов к паутине данных, был не кто иной, как изобретатель паутины Тим Бернерс Ли, опубликовавший свой манифест Семантической паутины в 2001 году .

Однако, как отмечает Тунг, «длинная история (от RDF / микроформаты / RSS / семантическая разметка) показала, что требование человеческой аннотации никогда не будет масштабироваться с точки зрения экономического стимулирования и точности для всех знаний».

Несмотря на то, что аннотации не обязательно должны быть человеческими (это может происходить и от автоматизации), у Тунга есть смысл: большая часть контента в Интернете очень плохо, если вообще аннотирована. Тунг считает, что построение этого глобального графа знаний с использованием текущего состояния ИИ является правильным подходом - и, похоже, это работает.

Также: быстрое движение без разрушения данных: управление рисками в машинном обучении и за его пределами

Приложения являются широкими и далеко идущими. Тун отмечает, что «корпоративные функции, такие как продажи, рекрутинг, цепочка поставок, бухгалтерский учет, бизнес-аналитика и анализ рынка, работают на основе баз данных, которые могут быть обновлены и точны путем непосредственной интеграции с графиком знаний».

Diffbot обработка естественного языка в действии. Обратите внимание, как факты, извлеченные из текста, представляются в виде тройки субъект - предикат - объект (Изображение: Diffbot)

Тун продемонстрировал такой сценарий, используя DKG для опроса людей, которые работают в Uber. Первоначально запрос возвратил почти 40 000 результатов, которые Тунгу удалось отфильтровать с использованием стандартной фильтрации, как и следовало ожидать от базы данных : получить только текущих сотрудников, отфильтровать по регионам и т. Д.

И эта ссылка на интеграцию с базами данных также имеет далеко идущие последствия. Вышеуказанный сценарий основан только на информации, найденной в Интернете. Но предприятия не просто работают с тем, что они находят в сети, они также имеют свои собственные внутренние системы и базы данных, и Танг говорит, что DKG также может поддерживать их, предлагая одну точку доступа, чтобы управлять ими всеми.

Также: GraphQL для баз данных: слой для универсального доступа к базам данных?

DKG вполне может считаться величайшим достижением Diffbot на сегодняшний день, но это не произошло из ниоткуда. У Тунга есть надежные полномочия, он разработал архитектуры для извлечения информации в масштабах сети и работал на Microsoft , eBay и Yahoo. Diffbot существует с 2008 года, среди его клиентов есть такие имена, как eBay Microsoft Bing, Salesforce и Tencent и Bloomberg среди его инвесторов.

Впечатляет, как все это может звучать, однако, есть несколько ошибок.

Язык, сын
Начнем с того, что не все DKG создаются автоматически. Это не обязательно плохо, но это показывает границы даже того, что может сделать «текущее состояние ИИ». В DKG работают инженеры по знаниям Diffbot, которые решили, что объектами, с которыми он будет работать, будут люди, компании, места, статьи, продукты, обсуждения и изображения.

Это означает , что все Diffbot ползут от веба будет классифицироваться как одна из тех вещей. Очевидно, что это решение было обусловлено тем, что больше всего интересует клиентов Diffbot, но это не означает, что каждая страница в Интернете классифицируется как один из 20 типов, которые DKG знает в настоящее время. Тунг говорит, что они планируют расширить это, чтобы включить категории, такие как события или медицинская информация.

Другими словами, Diffbot сознательно решил ограничить сферу того, что он обрабатывает, чтобы сделать хорошо известную проблему управляемой. Для любого, кто знаком с графами знаний (также называемыми онтологиями для знатоков), Diffbot определяет верхнюю онтологию и заполняет ее из Интернета. Концепция и связанные с ней проблемы хорошо известны, но способ, которым Diffbot справляется с этим, является современным.

А также: AWS Neptune: GA: хорошо, плохо и безобразно для пользователей и поставщиков графических баз данных

Что приводит нас к другой ключевой теме: ответ на вопрос. Если у вас есть вся сеть у вас под рукой, как вы собираетесь это делать? Это зависит. Если вы деловой человек, в идеале вы хотели бы использовать естественный язык. В настоящее время DKG не поддерживает это. Однако у него есть собственный язык запросов Diffbot (DQL).

DQL выглядит довольно просто, если вы знакомы с языками запросов. Но, опять же, если вы знакомы с языками запросов, зачем вам нужно изучать еще один? Уже существует множество языков графовых запросов , таких как SPARQL, Gremlin и OpenCypher, и с ростом количества графовых баз данных мы ожидаем, что они станут все более распространенными.

Языки запросов графов ПОСМОТРЕТЬ ПОЛНУЮ ГАЛЕРЕЮ

Это затрагивает еще одну проблему: даже несмотря на то, что подход Диффбота имеет много общего с концепциями и стандартами семантической сети (Тунг даже специально упомянул RDF-подобные субъект-предикат-объект-тройки в своем анализе текстовой обработки), его подход является частным.

Независимо от того, знакомы ли вы с этими стандартами или нет, разве это не облегчило бы жизнь Diffbot? Например, путем построения DKG поверх готовой графической базы данных. Тун признает, что это так, но он говорит, что они протестировали более дюжины графовых баз данных , и все они были разбиты на 10-100 миллионов объектов, поэтому им пришлось создать что-то проприетарное.

Что касается языковой проблемы, Тунг говорит, что их подход заключается в том, чтобы встречать пользователей там, где они есть, устраняя необходимость в непосредственном использовании языка запросов (или API, который также поддерживает DKG). По словам Тунга, способ сделать это - интегрировать DKG с популярными системами, такими как Salesforce, SAP или Tableau, чтобы пользователи могли прозрачно получать данные из DKG в своих приложениях.

Это может быть полезно для пользователей, но также накладывает на Diffbot бремя разработки и поддержки всех этих интеграций. Однако, по словам Тунга, они намерены разработать мосты для популярных языков запросов, поэтому интеграцию не нужно будет производить вручную.

Также: Планета аналитика 1.0: от лаборатории ООН до земного шара

И последнее, но не менее важное: означает ли возможность запроса в Интернете автоматически доверять результатам? Не обязательно. Вот почему Google и другие разработчики разработали сложные алгоритмы для ранжирования результатов, пытаясь определить наиболее релевантные. DKG только частично делает это.

Например, вы можете фильтровать сотрудников Uber по возрасту, но каков окончательный источник этого? Если источник X говорит, что человек родился в 1974 году, а источник Y говорит, что они родились в 1947 году, кому из них следует доверять? Откуда вы знаете, что они говорят об одном человеке с самого начала?

Это хорошо известные, трудные для решения проблемы, и Diffbot должен решать их, как и все, кто был до них. Однако, несмотря на это, DKG является впечатляющим достижением со многими потенциальными приложениями.

Блогорад блоггер самого блог

генератор обратных ссылок бесплатно

самый большой граф знаний

Комментариев нет:

Отправить комментарий

просмотры в день