Я хочу использовать Apache Solr для импорта или индексации таблиц Hive, хранящихся в файлах Parquet на HDFS. Насколько мне известно, первым шагом является импорт или индексирование данных в solr
, но я мало об этом знаю.
Вот мои вопросы:
Окружающая среда: solr 4.10 + CDH5.11
Пожалуйста помоги.
спасибо за ответ. путь улья также является HDFS. не могли бы вы привести мне простой пример того, как загрузить данные hdfs в sorl?
Это видели? hortonworks.com/hadoop-tutorial/searching-data-solr
Вот версия этого руководства для Cloudera cloudera.com/documentation/enterprise/5-7-x/topics/…
Попробуйте ниже: -
1.) создал базовую таблицу в улье
hive> создать таблицу solrinput3 (строка имени пользователя) формат строки разделенные поля, оканчивающиеся знаком ',';
2.) загрузил образцы данных в таблицу solrinput3 следующим образом:
hive> вставить в значения solrinput3 ('sanvi');
3.) ДОБАВИТЬ JAR /opt/lucidworks-hdpsearch/hive/solr-hive-serde-2.2.5.jar;
4.) Теперь я создал интегрированную таблицу solr-hive следующим образом:
СОЗДАТЬ ВНЕШНЮЮ ТАБЛИЦУ dbname.solrtest (заголовок STRING)
ХРАНИРУЕТСЯ 'com.lucidworks.hadoop.hive.LWStorageHandler'
МЕСТОПОЛОЖЕНИЕ '/ lob / test / hive_test'
TBLPROPERTIES ('solr.server.url' = 'http://XXXX.XXX.XXX:8983/solr',
'solr.collection' = 'myproj_collection1',
'solr.query' = ':');
5.) вставить таблицу перезаписи solrtest select * from solrinput3;
SolrCloud просто хранит данные Solr в HDFS ... Не уверен, насколько это доступно для Hive ... Но ваши данные будут скопированы в двух местах, поэтому вы на самом деле не "индексируете таблицу Hive" ... Если вы хотите быстрые SQL-запросы, вы должны использовать Kudu или Impala