Во-первых, я полный новичок, приношу свои извинения, если это слишком просто или тривиально.
Итак, у меня есть несколько больших наборов данных twitter json с archive.org (например, https://archive.org/details/archiveteam-twitter-stream-2017-01), которые я хотел бы отфильтровать по определенным хэштегам и сделать их читабельными с помощью python. На данный момент я не могу открыть файл с помощью python или jupyter и вообще не могу заказать файл.
Пример того, как выглядят файлы:
{"created_at": "22 октября, 06:30:00 +0000 2017", "id": 921986981168422912, "id_str": "921986981168422912", "text": "RT @hypebizzle: \" Скажи своей собаке, чтобы она меня бросила в одиночку это раздражает \ "\ n \ nПрежде всего, убирайтесь из моего дома", "source": "\ u003ca href = \" http: //twitter.com/download/iphone \ "rel = \" nofollow \ "\ u003eTwitter для iPhone \ u003c / a \ u003e", "truncated": false, "in_reply_to_status_id": null, "in_reply_to_status_id_str": null, "in_reply_to_user_id": null, "in_reply_to_user_id": null, "in_reply_to_username", "in_reply_to_username", "in_reply_to_username" user ": {" id ": 421547249," id_str ":" 421547249 "," name ":" Cris "," screen_name ":" crisbeltran98 "," location ":" Cajeme, Sonora "," url ":" http : //Instagram.com/cristinabeltraan "," description ":" il futuro non> scritto // Lic.inPsicology on my way. \\ \ u201cCristina saludos, un beso \ "LFHP.", "Translator_type": "none "," protected ": false," Verified ": false,« followers_count »: 1498,« friends_count »: 1383,« list_count »: 6,« favourites_count »: 3174,« statuses_count »: 39135,« created_at »:« Сб 26 ноя 02:51:49 +0000 2011 "," utc _offset ": - 25200," time_zone ":" Arizona "," geo_enabled ": true," lang ":" es "," members_enabled ": false," is_translator ": false," profile_background_color ":" C0DEED "," profile_background_image_url ":" http://pbs.twimg.com/profile_background_images/768201074/3b0047f4eb39cd54a3a82a2d62fa715a.png "," profile_background_image_url_https ":" https://pbs.twimg.com/profile3b2b2b6e3d2e6e3d2e6e6e6e6e6e6e6e6e6e6eaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa63aa true, «profile_link_color»: «000088», «profile_sidebar_border_color»: «FFFFFF», «profile_sidebar_fill_color»: «DDEEF6», «profile_text_color»: «333333», «profile_use_background_image»: true, «profile_image_urlbs»: «http: // pp .twimg.com / profile_images / 919935822694047745 / nm6uOnr3_normal.jpg "," profile_image_url_https ":" https://pbs.twimg.com/profile_images/919935822694047745/nm6uOnjrps ", https://profile_images/919935822694047745/nm6uOnjrps", https: .com / profile_banners / 421547249/1508164767 "," default_profile ": false," default_profile_image ": false," following ": null," follow_request_sent ": nu ll, «notifications»: null}, «geo»: null, «координаты»: null, «place»: null, «участники»: null, «retweeted_status»:
Есть ли кто-нибудь, кто знает, какие шаги предпринять? Кажется, я не могу найти решение в Интернете.
Вы должны показать нам, что вы пробовали до сих пор
Добро пожаловать в StackOverflow! Что вы имеете в виду, говоря «Кажется, я не могу открыть файл с помощью Python»? У вас есть код, которым вы могли бы поделиться? Довольно сложно увидеть, что пошло не так, если мы не видим код. Посмотрите, как создать Минимальный, полный и проверяемый пример. Опубликуйте код, который вы пробовали, и полученные ошибки. Будьте как можно более конкретными, так как это приведет к лучшим ответам.
Конечно! Я пробовал несколько руководств и шагов, это (мне кажется) один из самых простых: 'import json twitter_test = open (' dertig.json ',' rU ') json_data = json.load (twitter_test) print (json_data) ) 'Это в значительной степени первый шаг, и когда я вхожу в него, он дает мне: JSONDecodeError: Extra data: line 2 column 1 (char 4856)'
Добро пожаловать в Stack Overflow! что ты уже испробовал? Когда я открываю JSON в Python, я делаю следующее:
import json
import pprint
df = json.load(open('YOUR JSON DATA'))
pprint(df)
Как только это будет сделано, вы можете вызвать свои данные, выполнив что-то вроде:
df[“created_at”]
Вы пробовали использовать модуль json?