Brent answer предлагает мне, что создал базу данных SO-вопросов, чтобы он мог быстро анализировать вопросы.
Я заинтересован в создании подобной базы данных MySQL, чтобы я мог практиковать MySQL с похожими запросами как Brent.
База данных должна включать по крайней мере следующие поля (я угадываю здесь, поскольку API SO api, по-видимому, является сектой). Я собираюсь перечислить только релевантные переменные, которые позволили бы мне провести аналогичный анализ как Brent.
Question_time
Комментарии
COMMENT_TIME
User_id (закрытый ключ)
Нам нужно, по-видимому, очистить данные Python Beautiful Soap, поскольку база данных Brent, по-видимому, скрыта.
Как вы можете сделать такую базу данных MySQL Python Beautiful Soap? **
Я уверен, что можно напрямую работать с дампом данных XML @RichieHindle, но я был намного счастливее с @nobody_ sqlite, особенно после добавления индексов в качестве файла README в этой версии sqlite.
Если у вас есть полная, индексированная версия sqlite и вы хотите загрузить подмножество под маркой Python в базу данных MySQL, это можно рассматривать как простое, но аккуратное упражнение при использовании двух экземпляров API-интерфейса DB, чтение из sqlite и запись к MySQL один (лично я обнаружил, что производительность sqlite полностью удовлетворительна после завершения индексации, поэтому я не делал никаких подмножеств и не переходил на другие механизмы БД) - для этой цели не нужен суп или мыло. В любом случае, это было намного проще и быстрее для меня, чем загрузка из XML напрямую, несмотря на lxml и все.
Конечно, если вы все еще хотите выполнить поднаборную нагрузку, и если у вас возникнут какие-либо проблемы при его кодировании, спросите (с образцами схемы и кода, сообщения об ошибках, если они есть, и т.д.), и SOers попытаются ответить, как обычно! -)
Я не знаю подробностей о том, как импортировать данные в MySQL, но необработанные данные Qaru доступны: http://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/
Там нет секретного API и не нужно использовать Beautiful Soup.