ডেভসংকেত

পাইস্পার্ক চিটশিট

PySpark হল Apache Spark-এর Python API, এটি ওপেন সোর্স, distributed computing framework এবং রিয়েল-টাইম, large-scale data processing এর কাজে ব্যবহৃত হয়

কন্ট্রিবিউটর

    শেয়ার করুন

    SparkSession সেটআপ/চালু করা

    • SparkSession এ Pyspark initialize করুন

      from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('randomName').getOrCreate()

    Data Modify রিলেটেড কমান্ড সমুহ

    • Data ফিল্টার করা

      df.filter(df['age']>24).show()
    • Duplicate Data ড্রপ করা

      df.dropDuplicates()
    • null Data সরানো

      df.na.drop().show()
    • null value replace করা

      df.na.fill(50).show()
    • নির্দিষ্ট কলাম show করা

      df.select('columnName').show()

    Convert ও Output রিলেটেড কমান্ড সমুহ

    • DataFrame কে RDD তে রূপান্তর করা

      rdd1 = df.rdd
    • df এর কনটেন্ট Pandas Dataframe এ করে দেখা

      df.toPandas()
    • ফাইল Write ও Save করা

      RDD.write.option('header',True).csv('/home/Data')
    • Text ফাইল Save করা

      textRdd.saveAsTextFile('/home/Data')

    ডাটাফ্রেম তৈরী ও লোড করা

    • ডাটাফ্রেম তৈরী করা

      from pyspark.sql.types import*spark.createDataFrame([(1, 'a'), (2, 'b')], ['num', 'letter'])
    • CSV file লোড করা

      df = spark.read.load('/home/Dataset/Case.csv', format = 'csv', sep = ',', inferScheme = True, header = True)
    • Txt file লোড করা

      df = spark.read.text('people.txt')
    • JSON file লোড করা

      df = spark.read.json('customer.json')

    Data Inspect রিলেটেড কমান্ড সমুহ

    • কলামের নাম ও ডাটা টাইপ দেখা

      df.dtypes
    • df এর কনটেন্ট show করা

      df.show()
    • df এর প্রথম ১০টি row দেখা

      df.head(10)
    • df এর প্রথম row দেখা

      df.first()
    • Row এর সংখ্যা দেখা

      df.count()
    • df এর Schema দেখা

      df.printSchema()
    • df এর logical ও physical plan দেখা

      df.explain()

    SparkSession Close করা

    • তৈরিকৃত Session Close করা

      spark.stop()

    ডেভসংকেত সম্পর্কে

    ডেভসংকেত এর লক্ষ্য হচ্ছে বাংলাতে একটা বড় চিটশিটের ভান্ডার গড়ে তোলা। এটা সম্পূর্ণ স্বাধীন এবং ওপেন সোর্স গিটহাব অর্গানাইজেশন।

    স্পন্সর